热门搜词
建筑大数据
工程监管
大数据+
数据价值
建设领域
云计算
地下综合管廊
BIM技术
一带一路
建设工程
建筑业
建筑施工
建筑工程
海绵城市
装配式建筑
文档和查询都用向量来表示。
每一维都对应于一个个别的词组。如果某个词组出现在了文档中,那它在向量中的值就非零。已经发展出了不少的方法来计算这些值,这些值叫做(词组)权重。其中一种最为知名的方式是tf-idf权重(见下面的例子)。
词组的定义按不同应用而定。典型的词组就是一个单一的词、关键词、或者较长的短语。如果将词语选为词组,那么向量的维数就是词汇表中的词语个数(出现在语料库中的不同词语的个数)。
通过向量运算,可以对各文档和各查询作比较。