热门搜词
建筑大数据
工程监管
大数据+
数据价值
建设领域
云计算
地下综合管廊
BIM技术
一带一路
建设工程
建筑业
建筑施工
建筑工程
海绵城市
装配式建筑
向量空间模型有如下局限:
不适用于较长的文档,因为它的相似值不理想(过小的内积和过高的维数)。
检索词组必须与文档中出现的词组精确匹配;词语子字串可能会导致“假阳性”匹配。
语义敏感度不佳;具有相同的语境但使用不同的词组的文档不能被关联起来,导致“假阴性匹配”。
词组在文档中出现的顺序在向量形式中无法表示出来。
假定词组在统计上是独立的。
权重是直观上获得的而不够正式。
然而,这些局限中的多数能够通过集合各种方法来解决,包括数学上的技术(比如奇异值分解)和词汇数据库(比如WordNet)。