热门搜词
建筑大数据
工程监管
大数据+
数据价值
建设领域
云计算
地下综合管廊
BIM技术
一带一路
建设工程
建筑业
建筑施工
建筑工程
海绵城市
装配式建筑
据文档相似度理论的假设,如要在一次关键词查询中计算各文档间的相关排序,只需比较每个文档向量和原先查询向量(跟文档向量的类型是相同的)之间的角度偏差。
实际上,计算向量之间夹角的余弦比直接计算夹角本身要简单。
其中 是文档向量和查询向量的点乘。 是向量d2的模,而 是向量q的模。向量的模通过下面的公式来计算:
由于这个模型所考虑的所有向量都是每个元素严格非负的,因此如果余弦值为零,则表示查询向量和文档向量是正交的,即不符合(换句话说,就是检索项在文档中没有找到)。如果要了解详细的信息可以查看余弦相似性这条目。