Apache Lucene.这是一个高性能的软件,用java写的功能全面的文本搜索引擎。
SemanticVectors.语义向量索引,将随机投影算法(类似于潜在的语义分析)应用于Apache Lucene构建的文本词组矩阵。
Gensim是一个Python NumPy的向量空间模型的框架。它包含对Tf–idf、潜在的语义索引、随机投影和潜在的狄利克雷边界的增值算法(有效利用内存空间)。
Antonio Gulli开发的Compressed vector space in C
Text to Matrix Generator (TMG)用于一系列特殊文本挖掘的matlab工具箱。(1)指标化(2)检索(3)降维(4)聚类(5)分类。大多数的TMG都是用matlab编写的,小部分是用Perl编写的。它包括了LSI的实现和聚类、NMF以及其他方法。
SenseClusters,通过潜在的语义分析和单词的同现矩阵来进行文本和词组聚类的一个公开软件包。
S-Space Package,通过“统计语义”实现的的检索程序集成。