文件名称:idmlib:所有 iZENECloud 项目的数据挖掘库
文件大小:1.79MB
文件格式:ZIP
更新时间:2024-07-12 23:32:08
C++
数据挖掘库 一个通用的数据挖掘 C++ 库 特征 关键词提取。 我们已经实现了两种关键短语提取方法。 一个参考了论文的翻译模型,另一个来自我们的innovatin,它使用维基数据作为语义知识库。 分类生成。 重复检测。 首先阅读论文Detecting Near-Duplicates for Web Crawling然后我们可以理解算法。 我们使用了著名的 Charikar simhash 指纹生成方法,并将维度(f)设置为 64。 Ctr 预测。 我们已经实现了和 。 中文查询更正。 协同过滤。 这是一个基于项目的增量协同过滤。 其他。 依赖关系 我们最近刚刚为SF1R切换到C++ 11 ,并且相应地构建SF1R需要GCC 4.8 。 由于大量库之间的嵌套引用,我们不建议使用 Ubuntu 进行项目构建。 CentOS / Redhat / Gentoo / CoreOS 是首