文件名称:docsim:大型文档集的文档相似性分析
文件大小:19.47MB
文件格式:ZIP
更新时间:2024-05-19 07:09:03
C++
docsim-文档相似度程序 句子和基于文件的分析 可以运行此代码,或者忽略输入文本文件中的换行符,并将整个输入文件视为一个句子。 或将输入文件中的换行符视为句子(如[SOROKINA + 07])。 默认设置是将输入文件视为一个整体,而忽略句子边界。 要选择有尊敬的句子,请对-docsim-analyze,-docsim-compare和-S选项使用-S选项。 请注意,如果在分析和比较之间在句子方面是否不匹配,您可能会得到奇怪的结果。 将文件视为一个整体意味着lib / files.cpp需要一个可以读取完整输入文件的缓冲区。 缓冲区大小在lib / definitions.h中控制: #define FILE_BUFFER_SIZE 5000000 自2011年2月16日起,arXiv的最大psv文件大小为〜4.1MB,因此,要处理所有文件,必须使用大于此大小的缓冲区。 汇编 目