文件名称:archextract:阐明数字文本收藏的范围和内容
文件大小:441KB
文件格式:ZIP
更新时间:2024-06-08 02:52:12
Ruby
ArchExtract 用于数字馆藏的信息提取和文本浏览工具 ArchExtract是一个网络应用程序,使档案管理员和研究人员能够对文本集合执行主题建模,关键字和命名实体提取。 该Web应用程序自动为研究人员或档案管理员打包了许多现有的自然语言过程和算法。 以自动文本分析为起点,ArchExtract阐明了数字文本集合的范围和内容,并提供了基于Web的文本浏览界面。 先决条件 Python库 Scipy,numpy和la(用于矩阵处理),nltk(用于语言处理),瓶颈,mysql-connector-python,pyner(用于斯坦福大学ner),mr.job(用于python mapreduce),fuzzy_wuzzy和python-Levenshtein(计算字符串)编辑距离和相似性) 对于nltk,您还需要下载nltk数据=> nltk.download() Java依赖 您需