自然语言处理全集_代码结构说明.doc

时间:2017-12-19 12:18:01
【文件属性】:

文件名称:自然语言处理全集_代码结构说明.doc

文件大小:25KB

文件格式:DOC

更新时间:2017-12-19 12:18:01

汉语分词 文本情感分析 文本聚类 词语关系网络 抽象摘要

自然语言处理(汉语)算法实现,Java语言实现,经过优化,效率很高。主要包括: 1)汉语分词,采用ICTCLAS系统和Lucene+庖丁解牛系统 2)情感倾向性分析,包括基于统计学习的SVM算法,基于情感词典的词语权重算法,给出文档的情感权重和情感倾向 3)文本聚类,包括KMeas算法实现,文档向量建模,以及采用Weka API 库效率比较 4)词语关系网络,包括词语距离计算,构建词语的近似程度,并刻画词语网络图 5)抽象摘要,采用TFIDF计算文档关键词进行摘要和关键字提取 经过部分优化,对于大数据量处理瓶颈的优化


网友评论

  • 骗积分的,里面的就是百度的废话
  • 里面的内容.就那么几个关键字,感觉随便网上抄的,放这里感觉就像是骗积分的. 1)汉语分词,包括ICTCLAS系统,Lucene+庖丁解牛系统 2)情感倾向性分析,包括基于统计学习的SVM算法,基于情感词典的词语权重算法 3)文本聚类,包括KMeas算法,Weka API 库的学习与使用 4)词语关系网络,包括词语距离计算 5)抽象摘要,如采用TFIDF计算文档关键词