Pipeline组Alpha版本发布说明
项目名称 |
Pipeline |
项目版本 |
Alpha版本 |
负责人 |
北京航空航天大学计算机学院 ILoveSE |
联系方式 |
http://www.cnblogs.com/ ILoveSE |
要求发布日期 |
2013-11-20 |
1 更新内容
1.1 修复缺陷
1)数据库重复输入
2)中文分词算法改进
3)Tf-idf关键词算法改进
1.2 新增功能
1)英文分词算法
2)用户手动插入信息
2 环境要求
操作系统需求 |
Windows操作系统 |
运行环境需求 |
无 |
数据库需求 |
需配置数据库到Windows(或Windows server)数据源中,数据库名为crawler |
3 安装说明
直接解压安装,在Pipeline\Pipeline\bin \Debug文件夹中找到Pipeline.exe可以打开程序。
4 使用说明
UI组在制作提问与解答模块时需要用到我们放在服务器中的数据库。我们的数据库中的数据表共有四张。
表名 |
WebPage表 |
WebPage_Tags表 |
Tags表 |
Sensitive_Words表 |
作用 |
存有每个网页的具体属性信息。 |
网页号,标签号,还有每个网页对应标签的对应信息。 |
具体每个标签的属性信息。 |
是每个敏感词的属性信息。 |
主要功能有输入用户自己的新信息,根据提供的网页分词和提取关键词还有对应的摘要。主要的几个操作界面有Rawdata:原始信息,Denoisingdata:降噪后信息,WordSegment:分词后结果,FinalData:关键词和对应摘要,Input New Content:用户自主输入信息。
其他的操作都在按钮上面写的很清楚。
5 已知缺陷和限制
中文分词用朴素贝叶斯算法效果较差;
关键词和对应的preview命中率较低;
由于一些英文网页需要进行机器翻译,联网的速度较慢,限制了改进后的效果。
6 发布地址
该版本代码发布在服务器上,可自行下载试用。
————edited by 杨军