Pipeline组Alpha版本发布说明

1 更新内容

1.1 修复缺陷

1）数据库重复输入

2）中文分词算法改进

3）Tf-idf关键词算法改进

1）英文分词算法

2）用户手动插入信息

操作系统需求	Windows操作系统
运行环境需求	无
数据库需求	需配置数据库到Windows（或Windows server）数据源中，数据库名为crawler

直接解压安装，在Pipeline\Pipeline\bin \Debug文件夹中找到Pipeline.exe可以打开程序。

UI组在制作提问与解答模块时需要用到我们放在服务器中的数据库。我们的数据库中的数据表共有四张。

表名	WebPage表	WebPage_Tags表	Tags表	Sensitive_Words表
作用	存有每个网页的具体属性信息。	网页号，标签号，还有每个网页对应标签的对应信息。	具体每个标签的属性信息。	是每个敏感词的属性信息。

主要功能有输入用户自己的新信息，根据提供的网页分词和提取关键词还有对应的摘要。主要的几个操作界面有Rawdata：原始信息，Denoisingdata：降噪后信息，WordSegment：分词后结果，FinalData：关键词和对应摘要，Input New Content：用户自主输入信息。

其他的操作都在按钮上面写的很清楚。

中文分词用朴素贝叶斯算法效果较差；

关键词和对应的preview命中率较低；

由于一些英文网页需要进行机器翻译，联网的速度较慢，限制了改进后的效果。

该版本代码发布在服务器上，可自行下载试用。

————edited by 杨军