科技政策库的系统集成与建设下载

【文件属性】：

文件名称：科技政策库的系统集成与建设

文件大小：3.48MB

文件格式：PDF

更新时间：2024-05-26 06:20:24

科技政策库网络爬虫数据清洗机器学习自然语言处理

为了满足科技政策研究需要，中国科协设计并实现了一种科技政策库系统.本文首先介绍了科技政策库的总体设计方案、系统工作流程；然后详细介绍了系统组成，整个系统由数据采集子系统、数据清洗子系统、数据分析子系统3个子系统组成.数据采集子系统基于网络爬虫框架Scrapy软件针对大量异构站点设计了可管理的网络爬虫，并基于ABBYY FineReader软件（俄罗斯软件公司ABBYY发行的一款文档识别软件）实现了历史文献OCR识别（Optical Character Recognition，光学字符识别）和入库.数据清洗子系统基于机器学习算法实现了数据去重、非相关数据识别、数据属性缺陷识别等功能.数据分析子系统则对有效入库的科技政策进一步进行了文本分类、关联关系分析、全文检索.从2018年10月上线以来，该系统从226个数据源采集564 749条数据，经过数据清洗之后入库404 083条数据，能够有力地支撑科技政策研究工作.

立即下载

秒客网

科技政策库的系统集成与建设

网友评论

相关文章