文件名称:垂直搜索与Web实体提取和关系分析
文件大小:510KB
文件格式:PDF
更新时间:2013-03-27 16:44:54
垂直搜索 实体提取
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。 垂直搜索的技术 垂直搜索引擎大体上需要以下技术 1.搜索引擎爬虫:抓取互联网上的相关网页 2.网页结构化信息抽取技术或元数据采集技术:从网页中抽取出结构化的数据 3.分词、索引:存储并索引数据 4.数据展现:由于存储的数据并非简单的网页数据,需要考虑根据行业需求进行展示 5.其他信息处理技术 垂直搜索引擎的技术评估应从以下几点来判断 1.全面性 2.更新性 3.准确性 4.功能性 垂直搜索的进入门槛很低,但是竞争的门槛很高。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势但他们又是没有技术优势的,绝对不要想像着招几个人就可以搞定垂直搜索的全部技术,作为一个需要持续改进可运营的产品而不是一个项目来说对技术的把握控制程度又是垂直搜索成功的重要因素之一。