应用场景分析——Google搜索-云计算相关课件整理

时间:2024-05-14 08:51:47
【文件属性】:

文件名称:应用场景分析——Google搜索-云计算相关课件整理

文件大小:13.3MB

文件格式:PPT

更新时间:2024-05-14 08:51:47

云计算

应用场景分析2——Google搜索 Google搜索的总体业务流程 数据采集: Spider 数据整理:(1)生成各类子表,如音乐表、生活搜索表、学术搜索表等 (2)压缩数据表,清洗失效数据 数据检索 数据采集 通过若干Spider在网络上搜集数据 使用BigTable存储数据:(1)行键:倒排的URL (2)列键:网站名称、语言、HTML描述、图片、链接……(3)时间戳:记录不同时刻的网页快照( 数据整理 Google搜索包括多个子类:(1)生活搜索:租房、车票、酒店等 (2)资讯搜索:热门新闻、分类新闻等 (3)学术搜索:学术论文 定期计算网站评价数据:例如PageRank的计算 数据整理(Google学术搜索) 数据抽取:(1)寻找包含学术(论文)信息的网页数据,并结构化存储 (2)学术(论文)信息抽取(分析参考文献、摘要等) (3)可能的技术方案:MapReduce+BigTable 数据统计:(1)基于抽取的数据进行统计分析(如分析被引用次数等) (2)可能的技术方案MapReduce+BigTable 学术信息BigTable:(1)行键:论文标题 (2)列键:作者、主题词、摘要、参考文献、期刊信息、被引用次数、下载链接……


网友评论