文件名称:Hadoop之前无法解决的问题-hadoop教程ppt
文件大小:916KB
文件格式:PPT
更新时间:2024-05-16 04:04:26
hadoop 大数据
Hadoop之前无法解决的问题 单机无法计算海量数据 Nutch索引和存储无法实现 关系型数据库无法统计大量数据 数据太大性能与效率低下 3个500G的文件中找出重复出现或不重复的行 100亿条信息中统计TOP10热点新闻 Nutch是搜索引擎,需要存储海量数据,查询需要建立大量索引以提高速度 有100T的网站日志,计算PV,UV,IP