微软大数据解决方案

时间:2022-09-16 18:06:10

总体介绍

为了从数据中寻找商业价值,如今的企业面临着越来越多的挑战:首先,新的设备和传感器不断出现,导致数据持续激增和硬件成本迅速下降。如今,更多的企业需要存储TB甚至PB的数据。其次,当客户既以关系型格式存储结构化数据,又存储非结构化数据时(例如WORD或者PDF文件、图像、视频和地理空间数据),数据会更加复杂。事实上,行业分析师证实,超过80%的数据是非结构化数据。最后,客户同样面临着数据处理速度带来的挑战——处理流式数据的企业(例如网站上的点击流)需要实时更新数据来为实时的广告服务或者向用户呈现实时的数据。

微软对Big Data已经做了很久的研究:为了呈递高质量的搜索结果,微软在Bing中分析了超过100PB的数据。另外,微软提供了一些解决方案来帮助客户面对处理大数据带来的挑战。在Microsoft® SQL Server® 2008 R2, SQL Server® Fast Track 数据仓库,商业数据仓库和SQL Server® 2008 R2 并行数据仓库中,数据仓库解决方案提供了一个可靠的并且可扩展的平台,该平台可用于在传统数据仓库中存储和分析数据。并行数据仓库(PDW)为客户提供了企业级的性能:处理超过600TB的大量数据。针对技术计算,微软还为LINQ to HPC(高性能计算)提供了分布式的运行时和编程模型。

除了以上提到的传统功能外,为了通过激活任何规模的新数据类型来向所有用户展现提供商业洞察力的版本,微软将Apache HadoopTM做为端到端发展路线的一部分。

微软Big Data 解决方案

微软致力于向所有用户提供任何数据中的商业洞察力,包括非结构化数据中的潜在洞察力。为了完成这个目标,微软将为Windows Server和Windows Azure推出基于分布式的Apache HadoopTM,以此帮助促进它在企业中的应用。 新的基于分布式的Hadoop可以使客户挖掘任何规模的结构化和非结构化数据中的洞察力,并且激活新的数据类型。Hadoop中丰富的洞察力可以和微软商业智能平台无缝整合。

关键收益  1 通过轻松的安装和配置以及简化的JavaScript编程,可以对终端用户,IT专家和开发者进行更加广泛的Hadoop访问  2 为企业准备的Hadoop分布式具有更好的安全性,性能并且易于管理  3 通过使用熟悉的软件来拥有突破的洞察力,例如PowerPivot for Excel,SQL Server 分析和报表服务

微软的Big Data解决方案还提供了和其他Hadoop分布式的互操作性,这使客户可以在若干个源中挖掘洞察力。

 两个Hadoop连接器:首先,微软提供的2个Hadoop连接器可以使客户在Hadoop和SQL Server或者SQL Server 并行数据仓库之间无缝地移动数据。这两个Hadoop连接器对现有的客户免费提供。  Hive ODBC驱动,附带Excel Hive Add-In:其次,微软提供了新的Hive ODBC驱动和Excel Hive Add-In,这些可以使客户将数据从Hive直接移入Excel或者微软BI工具,例如PowerPivot for Analysis。

 

为企业准备的Hadoop

为了促进在企业中的应用,微软使Hadoop可以为企业服务,这是通过以下几点来实现的:

1 Active Directory集成:通过在Hadoop中集成Active Directory来提供企业级的安全性 2 高性能:增强Hadoop的性能来提供持续高的数据吞吐量 3 System Center集成:通过集成微软的管理工具来简化Hadoop基础架构的管理,例如System Center 4 BI集成:通过使用Hadoop连接器,允许将关系型和Hadoop型数据集成到企业BI解决方案中。 5 针对Windows Server和Windows Azure,部署选项的灵活性和选择为客户提供了:

          o *选择:可以选择哪些数据保存在本地而不是云端,因此,客户拥有更多选择           o 较低的TCO:在云端需要更少的资源来进行Hadoop部署,因此,客户可以减少成本           o 适合需求的弹性:针对更大的工作负载,您可以添加更多的节点到Windows Azure部署中,因此,这种弹性减少了您的成本。另外,当需求量较大时,Azure的Hadoop部署可以用来扩展本地解决方案           o 增长的性能:使计算距离数据更加接近——微软的解决方案可以使客户处理距离产生地更近的数据,无论数据位于本地还是云端。

微软做这些是为了维护和现有Hadoop工具的兼容性,例如Pig,Hive和Java。微软的目标是确保运行在Apache Hadoop上的应用程序可以轻松迁移到微软的分布式平台上,这些平台运行在Windows Azure或Windows Server上。

对Hadoop的扩大访问

微软致力于为用户,开发者和IT专家提供更加广泛的可访问性和可使用性。 通过简化购置,安装和配置过程,新的基于分布式的Hadoop(用于Windows)对于IT专家来说使用起来很容易。借助于Hadoop的智能包和它的工具集,客户只需用几个小时就可以安装和部署完毕Hadoop,而无需几天。 为了使用熟悉的工具来分析Hadoop中的数据,例如Microsoft Excel和获奖的BI客户端(例如PowerPivot for Excel),终端用户可以使用Hive ODBC驱动或者Hive Add-In for Excel。

通过实现使用JavaScript编写高性能Map/Reduce程序,微软正在努力使JavaScript成为Big Data中的首选语言。另外,微软的JavaScript控制台将允许用户编写JavaScript Map/Reduce程序,Pig-Latin和浏览器中的Hive查询,以此来执行他们的Hadoop程序。对于这一类的创新,微软希望以此为社会做出了一些贡献。

突破的洞察力

通过允许客户将数据库中的关系型数据和Hadoop中的非结构化数据结合起来,微软Big Data解决方案提供了突破的洞察力。针对Windows Server和Windows Azure,基于分布式的Hadoop可以使客户:

 借助于Hive Add-In for Excel,使用熟悉的工具分析Hadoop数据,例如Excel  通过Hive和微软BI工具(例如PowerPivot和PowerView)的集成,减少实施解决方案的时间  通过Hive和前导BI工具(例如SQl Server分析服务和报表服务)的集成,构建企业的BI解决方案,该方案包含了Hadoop数据

Hive ODBC驱动允许客户从Hive中将数据直接移入Microsoft Excel或者SQl Server BI工具中,例如SQL Server 分析服务,报表服务,PowerPivot和针对数据可视化的PowerView。决策者和利益相关者可以将这些洞察力合并到消耗仪表板之中。 正如之前所提到的,微软更远大的目标是,通过提供企业级的基于分布式的Hadoop(在Windows平台上)和允许所有用户从任何数据中挖掘突破的洞察力,使更多的开发者,IT专家和终端用户可以访问Hadoop。