浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案

作者王枫发布于2014年2月19日

综述

随着越来越多的组织的数据从GB、TB级迈向PB级，标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代。对海量数据的处理、分析能力，日益成为组织在这个时代决胜未来的关键因素，而基于大数据的应用，也在潜移默化地渗透到社会的方方面面，影响到每一个人的日常生活，人们日常生活中看到的电视节目、浏览的网页、接收到的广告，都将是基于大数据分析之后提供的有针对性的内容。

微软在大数据领域的战略重点，在于更好地帮助客户“消费”大数据，让所有的用户都能够从几乎任何规模任何类型的任何数据当中获得可以转化为业务执行的洞察力。基于这一战略，微软发布了新一代并行数据仓库一体机SQL Server Parallel Data Warehouse（简称PDW），提供大规模并行处理并具备灵活线性横向扩展能力的数据仓库平台，其主要新特性主要体现在以下3个方面：

为大数据而建：通过Polybase这一数据处理的突破性技术统一查询结构化、半结构划和非结构化数据，帮助用户使用最熟悉的标准SQL语言即可轻松实现Hadoop表和关系型数据库表的关联查询。同时，由于目前大部分常用的商业智能分析工具都无法直接查询Hadoop，而Polybase技术通过从数据库平台层面对Hadoop的集成，使用户可以采用熟悉的现有商业智能工具即可实现对大数据的灵活分析和展现。例如，用户可以利用熟悉的Microsoft Excel在同一表格中分析结构化和非结构化的数据。
新一代性能与规模：采用可更新的 xVelocity 聚集列存储技术，实现高至50倍的性能提升。基于大规模并行处理引擎技术，提供从几个TB到PB级数据的线性横向扩展能力。
最优化的软硬件价值：SQL Server 并行数据仓库一体机具备预装的硬件和软件，集成了目前微软最新一代的软件创新技术如xVelocity 列存储、Polybase、Windows Server 2012 Hyper-V虚拟化技术，Storage Spaces存储技术等驱动精简高效的硬件架构，提供性价比优势。

本文将深入介绍SQL Server 2012 Parallel Data Warehouse的Polybase技术，并结合具体业务场景示例讲解Polybase技术如何为业务人员提供简单易用的大数据解决方案。

Polybase技术

总体来讲，Polybase技术包含以下具体功能：

用一个外部表来定义Hadoop中数据的结构。
通过运行SQL语句实现对Hadoop数据的查询。
通过PDW可关联查询Hadoop数据与关系型数据库PDW中的表，实现Hadoop与PDW数据的整合。
通过运行SQL命令来查询Hadoop并将结果集保存到PDW的表中，轻松实现将Hadoop数据导入到PDW。
Hadoop也可以作为PDW的一个在线数据归档系统，通过运行简单SQL命令即可将PDW中的数据导出到Hadoop，并随时通过PDW对归档在Hadoop中的数据进行在线查询。

下面我们通过一个示例来进一步说明上述Polybase技术的应用场景及使用方法，在这个示例当中我们将基于与美国Sandy飓风相关的一些数据，通过对这些数据的分析来协助决策派往美国各州救援资源的调配计划。

首先，在PDW关系型数据库中可以创建一张表[dbo].[nws_ffg7]，存储来自于美国海洋气象局National Oceanic and Atmospheric Administration（简称NOAA）的数据。与SQL Server 2012的体验相同，我们可以通过标准的SQL Server Data Tools工具来连接PDW，如下图所示。基于[dbo].[nws_ffg7]表可以创建一个视图CREATE VIEW flashflood AS SELECT * FROM [dbo].[nws_ffg7]。通过查询flashflood视图返回的结果集可以看到，这张表里面主要存储美国各个州的名称、地理属性信息如经度、纬度，以及各州在未来多个时间段的降雨量预测信息，如未来1小时（HR1列）、3小时（HR3列）、6小时（HR6列）等等。