原文链接http://click.aliyun.com/m/13909/

免费开通大数据服务https://www.aliyun.com/product/odps


大数据平台的成熟使得更多种类的非结构化、半结构化的数据分析成为可能其中应用非常广泛的一种场景就是日志分析。在日志类型数据的清洗转换过程中把IP地址转换为归属地又是极为常见的一种场景。那么利用MaxCompute如何实现IP地址向归属地的转换呢

俗话说巧妇难为无米之炊要实现IP地址与归属地的转换必须要有IP地址库不过好在互联网上已经有一些资源而且还提供免费版本的IP数据库下载详见www.ipip.net请叫我雷锋^_^。没错我们首先要把它下载到本地命名为ip.dat。

【大数据技巧】MaxCompute中实现IP地址归属地转换

米已经有了接下来就考虑怎么下厨了。想要在MaxCompute中实现用户自定义逻辑的代码处理最常用的就是MR和SQL UDF。考虑到大部分用户使用偏好以及工作成果的可重用性此处我们给大家介绍通过UDF的实现方式。如果客官还对MaxCompute如何实现UDF不熟悉请自行脑补https://help.aliyun.com/document_detail/27866.html文档中都有代码示例。UDF分为三种分别是UDF、UDAF、UDTF此处不过多介绍毫无疑问这种需求场景需要采用第一种实现。

实现用户自定义函数要继承com.aliyun.odps.udf.UDF具体实现分两个步骤

实现setup方法加载IP地址库数据并做初始化代码片段如下图

【大数据技巧】MaxCompute中实现IP地址归属地转换

o实现evaluate方法完成用户数据IP地址到归属地的转换逻辑代码片段如下图

【大数据技巧】MaxCompute中实现IP地址归属地转换

此处需要注意的是MaxCompute中是采用UTF-8编码的为了避免出现中文乱码我们在输出是可以指定编码方式为UTF-8。

Coding完成后编译打包命名为getaddr.jar。而后我们需要把ip.dat以及getaddr.jar作为资源上传到MaxCompute项目空间。上传资源可以通过数加DataIDE中向导的方式也可以通过Console中执行命令的方式。两种方式截图如下

方式一

【大数据技巧】MaxCompute中实现IP地址归属地转换

方式二

【大数据技巧】MaxCompute中实现IP地址归属地转换

资源上传完毕后需要创建Function在控制台或者数加DataIDE窗口中执行命令如图

【大数据技巧】MaxCompute中实现IP地址归属地转换

至此UDF已经实现完成我们需要做个验证比如我们可以通过UDF查询116.11.34.15这个IP地址的所属地如下图

【大数据技巧】MaxCompute中实现IP地址归属地转换

准确性验证如下图

【大数据技巧】MaxCompute中实现IP地址归属地转换

当然准确性一方面是我们解析匹配的逻辑更重要的也取决于IP地址库本身是否准确。


代码下载https://yq.aliyun.com/p_w_upload/download/?spm=0.0.0.0.TQ3hRZ&filename=GetAddr....[%E9%9A%90%E6%9E%97].1489571623.rar



【大数据技巧】MaxCompute中实现IP地址归属地转换

附件下载  GetAddr....[隐林].1489571623.rar