在处理数据时,遇到join on的条件有多个,然而hive不支持on or,因此问了度娘,找了google才发现这东西还涉及hive优化,吭哧了一下午终于弄出来,心情豁然开朗,希望本文能帮到遇到难题的你们。
我的一个表是有关电话号码的,另一个表是解析这个电话号码的,分析号码的省,市,服务商,手机号就取前7位获得省市服务商,固话就取前3/4位,所以问题就来了,join 后面的条件有多个,要是sql是这样的
select call_bill.bill_id,call_bill.caller,phonearea.province,phonearea.city ,phonearea.isp
from call_bill left outer join phonearea
on (substr(call_bill .caller,1,7) = phonearea_test.prefix
or substr(call_bill .caller,1,3)=phonearea.code);
or substr(call_bill .caller,1,4)=phonearea.code;
到hive上你会发现有错误
尝试多种方法,应该用union all 这样
select id,caller,province,city,isp
from ( select bi.bill_id id,bi.caller caller,ph.province province,ph.city city,ph.isp isp
from call_bill bi left outer join phonearea ph on substr(bi.caller,1,7) = ph.prefix
UNION ALL select bi.bill_id id,bi.caller caller,ph.province province,ph.city city,ph.isp isp
from call_bill bi left outer join phonearea ph on substr(bi.caller,1,3)=ph.code
UNION ALL select bi.bill_id id,bi.caller caller,ph.province province,ph.city city,ph.isp isp
from call_bill bi left outer join phonearea ph on substr(bi.caller,1,4)=ph.code
) tmp_tmp GROUP BY id,caller,called,province,city,isp;
本文出自“筱Mary”博客,转载请务必保留此处
http://blog.csdn.net/qq_31382921/article/details/52095115