spark如何处理多数据集类似leftjoin的操作

时间:2022-06-20 20:33:40
我有两个超大数据集,一个是ip地址列表,另一个是网络prefix列表。
例如:ip_list(192.168.0.1, 192.168.0.2, 192.168.1.9, 172.16.1.100...), prefix_list(192.168.0.0/16, 172.16.1.0/24...)
需要将左边的ip和右边所有prefix列表进行匹配,得出所有prefix中包含的ip个数。
例如对于以上例子最终结果应该为(192.168.0.0/16, 3), (172.16.1.0/24, 1),即对于ip列表(192.168.0.1, 192.168.0.2, 192.168.1.9, 172.16.1.100)有3个ip属于192.168.0.0/16这个网段,有1个ip属于172.16.1.0/24这个网段。
请问各位,这个用spark该如何实现呢? 

1 个解决方案

#1


[使用spark sql]

#1


[使用spark sql]