【python】dpkt模块快速解析pcap

时间:2024-05-19 12:39:19

【python】dpkt模块快速解析pcap

分步解析pcap包

读入pcap文件

# -*- coding: UTF-8 -*-
import dpkt
import collections  #有序字典需要的模块
import time

def main(file_path):
	f = open(file_path)
	try:
	   pcap = dpkt.pcap.Reader(f) #先按.pcap格式解析,若解析不了,则按pcapng格式解析
	except:
	   # print "it is not pcap ... format, pcapng format..."
	   pcap = dpkt.pcapng.Reader(f)
	   #接下来就可以对pcap做进一步解析了,记住在使用结束后最好使用f.close()关掉打开的文件,虽然程序运行结束后,
	   #系统会自己关掉,但是养成好习惯是必不可少的。当前变量pcap中是按照“间戳:单包”的格式存储着各个单包 
	  

解包

####接着上面代码########
	#将时间戳和包数据分开,一层一层解析,其中ts是时间戳,buf存放对应的包
	all_pcap_data=collections.OrderedDict() #有序字典
	all_pcap_data_hex=collections.OrderedDict() #有序字典,存十六进制形式
	for (ts,buf) in pcap:
		try:
			eth = dpkt.ethernet.Ethernet(buf) #解包,物理层
			if not isinstance(eth.data, dpkt.ip.IP): #解包,网络层,判断网络层是否存在,
				continue
			ip = eth.data
			if not isinstance(ip.data, dpkt.tcp.TCP): #解包,判断传输层协议是否是TCP,即当你只需要TCP时,可用来过滤
				continue
			# if not isinstance(ip.data, dpkt.udp.UDP):#解包,判断传输层协议是否是UDP
			# 	continue         
			transf_data = ip.data #传输层负载数据,基本上分析流量的人都是分析这部分数据,即应用层负载流量
			if not len(transf_data.data): #如果应用层负载长度为0,即该包为单纯的tcp包,没有负载,则丢弃
				continue
			all_pcap_data[ts]=transf_data.data #将时间戳与应用层负载按字典形式有序放入字典中,方便后续分析.
			all_pcap_data_hex[ts]=transf_data.data.encode('hex')
		except Exception,err:
			print "[error] %s" % err
	f.close()
	#验证结果,打印保存的数据包的抓包以及对应的包的应用层负载长度
	test_ts=0
	for ts,app_data in all_pcap_data.iteritems():
		print  time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(ts)) ,":",len(app_data) #将时间戳转换成日期
		test_ts=ts
	#打印最后一个包的十六进制形式,因为加密数据在命令行打印会出现大量乱码和错行,故在此不做演示打印包的字符形式
	print "\n最后一个包负载的十六进制******\n%s"%all_pcap_data_hex[test_ts],"\n"
	

运行测试


if __name__ == '__main__':
	file_path="./test.pcap"
	main(file_path)
	

结果如下图
【python】dpkt模块快速解析pcap
【python】dpkt模块快速解析pcap
dpkt官方文档

完毕