文件名称:网页信息采集过滤.zip
文件大小:14.32MB
文件格式:ZIP
更新时间:2022-07-06 11:08:01
mfc WinInet http c++ regex
用vs2010,基于WinInet的一个用来抓取网页信息(保存为THML文件)的mfc小程序,可以自己输URL,可以自己输关键词进行过滤显示,预设了抓取页面内URL,邮箱等功能,由于对c++ regex 正则表达式不是太懂,筛选信息可能有少许重复,遗漏,做的不是很精致。过大的网页可能无法进行过滤,会产生数组下标越界。(菜鸟还飞不起来。。。)