文件名称:模拟浏览器抓取网页内容(审查元素中内容)
文件大小:585KB
文件格式:RAR
更新时间:2019-02-21 05:31:26
抓取网页内容
利用HtmlAgilityPack可以轻松获取网页内容,但是无法获取动态加载的内容, 通过webBrowser模拟浏览器,获取网页内容。 大致思路: 1、webBrowser加载网页 (如有Ajax动态加载分页的网站,需要配合页面动作,直到页面加载完成,如:滚动条操作) 2、加载完成后获取webBrowser.Document (配合使用webBrowser_DocumentCompleted和Application.DoEvents()) 3、解析网页内容
【文件预览】:
bin
----Debug()
--------InternetSpiderMan.pdb(34KB)
--------InternetSpiderMan.exe(28KB)
--------HtmlAgilityPack.dll(131KB)
--------InternetSpiderMan.exe.config(161B)
--------InternetSpiderMan.vshost.exe(22KB)
--------DLL()
FormMain.cs
FormMain.Designer.cs
Program.cs
obj
----Debug()
--------InternetSpiderMan.pdb(34KB)
--------InternetSpiderMan.csproj.FileListAbsolute.txt(1KB)
--------InternetSpiderMan.Properties.Resources.resources(180B)
--------InternetSpiderMan.FormMain.resources(5KB)
--------InternetSpiderMan.exe(28KB)
--------InternetSpiderMan.Form_sqw.resources(180B)
--------InternetSpiderMan.csproj.GenerateResource.Cache(1KB)
FormMain.resx
InternetSpiderMan.csproj.user
HtmlAgilityPack.xml
Form_sqw.resx
HtmlAgilityPack.pdb
InternetSpiderMan.csproj
app.config
Form_sqw.cs
Form_sqw.Designer.cs
ClassBase.cs
DLL
----HtmlAgilityPack.dll(131KB)
----Microsoft.Office.Interop.Excel.dll(1.05MB)
Properties
----Resources.resx(5KB)
----Settings.settings(249B)
----AssemblyInfo.cs(1KB)
----Settings.Designer.cs(1KB)
----Resources.Designer.cs(3KB)