模拟浏览器抓取网页内容(审查元素中内容)

时间:2019-02-21 05:31:26
【文件属性】:

文件名称:模拟浏览器抓取网页内容(审查元素中内容)

文件大小:585KB

文件格式:RAR

更新时间:2019-02-21 05:31:26

抓取网页内容

利用HtmlAgilityPack可以轻松获取网页内容,但是无法获取动态加载的内容, 通过webBrowser模拟浏览器,获取网页内容。 大致思路: 1、webBrowser加载网页 (如有Ajax动态加载分页的网站,需要配合页面动作,直到页面加载完成,如:滚动条操作) 2、加载完成后获取webBrowser.Document (配合使用webBrowser_DocumentCompleted和Application.DoEvents()) 3、解析网页内容


【文件预览】:
bin
----Debug()
--------InternetSpiderMan.pdb(34KB)
--------InternetSpiderMan.exe(28KB)
--------HtmlAgilityPack.dll(131KB)
--------InternetSpiderMan.exe.config(161B)
--------InternetSpiderMan.vshost.exe(22KB)
--------DLL()
FormMain.cs
FormMain.Designer.cs
Program.cs
obj
----Debug()
--------InternetSpiderMan.pdb(34KB)
--------InternetSpiderMan.csproj.FileListAbsolute.txt(1KB)
--------InternetSpiderMan.Properties.Resources.resources(180B)
--------InternetSpiderMan.FormMain.resources(5KB)
--------InternetSpiderMan.exe(28KB)
--------InternetSpiderMan.Form_sqw.resources(180B)
--------InternetSpiderMan.csproj.GenerateResource.Cache(1KB)
FormMain.resx
InternetSpiderMan.csproj.user
HtmlAgilityPack.xml
Form_sqw.resx
HtmlAgilityPack.pdb
InternetSpiderMan.csproj
app.config
Form_sqw.cs
Form_sqw.Designer.cs
ClassBase.cs
DLL
----HtmlAgilityPack.dll(131KB)
----Microsoft.Office.Interop.Excel.dll(1.05MB)
Properties
----Resources.resx(5KB)
----Settings.settings(249B)
----AssemblyInfo.cs(1KB)
----Settings.Designer.cs(1KB)
----Resources.Designer.cs(3KB)

网友评论

  • 有错误居然还要往网上放
  • 下载下来,运行还报错.没什么用。分数还要那么高
  • 只是简单的获取页面~
  • 明明可以直接使用HtmlAgilityPack组件就可以解决问题了,问什么还要再走一下弯路?
  • 不错,思路很好,学习了