文件名称:Haw数据清洗和抓取工具
文件大小:4.47MB
文件格式:ZIP
更新时间:2019-08-18 02:40:21
Hawk 爬虫 数据清洗 ETL
HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件, 并通过可视化地拖拽, 快速地进行生成,过滤,转换等操作。其功能最适合的领域,是爬虫和数据清洗。 Hawk的含义为“鹰”,能够高效,准确地捕杀猎物。 HAWK使用C# 编写,其前端界面使用WPF开发,支持插件扩展。通过图形化操作,能够快速建立解决方案。 GitHub地址:https://github.com/ferventdesert/Hawk 其Python等价的实现是etlpy: http://www.cnblogs.com/buptzym/p/5320552.html 笔者专门为其开发的工程文件已公开在GitHub: https://github.com/ferventdesert/Hawk-Projects
【文件预览】:
Hawk-1.2.0
----System.Windows.Controls.WpfPropertyGrid.dll(194KB)
----splash.jpg(53KB)
----Jayrock.Sandbox.dll(28KB)
----Jayrock.Json.dll(148KB)
----Xceed.Wpf.DataGrid.dll(2.41MB)
----IronPython.dll(1.74MB)
----log4net.config(947B)
----Hawk.vshost.exe(22KB)
----en()
--------Hawk.Core.resources.dll(4KB)
----Hawk.exe.config(551B)
----FiddlerCore4.dll(389KB)
----ICSharpCode.SharpZipLib.dll(196KB)
----NPOI.dll(1.55MB)
----Hawk.ETL.Controls.dll(41KB)
----MongoDB.dll(300KB)
----NPOI.OpenXmlFormats.dll(1.26MB)
----AvalonDock.Themes.Expression.dll(107KB)
----Hawk.ETL.dll(226KB)
----Jayrock.dll(92KB)
----HtmlAgilityPack.dll(132KB)
----Microsoft.Dynamic.dll(1022KB)
----log4net.dll(280KB)
----Microsoft.Scripting.dll(139KB)
----MainConfig.xml(2KB)
----NPOI.OpenXml4Net.dll(78KB)
----PluginLogicLog.xml(2KB)
----Hawk.vshost.exe.manifest(490B)
----Hawk.Core.dll(934KB)
----Hawk.exe(77KB)
----Hawk.vshost.exe.config(551B)
----Microsoft.Scripting.Metadata.dll(91KB)
----AvalonDock.dll(457KB)
----NPOI.OOXML.dll(378KB)
----Xceed.Wpf.Toolkit.dll(880KB)