文件名称:AzureSearchCrawler:使用Abot的简单Web搜寻器,它将页面内容索引到Azure搜索中
文件大小:15KB
文件格式:ZIP
更新时间:2024-02-22 22:39:02
crawler azure azure-search abot AzureC#
关于 是用于Web和移动应用程序开发的云搜索服务。 该项目可帮助您将网站中的内容获取到Azure搜索索引中。 它使用来爬网网站。 对于每个页面,它以可自定义的方式提取内容并将其索引到Azure搜索中。 该项目旨在作为实际爬网程序的演示或起点。 至少,您需要用适当的日志记录替换控制台消息,并自定义文本提取以改善用例的结果。 如何:快速入门 创建一个Azure搜索搜索服务。 如果您不熟悉Azure搜索,请遵循。 在搜索服务中使用三个字符串字段创建索引:“ id”,“ url”和“ content”。 使它们可搜索。 打开.sln文件后,从Visual Studio中运行CrawlerMain,或者使用msbuild编译后,从命令行运行CrawlerMain。 您将需要传递一些命令行参数,例如您的搜索服务信息以及您要爬网的网站的根URL。 不带参数或使用-h调用程序将列出参数。 如何:为您的项目自定义 文字提取 若要调整从每个页面提取和索引的内容,请实现自己的TextExtractor子类。 有关更多信息,请参见类文档。 搜寻器设定 Abot搜寻器由Crawler.CreateCraw
【文件预览】:
AzureSearchCrawler-master
----.gitignore(4KB)
----AzureSearchCrawler.sln(996B)
----AzureSearchCrawler()
--------CrawlHandler.cs(314B)
--------Crawler.cs(3KB)
--------AzureSearchIndexer.cs(3KB)
--------packages.config(1KB)
--------App.config(182B)
--------TextExtractor.cs(3KB)
--------AzureSearchCrawler.csproj(8KB)
--------CrawlerMain.cs(3KB)
--------Properties()
----LICENSE.txt(1KB)
----README.md(2KB)
----.gitattributes(2KB)