文件名称:公司网站的网络挖掘:网络搜集框架和德国的初步研究-研究论文
文件大小:2.49MB
文件格式:PDF
更新时间:2024-06-08 20:08:25
Web Mining Web Scraping R&D
如今,几乎所有(相关)公司都有自己的网站,他们可以使用这些网站来发布有关其产品和服务的信息。 以公司创新为例,我们概述了使用网络抓取和数据挖掘从公司网站提取信息的框架。 为此,我们提出了一种易于使用且免费的Web抓取工具,用于从公司网站上进行大规模数据检索。 我们在大规模的试点研究中使用了该工具,以提供有关数据源(即德国公司网站的人口)的信息,但尚未对其定性和定量特性进行严格的研究。 我们发现,除其他外,网站的使用和网站的特征(子页面和超链接的数量,文本量,使用的语言)根据公司规模,年龄,位置和行业而有所不同。 基于网络的研究还必须应对不同的异常情况,以及低宽带可用性似乎阻止公司运营网站的事实。 最后,我们提出了两种基于神经网络语言模型和社交网络分析的方法,用于从提取的Web数据中获取公司级别的信息。