文件名称:数据科学入门指南:术语景观-研究论文
文件大小:1.36MB
文件格式:PDF
更新时间:2024-06-29 21:15:50
Data science; web scraping;
新兴的数据科学领域已Swift发展成为一个极其多样化的领域,配备了多学科技术来提取、分析和分类结构化和非结构化数据。 这些方法为研究人员、政策分析师和非专业公众提供了对大量人类、组织和社会活动的基于证据的见解,其规模和范围是传统科学方法很少可能实现的。 然而,目前数据科学空间的多学科性质存在“语言”问题,因为来自不同领域的数据科学家经常使用不同的术语来描述共同的方法和概念。 本研究的目的有三个。 首先,我们报告了识别和定义数据科学基本内容领域的文献综述的结果,特别关注数据收集技术的分类。 其次,我们在数据科学最常用的术语之间建立了一组初步的关系,以促进来自不同领域的科学家之间的跨学科交流。 第三,我们根据网络抓取方法的可用性、该方法获得的数据的质量、数据提取的难易程度、可重复性、利用每种方法所需的技术技能以及数据类型,制定了网络抓取方法的分类方案每种方法收集。