在会计研究中使用 Python 进行文本分析-研究论文

时间:2024-06-29 06:27:08
【文件属性】:

文件名称:在会计研究中使用 Python 进行文本分析-研究论文

文件大小:4.77MB

文件格式:PDF

更新时间:2024-06-29 06:27:08

Text analysis data

会计研究中文本数据的重要性显着增加。 为了帮助研究人员理解和使用文本数据,本专着定义和描述了文本数据的常用度量,然后演示了使用 Python 编程语言收集和处理文本数据。 该专着充满了示例代码,这些代码复制了最近研究论文中的文本分析任务。在专着的第一部分中,我们提供了 Python 入门指南。 我们首先描述 Anaconda,它是 Python 的一个发行版,它提供了文本分析所需的库及其安装。 然后,我们介绍了 Jupyter notebook,这是一种改进研究工作流程并促进可复制研究的编程环境。 接下来,我们将教授 Python 编程的基础知识,并演示使用 Pandas 包中的表格数据的基础知识。专着的第二部分重点介绍会计研究中常用的特定文本分析方法和技术。 我们首先介绍正则表达式,这是一种用于在文本中查找模式的复杂语言。 然后我们将展示如何使用正则表达式从文本中提取特定部分。 接下来,我们介绍将文本数据(非结构化数据)转换为表示感兴趣变量(结构化数据)的数值度量的想法。 具体来说,我们介绍了基于字典的方法:1) 测量文档情绪,2) 计算文本复杂度,3) 识别前瞻性句子和风险披露,4) 收集文本中的信息量,以及 5) 计算不同片段的相似度文本。 对于这些任务中的每一个,我们都引用了相关论文并提供了代码片段来实现这些论文中的相关指标。最后,专着的第三部分侧重于自动化文本数据的收集。 我们介绍了网络抓取并提供了从 EDGAR 下载文件的代码。


网友评论