【文件属性】:
文件名称:ud120-finalproject:使用机器学习通过安然数据集识别安然公司欺诈
文件大小:11.29MB
文件格式:ZIP
更新时间:2021-05-20 19:00:43
DIGITALCommandLanguage
ud120-finalproject
使用机器学习通过安然数据集识别安然公司欺诈。
使用Enron Datasets.ipynb的功能:感兴趣的人是什么:-被起诉-被定居但不认罪-被证明可以换取豁免
数据集:大量电子邮件
数据类型:数值=数值(数字)
类别=有限数量的离散值(类别)
时间序列=时间值(日期,时间戳)
文字=文字
数据集的形式:
enron_data [“姓氏第一中间人”] = {features_dict}
features_dict包含与人相关联的特征。
安然数据-数据集有趣而困难的部分是非POI到POI的分布非常不对称,因为从146个国家中只有11个人或数据点被标记为POI或犯有欺诈罪。 我们有兴趣将数据集中的每个人都标记为POI或非POI(POI代表“关注的人”)。 不仅如此,如果我们可以给每个人分配一个概率,以查看她成为POI的机会是多少,考虑到总是