文件名称:数据科学与最高法院:使用最高法院口头辩论的笔录,我创建模型来预测请愿者是否胜诉
文件大小:7.49MB
文件格式:ZIP
更新时间:2024-03-06 10:00:25
Python
使用口头辩论预测最高法院的案件结果 由于COVID-19引起的全球大流行,美国最高法院也不得不进行调整。 法院仍在开庭期间,口头辩论是第一次现场直播,并且实际上是通过电话会议。 虽然过去的会议没有现场报道,但事实证明,所有可追溯到1950年代的口头辩论都已经被转录并通过pdf格式公开提供。 该项目以各种方式(包括使用NLP)处理来自口头辩论的转录数据,以创建可在模型中使用的功能,这些功能可以预测请愿人是否会胜诉特定的最高法院案件。 我发现,没有一个仅依赖口头辩论数据的模型能击败F1-Scores根据对1000多个最高法院案件构成的测试集进行的预测来预测每次请愿者获胜的策略。 该领域的现有研究声称仅使用口头辩论数据即可获得高达70%的准确度的预测模型。 我不同意使用“准确性”作为适当的量度,并且发现这种模型的结果没有通过“请愿人总是成功”方法获得的帮助大。 通过JDyBuncio 6/8
【文件预览】:
data-science-and-the-supreme-court-master
----presentation()
--------ds_and_supremeCourt_presentation_june_2020.pdf(3.45MB)
----create_df_and_fit_models_script.py(12KB)
----src()
--------functions_to_create_case_dfs.py(23KB)
--------functions_for_eda_and_modeling.py(13KB)
--------functions_to_create_transcript_dfs.py(15KB)
----images()
--------justice_vote_predictions.png(300KB)
--------modeling_workflow.png(182KB)
--------EDA_Diff_Questions.png(83KB)
--------grid_search.png(221KB)
--------Wordclouds.png(852KB)
--------word_frequency.png(91KB)
--------parties.png(135KB)
--------vote_similarities.png(311KB)
--------precision_recall_curve.png(107KB)
--------final_results_table.png(70KB)
--------dataframe_workflow.png(304KB)
--------frequent_words.png(113KB)
--------final_results.png(93KB)
--------histogram_cases.png(178KB)
--------timeline.png(119KB)
--------class_balance.png(87KB)
--------feature_importance.png(179KB)
----README.md(19KB)
----data()
--------cases()
--------df_modeling_example.csv(3.33MB)
--------transcript_csvs()
--------case_csvs()