文件名称:text-summarization:Springboard代码训练营Capstone项目的文本汇总算法
文件大小:234.03MB
文件格式:ZIP
更新时间:2024-03-30 21:23:06
文字摘要 使用提取和抽象方法创建摘要 这是我在Springboard Machine Learning训练营的顶点项目的存储库 内容 项目描述 处理原始数据 探索性数据分析(EDA) 演算法 服务模型 1.项目说明 该项目的目的是开发一种文本摘要工具,该工具能够创建给定文档的简短版本,并保留其中最重要的信息。 此任务与访问文本信息并生成新闻,社交媒体和评论的摘要有关。 它也可以用作其他AI任务的一部分,例如回答问题和提供建议。 数据集:CNN新闻集锦数据集,其中包含新闻文章和相关集锦,即一些简短的要点,提供有关文章的简要概述,包含92,579个文档。 CNN数据集是从Kyunghyun Cho提供的版本中从纽约大学下载的,可以在找到 您可以在我的投资组合网站上找到此项目开发的说明, 2.数据清理 原始数据集文件与摘要分开的基本处理。 笔记本: 01-process-raw-dat