Bollywood-Movie-Data-Extraction-from-Wikipedia:从宝莱坞行业开始到2020-21年提取宝莱坞电影数据

时间:2021-04-06 19:53:01
【文件属性】:
文件名称:Bollywood-Movie-Data-Extraction-from-Wikipedia:从宝莱坞行业开始到2020-21年提取宝莱坞电影数据
文件大小:4KB
文件格式:ZIP
更新时间:2021-04-06 19:53:01
Python 宝莱坞电影数据从*中提取 从宝莱坞行业开始到2020-21年期间提取的宝莱坞电影数据。 此python脚本文件将帮助您从Wikipedia中提取电影数据并将其存储到csv文件中。 提取诸如 发行年份 电影标题 投 导演 类型(如果有) 我编写了此脚本以提取数据,以创建宝莱坞电影推荐系统。 您可以从查看它的演示 脚本详细信息 它将所有数据存储为JSON格式,并为Regenmender系统将单独的json文件存储为流派,导演和演员 fetch_link_pages是py脚本文件的功能,该文件提取Wikipedia页面的基本链接,然后从WikiPedia中提取宝莱坞电影的所有年度明智链接。 然后提取表数据,然后针对每个表进行迭代以提取数据。 由于WikiPedia的格式有时会更改,因此我使用了条件语句来简化提取过程 创建了一些单词和关键字列表,在提取时将忽略这些单词和关键字 除了这
【文件预览】:
Bollywood-Movie-Data-Extraction-from-Wikipedia-main
----movie_scrapper.py(7KB)
----README.md(1KB)
----fetching_links.py(1KB)

网友评论