【文件属性】:
文件名称:Bollywood-Movie-Data-Extraction-from-Wikipedia:从宝莱坞行业开始到2020-21年提取宝莱坞电影数据
文件大小:4KB
文件格式:ZIP
更新时间:2021-04-06 19:53:01
Python
宝莱坞电影数据从*中提取
从宝莱坞行业开始到2020-21年期间提取的宝莱坞电影数据。
此python脚本文件将帮助您从Wikipedia中提取电影数据并将其存储到csv文件中。 提取诸如
发行年份
电影标题
投
导演
类型(如果有)
我编写了此脚本以提取数据,以创建宝莱坞电影推荐系统。 您可以从查看它的演示
脚本详细信息
它将所有数据存储为JSON格式,并为Regenmender系统将单独的json文件存储为流派,导演和演员
fetch_link_pages是py脚本文件的功能,该文件提取Wikipedia页面的基本链接,然后从WikiPedia中提取宝莱坞电影的所有年度明智链接。
然后提取表数据,然后针对每个表进行迭代以提取数据。
由于WikiPedia的格式有时会更改,因此我使用了条件语句来简化提取过程
创建了一些单词和关键字列表,在提取时将忽略这些单词和关键字
除了这
【文件预览】:
Bollywood-Movie-Data-Extraction-from-Wikipedia-main
----movie_scrapper.py(7KB)
----README.md(1KB)
----fetching_links.py(1KB)