columbia-catalog-scraper:哥伦比亚大学课程目录

时间:2024-03-04 04:00:43
【文件属性】:

文件名称:columbia-catalog-scraper:哥伦比亚大学课程目录

文件大小:530KB

文件格式:ZIP

更新时间:2024-03-04 04:00:43

scraper JupyterNotebook

发展历程 cra草的外壳非常方便: scrapy shell 'https://en.wikipedia.org/w/api.php?action=query&list=search&srsearch=Michael+Collins+Columbia+University&utf8=&format=json' ... >>> import json >>> jsonresponse = json.loads(response.body_as_unicode()) >>> jsonresponse >>> jsonresponse['query'] >>> import html >>> from scrapy.selector import Selector >>> s = Selector(text=html.unescape( jsonresponse['query']['searc


【文件预览】:
columbia-catalog-scraper-master
----.gitignore(64B)
----README.md(790B)
----tests.sh(576B)
----run-script.sh(132B)
----scrapy-shell.sh(195B)
----test-data()
--------content-diff()
----cu_catalog()
--------config.py(2KB)
--------models()
--------__init__.py(0B)
--------defaults.cfg(889B)
--------console.py(175B)
----scripts()
--------wiki_article_train.py(224B)
--------wiki-search-playground.ipynb(271KB)
--------data_canary.py(5KB)
--------wiki_search_train.py(362B)
--------wiki_search_label.py(5KB)
--------wiki_article_label.py(2KB)
----requirements.txt(189B)
----columbia_crawler()
--------scrapy.cfg(275B)
--------columbia_crawler()
----data()
--------README(718B)
--------wiki-search()
----run-crawler.sh(743B)

网友评论