*立国会图书馆书籍批量下载(一)

时间:2021-10-08 09:46:10

*立国会图书馆(http://dl.ndl.go.jp/ )是日本最大的图书馆。馆藏的一些资料进行了数字化,主要是已经不在著作权保护期限,或者是近年的部分论文报告等。

去年国立国会图书馆和近代数字图书馆(近代デジタルライブラリー)合并,在近代数字图书馆中的资料都已经可以直接通过国立国会图书馆查找。


对于历史或者文学爱好者来说,特别是没法亲临日本查资料的朋友来说,国立国会图书馆的网上资料是能轻易获取的、既有价值的一手资料。

不过国立国会图书馆有个比较令人难受(当然主要为了著作权保护之类的)的地方,就是这里的书只能选择下载50页,如果还想下载,还需要手动开启一次,很麻烦是不是!

这篇文章介绍的小办法就是告诉大家如何连续下载国立国会图书馆的书籍。

只需要输入关键词或者图书编号,运行程序,把电脑放一边,一觉起来第二天就可以收资料了,多好!


正文

*立国会图书馆书籍批量下载(一)

资料页面就是这个样子的。可以选择手动一页页浏览。不过在国内不用VPN速度是很感人的……(在国外速度也很慢,除非是在学校的时候,速度才勉强挺好)


*立国会图书馆书籍批量下载(一)

想下载资料时,就会遇到令人麻烦的页数限制(现在好多了,以前近代数字图书馆的时候,最大只能下载20页,那时候真是相当蛋疼的)


下面简单介绍一下笔者的思路,然后草草的结束这篇文章,等到下一篇再放一些代码出来吧~(反正论文季节也过了,再说真的能有谁需要这个工具呢~自嘲一下……)


思路很简单,先确定想要获取的书(或者是关键词)。


首先介绍书的情况。


书的话,只需要填上书的pid编码就行了。

*立国会图书馆书籍批量下载(一)

就是红圈这里,最后的数字。

仔细观察网址就可以知道,每本书的页面就是 http://dl.ndl.go.jp/ + info:ndljp/pid/777473 组成的,所以只要知道书的pid编码,就可以找到这本书啦。

当然了,没必要打开图书链接,在首页就会有。

*立国会图书馆书籍批量下载(一)

把鼠标移动到书的链接上,左下角就是啦。看到觉得会有帮助的书,记下pid就好了。

把pid写到txt文件里,就像下图这个样子。

*立国会图书馆书籍批量下载(一)

保存这个文件,然后等待我的下一篇文章就好啦~


第二种方法,通过关键词查找。

这个很简单,你想要什么关键词,像上面的pid码一样,写好存在txt文件里就行了。

不过这里要注意,由于有些搜索结果会有超过50页(大于1000条),而检索系统只会选择50页(1000条)呈现,所以需要限定时间。

不过遗憾的是笔者并没有对庞大数量的关键词进行自动化筛选处理~所以像“日本”、“中国”、这种会有很多很多结果的关键词,建议就不要写进去了,否则会有很多无关信息的。

建议还是一条条写入pid到txt,然后耐心等待这个小工具自动抓取会比较好哦~


今天就到这里。

PS:最近想找私活,本人Python略懂日语精通,如有需要批量爬取(不太复杂的)数据的需求请联系(QQ:569518379)~