网站的整站抓取并存为pdf,chm方法

时间:2024-02-19 08:55:47

因为有些时候,我们希望把网页的上的精彩资料保存下来。在我们不上网的情况下也能使用这些资料手册。这时,我们想到把它们下载回来,并转为其它我们可以方便浏览的格式。这里讲一下几个软件的使用,因为使用它们,你就可以很简便的实现单个网页以至整个网站的下载,并将它们存为pdf,chm格式。

 

此处下载网站http://www.cocos2d-x.org/reference/native-cpp/modules.html作为例子。

image

 

一、Adobe Acrobat 8 Professional

这个软件本来是收费软件,但是我们都是下载破解版的孩子。。下载回来,找个注册机注册一下,就可以了。这个强大工具,它不仅可以抓取网页还可以实现pdf的编辑,合并,导出为word 格式等。这里主要说一下它怎么抓取。

1、你安装完后,会看到下图

image

2、你点击创建pdf,然后选择从网站创建pdf

image

3、从网页创建pdf,需要输入URL,即你要下载的网页或网站地址。这里获取第几层,说的是从这个网页开始你要下挖掘的深度。当你获取三层的时候,它已经会下载较多的资源并占用较多的空间。(注:你设置仅获取1层代表你要下载的是单个网页,一般我们下载的是该网页,及该网页内所有超链接网页,此时我们获取2层)

image

4、创建后,你就可以获得相应的pdf,你保存即可。因为它并不是下载回来就立即保存在本地的,所以如果中途软件出现无法响应一类的错误时,你辛辛苦苦下载的pdf将要重新下载。所以下载两层是比较好的选择。你可以在下载回来以后再决定哪些页面或者书签需要追加链接到当前文档里。

对某个书签追加到下一层(只要单击右键,即可看到选择):

image

当然你也可以对某个页面实行追加当前页面的所有链接到下一层。找到该页面。选择菜单栏中的高级->网页捕捉->追加页面上的所有链接

image

5、你可以对你的pdf进行注释,修改,删除某些页。这些操作都是比较简单的,就不多说了。

6、到此,你就可以轻松的拥有自己的本地帮助文档了。有时候它下载回来的页面会有些变形不太好看,但是主要的东西,还是看的比较清楚的,而且它还会在抓取的时候,自动帮你编辑便签,方便你的查看。效果图如下:

image

image

二、WebZIP+htm2chm

1、它们两都很好下载,在华军软件园一类就可以下载到了。下载回来,是可以直接使用的exe文件。

2、先用webzip把网站下载回来。打开webzip->文件->创建新工程->

image

按要求填写完信息即可完成创建,按立即执行就会开始下载该网站。

当然,你也可以在后继连接那里设置跟踪链接级别来决定你要下载的网站的大小,如果你想整站下载,就默认设置就可以了。你在下载的时候可以随时暂停下载,而你已经下载的页面和信息不会因为你的软件出现问题而需要您自己重新下载。因为这个下载回来就是html,所以基本能保持网页原貌。

image

image

现在你已经可以直接查看这个网站而不需要上网了,但是如果你的网站比较庞大,那么用这个软件进行查看会比较耗时间,准确来说就是它反应有点慢。

下面,我们把它制作成chm文件。

打开htm2chm.exe

image

编译->设置编译器(找到你要做主页的页面,其它信息会自动填写,输出处填写的是你想把编辑好的chm输出到哪个文件夹里)->开始

image

稍等一会,你就会得到你想要的chm文档

image