最近开始写一个RSS聚合程序,需要爬虫支持,于是就整来heritrix,没想到,这东西还挺拽,费了老衲好几个小时来安装配置这个heritrix。最后经过不懈努力,终于起来了,具体步骤如下:
你如果在网上找相关配置,大多数都是讲先修改conf/properties文件的用户名和密码以及修改jmxremote.password.template,然后将其改名复制到heritrix根目录下,接着就让你无辜的启动服务,于是你便无辜的启动好多次,怎么总是启动不起来,报什么乱七八糟的错误,我明明是按照网上说的做了的。其实仔细看看错误,绝大多数情况下会给你说这个文件关于权限的问题,说jmxremote.password这个文件只能只读,于是有人兴冲冲的改进右键属性,将属性设置为只读,于是又重启,奇葩了,怎么还是启动不起来,还是与前面一样的错误!怒了.......
经过我一番周折,后来发现,这个jmxremote.password的权限是系统级的权限问题,跟文件级的权限没有关系。我右键属性,选择安全选项卡,点击高级按钮,在弹出的对话框中点击更改权限按钮,接着在弹出的对话框中把"包括可从该对象的父项继承的权限(I)"的选项去掉,接着又弹出一个对话框,点击删除按钮即可,然后这个对话框消失之后,你会发现,这个文件的用户权限都没了,没关系,重新再添加一个用户权限,但是给这个用户的权限只有只读权限。最后完成之后,显示如下图:
好了,重新启动heritrix,启动成功,如下图所示: