方法步骤:
1在eclipse下创建java project,命名为比如heritrix,进入其工程的目录,比如F:\win1安装包\workspace\Heritrix。
2复制解压后的heritrix-1.14.1.zip文件夹下的lib,webapps到F:\win1安装包\workspace\Heritrix目录下;复制解压后的heritrix-1.14.1.src 文件夹下的heritrix-1.14.1\src\java下的org和st两个文件夹到F:\win1安装包\workspace\Heritrix\src目录下
3修改src\heritrix.properties文件中的(第19行)heritrix.cmdline.admin = 为 heritrix.cmdline.admin = admin:admin。
4把lib下的jar包全部添加到工程中(刷新一下就行),即点击heritrix工程,右键属性---java build path---libraries--- add jars选择heritrix工程下lib所有jar。
5运行org.archive.crawler.Heritrix类,在地址栏输入127.0.0.1:8080/,前面加上http://
6在heritrix中新建一个job(有四种方式),就可以抓取网页了。