如果想用wget来抓网页或者镜像站点但是遇到 robot.txt 不允许怎么办?比如这样的 robot.txt
1 2 3 4
| User-agent: *
Disallow: /snapshots/
Disallow: /cgi-bin/
Disallow: /cgi2-bin/ |
在 $HOME/.wgetrc 中加入
一切OK,镜像sina?
1
| wget -c -m -p -q -b http://www.sina.com |
-c 是继续传送, -m 是镜像, -p 是下载媒体文件,比如图片, -q 是安静模式, -b 是后台运行
Random Posts
- August 3, 2006 -- 到成都的计划被推迟了一天
- July 1, 2007 -- 新专辑: 西界 / 林俊杰
- September 8, 2007 -- links for 2007-09-08
- April 23, 2006 -- 痛彻心扉
- October 21, 2005 -- 华为同意出售Sunday股份 结束与电盈争夺战
- January 9, 2008 -- links for 2008-01-09
- July 20, 2008 -- 关于getty
- October 20, 2005 -- 羅志祥 – 新专辑 – 催眠SHOW
- June 15, 2006 -- Konqueror 中如何禁用 ctrl 激活访问键功能?
- November 25, 2008 -- Yellow Dog发布新版本
0 Responses to “让 wget 忽略 robot.txt”