|
|
发表于 2012-7-25 22:25:02
|
显示全部楼层
lucong123 发表于 2012-7-25 10:21 
外链高 这个无话可说 你知我知 不必再拿来讨论
网站地图 呵呵 实话告诉你 我很多网站都没有sitemap 但是 ...
神逻辑, 爬得勤就等于收得快, 我继续重复上面的, 是蜘蛛每天爬你十万页->把这十万页扔进几百万的队列慢慢排队等去重,分辨是否更新-> 扔进更新队列, 还是蜘蛛每天爬你的sitemap抓你当天更新的几千页->判断一下是否作弊,直接扔进更新队列。 你认为中途绕地球一圈是一种很优秀又很高效的挑逗引擎虐你的办法?
至于遵不遵守robots, 和技术有一毛钱关系? 我告诉你一个秘密, 我做了八年抓取, 我的蜘蛛也就最近几年读robots.txt, 而且读的不是disallow, 而是sitemap和crawl-delay, 前者的原因见上, 后者的原因是我怕爬死目标站或者被目标站屏掉 |
|