将网页page source 保存到数据库(mongodb)中,每次取得新的page source 和数据库中的page source 的hash 值是不是想等,如果不等表示有更新。 这个判断有了,爬虫爬取时间策略就好办了。 自己动手实现吧。