思路
网站地图(首先爬一个网站的首页,然后得到首页里面的超链接,这样就可以得到这个网站的二级页面,然后继续,最终爬去这个网站所有的页面)
互联网(假如你得到了一个超链接,那么就可以得到另一个,就可以继续得到另一个,继续下去,就可以得到整个互联网)
注意:
抓取数据时,需要分析特定网站的结构,一遍能抓取特定的数据
抓取的时候,应该支持多线程,这样才能在有限的生命中爬取完需要的数据
首先你得输入特定的网址,如果你想自动去爬所有网站 这就涉及到更高深的编程,就像百度蜘蛛一样,可以爬行成千上万个网站,但有些网站是有反爬机制的
每个网站结构不一样 一些简单的可以直接爬 但是复杂的反爬虫的多数做不到
可以输入多个目标网址,也可以从一个目标网址里爬取其他网址
这样跟你说吧,最初的谷歌蜘蛛就用python写的