Python网站爬虫只能爬自己所选的网址?

2025-04-30 06:53:42
推荐回答(5个)
回答1:

思路

  1. 网站地图(首先爬一个网站的首页,然后得到首页里面的超链接,这样就可以得到这个网站的二级页面,然后继续,最终爬去这个网站所有的页面)

  2. 互联网(假如你得到了一个超链接,那么就可以得到另一个,就可以继续得到另一个,继续下去,就可以得到整个互联网)

注意:

  1. 抓取数据时,需要分析特定网站的结构,一遍能抓取特定的数据

  2. 抓取的时候,应该支持多线程,这样才能在有限的生命中爬取完需要的数据

回答2:

首先你得输入特定的网址,如果你想自动去爬所有网站 这就涉及到更高深的编程,就像百度蜘蛛一样,可以爬行成千上万个网站,但有些网站是有反爬机制的

回答3:

每个网站结构不一样 一些简单的可以直接爬 但是复杂的反爬虫的多数做不到

回答4:

可以输入多个目标网址,也可以从一个目标网址里爬取其他网址

回答5:

这样跟你说吧,最初的谷歌蜘蛛就用python写的