首页

13问答网 > Python网站爬虫只能爬自己所选的网址？

Python网站爬虫只能爬自己所选的网址？

2025-04-30 06:53:42

推荐回答（5个）

回答1：

思路

网站地图（首先爬一个网站的首页，然后得到首页里面的超链接，这样就可以得到这个网站的二级页面，然后继续，最终爬去这个网站所有的页面）
互联网（假如你得到了一个超链接，那么就可以得到另一个，就可以继续得到另一个，继续下去，就可以得到整个互联网）

注意：

抓取数据时，需要分析特定网站的结构，一遍能抓取特定的数据
抓取的时候，应该支持多线程，这样才能在有限的生命中爬取完需要的数据

回答2：

首先你得输入特定的网址，如果你想自动去爬所有网站这就涉及到更高深的编程，就像百度蜘蛛一样，可以爬行成千上万个网站，但有些网站是有反爬机制的

回答3：

每个网站结构不一样一些简单的可以直接爬但是复杂的反爬虫的多数做不到

回答4：

可以输入多个目标网址，也可以从一个目标网址里爬取其他网址

回答5：

这样跟你说吧，最初的谷歌蜘蛛就用python写的

相关问答

最新问答

乔任梁的父母是哪年的

华硕S4200大家用过了吗？

2010年吉林省高考平行志愿每个学校志愿允许报几个专业?

她长得如何？东大的校花

上海羿仕新能源科技有限公司怎么样？

北京六里屯小区将来能发大产权房本吗

癌症晚期采用中医治疗好还是西医好

济柴190B型柴油机高压油泵供油时间怎么调节？

龙卡e付卡挂失了短信从新开通行吗?

北京诚友信息技术有限公司怎么样？