对于抓取翻页的数据，该如何用python来写

2025-03-05 02:55:35

推荐回答（5个）

回答1：

1、首先分析页面源代码中翻页处的特征，按规则取下一页地址适合页面地址不连续时，可通过正则表达式实现，如果页面地址为连续的，则直接按连续的地址获取数据。
2、按以上特征获取后面地址，通过urllib.request.urlopen(url)得到首页面的数据。可以通过正则表达式获取数据，也可按特征字符串定来取到数据。
3、如为规则网地址方式，可以使用线程来提高效率。

回答2：

看每一页的地址的特点啊，比如
第一页的地址：http://zhidao.baidu.com/browse/80
第二页的地址：http://zhidao.baidu.com/browse/80?pn=25#list
第三页的地址：http://zhidao.baidu.com/browse/80?pn=50#list
……
懂了吧，只要有地址就可以抓取，而地址是有规律可循的

回答3：

先找出每一页URL的规律
然后再用循环构建每页的URL
然后再用常规的抓取方法来抓就行了

回答4：

可以按url特性来区分,也可以利用爬虫的特性,遍历所有url

回答5：

安装BeautifulSoup包

在python中：
from bs4 import BeautifulSoup
import urllib2
然后可以用urllib2获取html,然后用BeautifulSoup解析网页了