对于抓取翻页的数据,该如何用python来写

2025-03-05 02:55:35
推荐回答(5个)
回答1:

1、首先分析页面源代码中翻页处的特征,按规则取下一页地址适合页面地址不连续时,可通过正则表达式实现,如果页面地址为连续的,则直接按连续的地址获取数据。
2、按以上特征获取后面地址,通过urllib.request.urlopen(url)得到首页面的数据。可以通过正则表达式获取数据,也可按特征字符串定来取到数据。
3、如为规则网地址方式,可以使用线程来提高效率。

回答2:

看每一页的地址的特点啊,比如
第一页的地址:http://zhidao.baidu.com/browse/80
第二页的地址:http://zhidao.baidu.com/browse/80?pn=25#list
第三页的地址:http://zhidao.baidu.com/browse/80?pn=50#list
……
懂了吧,只要有地址就可以抓取,而地址是有规律可循的

回答3:

先找出每一页URL的规律
然后再用循环构建每页的URL
然后再用常规的抓取方法来抓就行了

回答4:

可以按url特性来区分,也可以利用爬虫的特性,遍历所有url

回答5:

安装BeautifulSoup包

在python中:
from bs4 import BeautifulSoup
import urllib2
然后可以用urllib2获取html,然后用BeautifulSoup解析网页了