1、首先分析页面源代码中翻页处的特征,按规则取下一页地址适合页面地址不连续时,可通过正则表达式实现,如果页面地址为连续的,则直接按连续的地址获取数据。
2、按以上特征获取后面地址,通过urllib.request.urlopen(url)得到首页面的数据。可以通过正则表达式获取数据,也可按特征字符串定来取到数据。
3、如为规则网地址方式,可以使用线程来提高效率。
看每一页的地址的特点啊,比如
第一页的地址:http://zhidao.baidu.com/browse/80
第二页的地址:http://zhidao.baidu.com/browse/80?pn=25#list
第三页的地址:http://zhidao.baidu.com/browse/80?pn=50#list
……
懂了吧,只要有地址就可以抓取,而地址是有规律可循的
先找出每一页URL的规律
然后再用循环构建每页的URL
然后再用常规的抓取方法来抓就行了
可以按url特性来区分,也可以利用爬虫的特性,遍历所有url
安装BeautifulSoup包
在python中:
from bs4 import BeautifulSoup
import urllib2
然后可以用urllib2获取html,然后用BeautifulSoup解析网页了