我从自己一个utf8的爬虫程序里面摘的。
程序开头:
#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib
import urllib2
import string
import re
import sys
type0 = sys.getfilesystemencoding() #解决中文乱码问题
后面做抓取程序的时候全部加上decode和encode。
pos1 = text.find(term.decode("utf-8").encode(type0))
在输入到txt的时候相应的分隔符也要decode和encode:
f.write(info+'!'.decode("utf-8").encode(type0))
希望能帮到你。
八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器。如果您需要采集数据,八爪鱼采集器可以为您提供智能识别和灵活的自定义采集规则设置,帮助您快速获取所需的数据。了解更多八爪鱼采集器的功能与合作案例,请前往官网了解更多详情