我在写一个python的网络爬虫,写入记事本的内容都是乱码如何使写入的数据以utf8或者gb2312的码制写入。

2025-02-26 23:00:06
推荐回答(2个)
回答1:

我从自己一个utf8的爬虫程序里面摘的。

程序开头:

#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib
import urllib2
import string
import re
import sys
type0 = sys.getfilesystemencoding() #解决中文乱码问题


后面做抓取程序的时候全部加上decode和encode。

pos1 = text.find(term.decode("utf-8").encode(type0))


在输入到txt的时候相应的分隔符也要decode和encode:

f.write(info+'!'.decode("utf-8").encode(type0))


希望能帮到你。

回答2:

八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器。如果您需要采集数据,八爪鱼采集器可以为您提供智能识别和灵活的自定义采集规则设置,帮助您快速获取所需的数据。了解更多八爪鱼采集器的功能与合作案例,请前往官网了解更多详情