13问答网 > python 文件内容操作，如一个文件100万条数据，查询相同行数

python 文件内容操作，如一个文件100万条数据，查询相同行数

2025-02-23 00:53:48

推荐回答（5个）

回答1：

使用open函数逐行读取文件，依次对比，如包含要求字符串，则数量累加1，读取完成后可统计出行数，代码如下：

n = 0
for line in open('filename','r'):
    if '固定字符串' in line:
        n += 1

print(n)

说明：

使用 for line in open这种方式可以提高代码效率，如需要更复杂统计，例如重复行，则可以使用hash函数，把行hash值存入列表，再做统计。

回答2：

100万条，还是不是很大。建议用C语言。把100万条加载到内存里，然后字符串依次比较，也是很快的。具体是先read到内存里，然后把每个回车统计一下，建立一个行首字符的索引。

正常的做法是做索引的。在生成记录时，自动将关键词索引造出来。查询时，只查询索引就可以了。

这样，即使是几千万条记录，查询也是很快。1，2，3就是一个关键词。

回答3：

我总感觉你这标题和内部描述不是一个问题，
不知道理解的对不对，执行如下代码（python2.X）
foid=open('文件名',‘r’) #打开你的文件；
fov=open('结果'，‘w’) #考虑到结果可能比较多，写入文件比较好；
n=0
for line in foid:
if not line.find('1,2,3')==-1: #用find查找这一行中是否有目标字符串；
n=n+1 #如果有该字符串，计数
fov.write(line) #保存有这个字符串的那一行数据，如果结果不多可以直接print line
foid.close()
fov.close()
print n

这样就找出所以包含'1,2,3'这个字符串的数据了，n是含有这个字符串的行数，如果在循环内部执行print n,可以得到这个字符串都在第几行出现过

回答4：

文件过大，考虑数据库。当作字符处理很占内存的。

1、str.count
2、你可以用sqlite来加载这个文件。用select的方式去查总数

回答5：

CONDSTR = '1,2,3'

def match(ln, condstr=CONDSTR):
''' 指定的串是否在行中 '''
return condstr in ln

cnt = 0
with open(thesrcfile, 'rt') as handle:
for ln in handle:
if match(ln):
cnt += 1