python 文件内容操作,如一个文件100万条数据,查询相同行数

2025-02-23 00:53:48
推荐回答(5个)
回答1:

使用open函数逐行读取文件,依次对比,如包含要求字符串,则数量累加1,读取完成后可统计出行数,代码如下:

n = 0
for line in open('filename','r'):
    if '固定字符串' in line:
        n += 1

print(n)

说明:

使用 for line in open这种方式可以提高代码效率,如需要更复杂统计,例如重复行,则可以使用hash函数,把行hash值存入列表,再做统计。

回答2:

100万条,还是不是很大。建议用C语言。把100万条加载到内存里,然后字符串依次比较,也是很快的。具体是先read到内存里,然后把每个回车统计一下,建立一个行首字符的索引。

正常的做法是做索引的。在生成记录时,自动将关键词索引造出来。查询时,只查询索引就可以了。

这样,即使是几千万条记录,查询也是很快。1,2,3就是一个关键词。

回答3:

我总感觉你这标题和内部描述不是一个问题,
不知道理解的对不对,执行如下代码(python2.X)
foid=open('文件名',‘r’) #打开你的文件;
fov=open('结果',‘w’) #考虑到结果可能比较多,写入文件比较好;
n=0
for line in foid:
if not line.find('1,2,3')==-1: #用find查找这一行中是否有目标字符串;
n=n+1 #如果有该字符串,计数
fov.write(line) #保存有这个字符串的那一行数据,如果结果不多可以直接print line
foid.close()
fov.close()
print n

这样就找出所以包含'1,2,3'这个字符串的数据了,n是含有这个字符串的行数,如果在循环内部执行print n,可以得到这个字符串都在第几行出现过

回答4:

文件过大,考虑数据库。当作字符处理很占内存的。

1、str.count
2、你可以用sqlite来加载这个文件。用select的方式去查总数

回答5:

CONDSTR = '1,2,3'

def match(ln, condstr=CONDSTR):
''' 指定的串是否在行中 '''
return condstr in ln

cnt = 0
with open(thesrcfile, 'rt') as handle:
for ln in handle:
if match(ln):
cnt += 1