python的词频统计是用来统计一篇文章中,某一个字段出现的次数,从而了解文章的重点,关键字,方便理解作者的想法。在使用python获取文件后,我们有时需要对其进行词频统计,那如何统计呢?我们以一篇英文的词频统计为例。
我们要统计英文的词频,第一步就是要分解并且提前英文文章中的单词,计数不能够区分大小写,而我们的单词却有大小写这些不同的形式,所以要使用lower()把全部英文字母都改成小写的。例:
txt=txt.lower()
文章中还有许多的标点符号,如,.;",我们要通过replace()将这些特殊字符和标点变成空格,然后提取单词。例:
for ch in ',.?!"': txt=txt.replace(ch,' ') ky = txt.split()
定义字典,统计单词出现的次数,以及把字典转换成列表并且对其进行排序。
True 是使所求值降序的意思。range(10)意思是显示前10行,如果想要全部显示则输入range(len(items)。冒号前的0和1表示输出的顺序,冒号后的<表示向左对齐。
counts={} for i in ky: counts[i]=counts.get(i,0)+1 items = list(counts.items()) items.sort(key=lambda x:x[1],reverse = True) for i in range (10): i,count = items[i] print('{0:5}'.format(i,count))
词频统计能帮我们快速查找想要的数据的出现频率,而词频统计也不止只有英文统计,还有中文的词频统计。 同时,词频统计还是计算机二级的一大考点。