为什么我们要进行词频统计？Python词频统计有什么用？

陈信 2022-07-01 22:58:49 来源：优草派

python的词频统计是用来统计一篇文章中，某一个字段出现的次数，从而了解文章的重点，关键字，方便理解作者的想法。在使用python获取文件后，我们有时需要对其进行词频统计，那如何统计呢？我们以一篇英文的词频统计为例。

我们要统计英文的词频，第一步就是要分解并且提前英文文章中的单词，计数不能够区分大小写，而我们的单词却有大小写这些不同的形式，所以要使用lower（）把全部英文字母都改成小写的。例：

txt=txt.lower()

文章中还有许多的标点符号，如,.;"，我们要通过replace（）将这些特殊字符和标点变成空格，然后提取单词。例：

for ch in ',.?!"':
    txt=txt.replace(ch,' ')
ky = txt.split()

定义字典，统计单词出现的次数，以及把字典转换成列表并且对其进行排序。

True 是使所求值降序的意思。range(10)意思是显示前10行，如果想要全部显示则输入range(len(items)。冒号前的0和1表示输出的顺序，冒号后的<表示向左对齐。

counts={}
for i in ky:
    counts[i]=counts.get(i,0)+1
items = list(counts.items())
items.sort(key=lambda x:x[1],reverse = True)
for i in range (10):
    i,count = items[i]
    print('{0:5}'.format(i,count))

词频统计能帮我们快速查找想要的数据的出现频率，而词频统计也不止只有英文统计，还有中文的词频统计。同时，词频统计还是计算机二级的一大考点。

Python 词频统计

【原创声明】凡注明“来源：优草派”的文章，系本站原创，任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则，本站将依法追究其法律责任。

相关问答: sql判断字段是否存在; MySQL查看表命令; csv文件python; python键值对; anaconda3安装后找不到; cpu系统是什么

相关阅读: 1 gre怎么安装？; 2 python封装成exe文件？; 3 python判断一个文件是否存在？; 4 python后台执行命令？; 5 python友好时间？; 6 python下载到d盘能用吗？

热门标签

python运维 anaconda python数据结构 pythonVScode pip python推导式 python文本 python表达式 python封装 python命名

TOP 10

周排行
月排行

为什么我们要进行词频统计？Python词频统计有什么用？

微信扫码，学习更方便