优草派  >   Python

为什么我们要进行词频统计?Python词频统计有什么用?

陈信            来源:优草派

python的词频统计是用来统计一篇文章中,某一个字段出现的次数,从而了解文章的重点,关键字,方便理解作者的想法。在使用python获取文件后,我们有时需要对其进行词频统计,那如何统计呢?我们以一篇英文的词频统计为例。

为什么我们要进行词频统计?Python词频统计有什么用?

我们要统计英文的词频,第一步就是要分解并且提前英文文章中的单词,计数不能够区分大小写,而我们的单词却有大小写这些不同的形式,所以要使用lower()把全部英文字母都改成小写的。例:

txt=txt.lower()

文章中还有许多的标点符号,如,.;",我们要通过replace()将这些特殊字符和标点变成空格,然后提取单词。例:

for ch in ',.?!"':
    txt=txt.replace(ch,' ')
ky = txt.split()

定义字典,统计单词出现的次数,以及把字典转换成列表并且对其进行排序。

True 是使所求值降序的意思。range(10)意思是显示前10行,如果想要全部显示则输入range(len(items)。冒号前的0和1表示输出的顺序,冒号后的<表示向左对齐。

counts={}
for i in ky:
    counts[i]=counts.get(i,0)+1
items = list(counts.items())
items.sort(key=lambda x:x[1],reverse = True)
for i in range (10):
    i,count = items[i]
    print('{0:5}'.format(i,count))

词频统计能帮我们快速查找想要的数据的出现频率,而词频统计也不止只有英文统计,还有中文的词频统计。 同时,词频统计还是计算机二级的一大考点。

【原创声明】凡注明“来源:优草派”的文章,系本站原创,任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则,本站将依法追究其法律责任。
TOP 10
  • 周排行
  • 月排行