Python jieba实操统计三国演义
本文最后更新于 245 天前,其中的信息可能已经有所发展或是发生改变。
import jieba
# fname = "D:/Users/2022/Desktop/三国演义.txt"
# txt = open(fname,"r",encoding = "utf-8").read()
import urllib.request
url = "https://blog.59888888.xyz/wp-content/uploads/2023/10/1697515016-%E4%B8%89%E5%9B%BD%E6%BC%94%E4%B9%89.txt"
response = urllib.request.urlopen(url)
txt = response.read()

words = jieba.lcut(txt)
countDic = {}
for word in words:
    if len(word) == 1:
        continue
    else:
        countDic[word] = countDic.get(word,0) + 1

count = sorted(countDic.items(),key=lambda x: x[1], reverse=True)      #排个序

for i in range(100):
    print(count[i][0], count[i][1])

输出如下

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\2022\AppData\Local\Temp\jieba.cache
Loading model cost 0.881 seconds.
Prefix dict has been built successfully.
曹操 936
孔明 831
将军 772
却说 657
玄德 570
关公 509
丞相 491
二人 468
不可 441
荆州 421
不能 387
孔明曰 385
玄德曰 383
如此 378
张飞 348
商议 346
如何 341
主公 330
军士 312
吕布 300
左右 298
军马 290
引兵 277
次日 276
大喜 273
刘备 271
孙权 265
云长 261
天下 257
于是 256
赵云 255
东吴 252
今日 246
不敢 244
魏兵 243
陛下 231
人马 224
不知 223
司马懿 221
一人 219
都督 219
汉中 218
周瑜 217
众将 208
后主 208
只见 205
蜀兵 194
袁绍 190
马超 185
大叫 183
上马 180
魏延 177
天子 175
此人 175
一面 173
先主 173
太守 172
后人 172
背后 171
何不 169
城中 168
黄忠 168
姜维 168
忽报 166
先锋 165
然后 164
大军 164
先生 164
何故 163
夫人 161
不如 157
诸葛亮 157
令人 154
赶来 150
原来 147
江东 143
正是 142
忽然 141
徐州 141
成都 141
下马 139
喊声 138
因此 136
未知 135
大败 134
百姓 133
大事 132
一军 130
之后 129
接应 129
起兵 129
不见 128
马岱 127
进兵 126
引军 125
可以 125
心中 125
军中 124
大怒 123
大惊 123

最后附上我使用的三国演义文本

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇