免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
Python jieba庫的使用說明

1、jieba庫基本介紹

(1)、jieba庫概述

  1. jieba是優(yōu)秀的中文分詞第三方庫

  2. -中文文本需要通過分詞獲得單個(gè)的詞語

  3. - jieba是優(yōu)秀的中文分詞第三方庫,需要額外安裝

  4. - jieba庫提供三種分詞模式,最簡單只需掌握一個(gè)函數(shù)

(2)、jieba分詞的原理

  1. Jieba分詞依靠中文詞庫

  2. - 利用一個(gè)中文詞庫,確定漢字之間的關(guān)聯(lián)概率

  3. - 漢字間概率大的組成詞組,形成分詞結(jié)果

  4. - 除了分詞,用戶還可以添加自定義的詞組

2、jieba庫使用說明

(1)、jieba分詞的三種模式

  1. 精確模式、全模式、搜索引擎模式

  2. - 精確模式:把文本精確的切分開,不存在冗余單詞

  3. - 全模式:把文本中所有可能的詞語都掃描出來,有冗余

  4. - 搜索引擎模式:在精確模式基礎(chǔ)上,對(duì)長詞再次切分

(2)、jieba庫常用函數(shù)

3.jieba應(yīng)用實(shí)例

4.利用jieba庫統(tǒng)計(jì)三國演義中任務(wù)的出場次數(shù)

  1. import jieba

  2. txt = open("D:\\三國演義.txt", "r", encoding='utf-8').read()

  3. words = jieba.lcut(txt) # 使用精確模式對(duì)文本進(jìn)行分詞

  4. counts = {} # 通過鍵值對(duì)的形式存儲(chǔ)詞語及其出現(xiàn)的次數(shù)

  5. for word in words:

  6. if len(word) == 1: # 單個(gè)詞語不計(jì)算在內(nèi)

  7. continue

  8. else:

  9. counts[word] = counts.get(word, 0) + 1 # 遍歷所有詞語,每出現(xiàn)一次其對(duì)應(yīng)的值加 1

  10. items = list(counts.items())#將鍵值對(duì)轉(zhuǎn)換成列表

  11. items.sort(key=lambda x: x[1], reverse=True) # 根據(jù)詞語出現(xiàn)的次數(shù)進(jìn)行從大到小排序

  12. for i in range(15):

  13. word, count = items[i]

  14. print("{0:<5}{1:>5}".format(word, count))

統(tǒng)計(jì)了次數(shù)對(duì)多前十五個(gè)名詞,曹操不愧是一代梟雄,第一名當(dāng)之無愧,但是我們會(huì)發(fā)現(xiàn)得到的數(shù)據(jù)還是需要進(jìn)一步處理,比如一些無用的詞語,一些重復(fù)意思的詞語。

  1. 作者:王陸

  2. 鏈接:https://www.cnblogs.com/wkfvawl/p/9487165.html

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Jieba庫實(shí)現(xiàn)詞性標(biāo)注及小說人物角色抽取
編程語言python-jieba分詞庫
Python讀取文件后進(jìn)行詞頻統(tǒng)計(jì)
jieba首頁、文檔和下載
結(jié)巴中文分詞使用學(xué)習(xí)(python)
聽不懂人話?stata分詞幫你搞定(三)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服