天天干天天摸,丁香九月月小说图片区,亚洲人成影视

Python jieba庫的使用說明

2019.07.19

1、jieba庫基本介紹

(1)、jieba庫概述

jieba是優(yōu)秀的中文分詞第三方庫          
-中文文本需要通過分詞獲得單個(gè)的詞語
- jieba是優(yōu)秀的中文分詞第三方庫，需要額外安裝
- jieba庫提供三種分詞模式，最簡單只需掌握一個(gè)函數(shù)

(2)、jieba分詞的原理

Jieba分詞依靠中文詞庫 
- 利用一個(gè)中文詞庫，確定漢字之間的關(guān)聯(lián)概率
- 漢字間概率大的組成詞組，形成分詞結(jié)果
- 除了分詞，用戶還可以添加自定義的詞組

2、jieba庫使用說明

(1)、jieba分詞的三種模式

精確模式、全模式、搜索引擎模式 
- 精確模式：把文本精確的切分開，不存在冗余單詞
- 全模式：把文本中所有可能的詞語都掃描出來，有冗余
- 搜索引擎模式：在精確模式基礎(chǔ)上，對(duì)長詞再次切分

(2)、jieba庫常用函數(shù)

3.jieba應(yīng)用實(shí)例

4.利用jieba庫統(tǒng)計(jì)三國演義中任務(wù)的出場次數(shù)

import  jieba
txt = open("D:\\三國演義.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)     # 使用精確模式對(duì)文本進(jìn)行分詞
counts = {}     # 通過鍵值對(duì)的形式存儲(chǔ)詞語及其出現(xiàn)的次數(shù)
for word in words:
    if  len(word) == 1:    # 單個(gè)詞語不計(jì)算在內(nèi)
        continue
    else:
        counts[word] = counts.get(word, 0) + 1    # 遍歷所有詞語，每出現(xiàn)一次其對(duì)應(yīng)的值加 1
items = list(counts.items())#將鍵值對(duì)轉(zhuǎn)換成列表
items.sort(key=lambda x: x[1], reverse=True)    # 根據(jù)詞語出現(xiàn)的次數(shù)進(jìn)行從大到小排序
for i in range(15):
    word, count = items[i]
    print("{0:<5}{1:>5}".format(word, count))

統(tǒng)計(jì)了次數(shù)對(duì)多前十五個(gè)名詞，曹操不愧是一代梟雄，第一名當(dāng)之無愧，但是我們會(huì)發(fā)現(xiàn)得到的數(shù)據(jù)還是需要進(jìn)一步處理，比如一些無用的詞語，一些重復(fù)意思的詞語。

作者：王陸
鏈接：https://www.cnblogs.com/wkfvawl/p/9487165.html

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

Jieba庫實(shí)現(xiàn)詞性標(biāo)注及小說人物角色抽取

編程語言python-jieba分詞庫

Python讀取文件后進(jìn)行詞頻統(tǒng)計(jì)

jieba首頁、文檔和下載

結(jié)巴中文分詞使用學(xué)習(xí)（python）

聽不懂人話？stata分詞幫你搞定（三）

更多類似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

1、jieba庫基本介紹

2、jieba庫使用說明

3.jieba應(yīng)用實(shí)例

4.利用jieba庫統(tǒng)計(jì)三國演義中任務(wù)的出場次數(shù)

1、jieba庫基本介紹

2、jieba庫使用說明