免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
數(shù)學(xué)之美系列 二十三 輸入一個(gè)漢字需要敲多少個(gè)健 — 談?wù)勏戕r(nóng)第一定律

數(shù)學(xué)之美系列 二十三 輸入一個(gè)漢字需要敲多少個(gè)健 — 談?wù)勏戕r(nóng)第一定律



今天各種漢字輸入法已經(jīng)很成熟了,隨便挑出一種主要的輸入法比十幾年前最好的輸入法都要快、要準(zhǔn)?,F(xiàn)在拋開具體的輸入法,從理論上分析一下,輸入漢字到底能有多快。

我們假定常用的漢字在二級(jí)國(guó)標(biāo)里面,一共有 6700 個(gè)作用的漢字。如果不考慮漢字頻率的分布,用鍵盤上的 26 個(gè)字母對(duì)漢字編碼,兩個(gè)字母的組合只能對(duì) 676 個(gè)漢字編碼,對(duì) 6700 個(gè)漢字編碼需要用三個(gè)字母的組合,即編碼長(zhǎng)度為三。當(dāng)然,聰明的讀者馬上發(fā)現(xiàn)了我們可以對(duì)常見的字用較短的編碼對(duì)不常見的字用較長(zhǎng)的編碼,這樣平均起來每個(gè)漢字的編碼長(zhǎng)度可以縮短。我們假定每一個(gè)漢字的頻率是
p1, p2, p3, ..., p6700
它們編碼的長(zhǎng)度是
L1, L2, L3, ..., L6700
那么,平均編碼長(zhǎng)度是
p1×L1 + p2×L2 + ... + p6700×L6700

香農(nóng)第一定理指出:這個(gè)編碼的長(zhǎng)度的最小值是漢字的信息熵,也就是說任何輸入方面不可能突破信息熵給定的極限。當(dāng)然,香農(nóng)第一定理是針對(duì)所有編碼的,不但是漢字輸入編碼的。這里需要指出的是,如果我們將輸入法的字庫從二級(jí)國(guó)標(biāo)擴(kuò)展到更大的字庫 GBK,由于后面不常見的字頻率較短,平均編碼長(zhǎng)度比針對(duì)國(guó)標(biāo)的大不了多少。讓我們回憶一下漢字的信息熵(見 http://www.googlechinablog.com/2006/04/4.html),
H = -p1 * log p1 - ... - p6700 log p6700。
我們?nèi)绻麑?duì)每一個(gè)字進(jìn)行統(tǒng)計(jì),而且不考慮上下文相關(guān)性,大致可以估算出它的值在十比特以內(nèi),當(dāng)然這取決于用什么語料庫來做估計(jì)。如果我們假定輸入法只能用 26 個(gè)字母輸入,那么每個(gè)字母可以代表 log26=
4.7 比特的信息,也就是說,輸入一個(gè)漢字平均需要敲 10/4.7= 2.1 次鍵。

聰明的讀者也許一經(jīng)發(fā)現(xiàn),如果我們把漢字組成詞,再以詞為單位統(tǒng)計(jì)信息熵,那么,每個(gè)漢字的平均信息熵將會(huì)減少。這樣,平均輸入一個(gè)字可以少敲零點(diǎn)幾次鍵盤。不考慮詞的上下文相關(guān)性,以詞為單位統(tǒng)計(jì),漢字的信息熵大約是8比特作用,也就是說,以詞為單位輸入一個(gè)漢字平均只需要敲 8/4.7=1.7 次鍵。這就是現(xiàn)在所有輸入法都是基于詞輸入的內(nèi)在原因。當(dāng)然,如果我們?cè)倏紤]上下文的相關(guān)性,對(duì)漢語建立一個(gè)基于詞的統(tǒng)計(jì)語言模型(見http://www.googlechinablog.com/2006/04/blog-post.html),我們可以將每個(gè)漢字的信息熵降到 6 比特作用,這時(shí),輸入一個(gè)漢字只要敲 6/4.7=1.3 次鍵。如果一種輸入方法能做到這一點(diǎn),那么漢字的輸入已經(jīng)比英文快的多了。

但是,事實(shí)上沒有一種輸入方法接近這個(gè)效率。這里面主要有兩個(gè)原因。首先,要接近信息論給的這個(gè)極限,就要對(duì)漢字的詞組根據(jù)其詞頻進(jìn)行特殊編碼。事實(shí)上像王碼這類的輸入方法就是這么做到,只不過它們第一沒有對(duì)詞組統(tǒng)一編碼,第二沒有有效的語言模型。這種編碼方法理論上講有效,實(shí)際上不實(shí)用。原因有兩個(gè),第一,很難學(xué);第二,從認(rèn)知科學(xué)的角度上講,人一心無二用,人們?cè)跊]有稿子邊想邊寫的情況下不太可能在回憶每個(gè)詞復(fù)雜的編碼的同時(shí)又不中斷思維。我們過去在研究語言識(shí)別時(shí)做過很多用戶測(cè)試,發(fā)現(xiàn)使用各種復(fù)雜編碼輸入法的人在脫稿打字時(shí)的速度只有他在看稿打字時(shí)的一半到四分之一。因此,雖然每個(gè)字平均敲鍵次數(shù)少,但是打鍵盤的速度也慢了很多,總的并不快。這也就是為什么基于拼音的簡(jiǎn)單輸入法占統(tǒng)治地位的原因。事實(shí)上,漢語全拼的平均長(zhǎng)度為 2.98,只要基于拼音的輸入法能利用上下文徹底解決一音多字的問題,平均每個(gè)漢字輸入的敲鍵次數(shù)應(yīng)該在三次左右,每分鐘輸入 100 個(gè)字完全有可能達(dá)到。

另外一個(gè)不容易達(dá)到信息論極限的輸入速度的原因在于,這個(gè)理論值是根據(jù)一個(gè)很多的語言模型計(jì)算出來的。在產(chǎn)品中,我們不可能占有用戶太多的內(nèi)存空間,因此各種輸入方法提供給用戶的是一個(gè)壓縮的很厲害的語音模型,而有的輸入方法為了減小內(nèi)存占用,根本沒有語言模型。拼音輸入法的好壞關(guān)鍵在準(zhǔn)確而有效的語言模型。

另一方面,由于現(xiàn)有輸入方法離信息論給的極限還有很大的差距,漢語輸入方法可提升的空間很大,會(huì)有越來越好用的輸入方法不斷涌現(xiàn)。當(dāng)然,輸入速度只是輸入法的一項(xiàng)而不是唯一的衡量標(biāo)準(zhǔn)。我們也會(huì)努力把谷歌的輸入法做的越來越好。大家不妨先試試現(xiàn)在的版本,http://tools.google.com/pinyin/,半年后再看看我們有沒有提高。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
漢字真的落后嗎?
常見拼音輸入法特色介紹及使用技巧
網(wǎng)絡(luò)五筆輸入法 1.9
實(shí)現(xiàn)復(fù)雜難字輸入的方法
筆畫輸入法怎么用??
聲畫拼音輸入法軟件
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服