2019-02-11 歷史翻斗云
漢語(yǔ)是世界上信息熵最大的主流語(yǔ)言。在1948年發(fā)表了一篇論文,震撼了學(xué)術(shù)界,而這篇論文也開(kāi)創(chuàng)了一個(gè)信息度量的時(shí)代,既然事件發(fā)生的信息可以度量,語(yǔ)言作為一種信息傳遞的手段,那么語(yǔ)言中的信息是多少?世界上有最優(yōu)秀的語(yǔ)言嗎?
在此之前我們先來(lái)談?wù)勈裁唇凶鲂畔㈧?。信息熵是指所有可能發(fā)生事件中所包含信息的期望平均值。這么說(shuō)大家聽(tīng)不懂,給大家舉一個(gè)簡(jiǎn)單一點(diǎn)的例子。太陽(yáng)從東方升起這句話是廢話,因?yàn)榇蠹叶贾捞?yáng)不可能從西方升起,所以這句話所包含的信息熵就是0。如果你在做一道判斷題,但是你不知道答案。所以你只能靠蒙,這個(gè)時(shí)候就有了信息熵,而如果把這個(gè)判斷題改為選擇題,那么這個(gè)題的信息熵就會(huì)變大。除此之外還有概率的問(wèn)題。假如一個(gè)選擇題你知道a和b可能是正確的,c和d是完全不正確的,那么你就會(huì)選a或者是b。相比較其他選擇題來(lái)講,信息熵就會(huì)變少。
這就是信息熵。那么語(yǔ)言的信息熵究竟是有多少呢?這個(gè)的計(jì)算方式很直觀,只需要把公式帶進(jìn)去就行了,但是困擾學(xué)者很多年的問(wèn)題是,大家都無(wú)法準(zhǔn)確的知道一個(gè)語(yǔ)言中特定位置的出現(xiàn)概率,有時(shí)候甚至難以統(tǒng)計(jì)這個(gè)語(yǔ)言到底有多少種字符。
所以信息科學(xué)家只能用各種手段來(lái)估計(jì)各個(gè)語(yǔ)言的信息熵,比如說(shuō)有某位學(xué)者認(rèn)為英語(yǔ)的信息熵應(yīng)該在0.6~1.3比特每字節(jié)。而其他人有人認(rèn)為英語(yǔ)的信息熵應(yīng)該在1.25比特每字節(jié)。英語(yǔ)還算是比較好統(tǒng)計(jì)的,但是放到漢語(yǔ)的統(tǒng)計(jì)難度就非常大了。不過(guò)還好的是當(dāng)年信息熵剛剛發(fā)展出來(lái),各個(gè)學(xué)者科學(xué)家都紛紛對(duì)此非常有興趣。即便是中文有很大的特殊性,依然有很多學(xué)者排除萬(wàn)難,采用了統(tǒng)計(jì)的計(jì)算方式,計(jì)量了漢語(yǔ)的信息熵。
而在計(jì)量過(guò)程中他們發(fā)現(xiàn)中文不論是文字部首還是音節(jié),他的信息熵都遠(yuǎn)遠(yuǎn)超過(guò)了英語(yǔ)。
但是這樣計(jì)算出來(lái)的結(jié)果,沒(méi)辦法和其他語(yǔ)言直接對(duì)比。因?yàn)樗麄兪怯玫牟煌臄?shù)據(jù)庫(kù)。而且人為翻譯也可能導(dǎo)致信息誤差,所以在2002年哈佛大學(xué)的某位科學(xué)家做了重新的對(duì)比實(shí)驗(yàn)。他們選用了一種很有意思的辦法,那就是在計(jì)算機(jī)上把文本壓縮到信息壓縮的下界。
也就是說(shuō)不論是英語(yǔ)還是漢語(yǔ)或者西班牙語(yǔ)都不進(jìn)行優(yōu)化。之后再進(jìn)行壓縮。研究者們對(duì)比了英語(yǔ),西班牙語(yǔ),法語(yǔ),中文漢語(yǔ),阿拉伯語(yǔ),日文,俄語(yǔ)等等。像這樣壓縮情況下,如果沒(méi)有缺失文件,都是那么所有的語(yǔ)言都會(huì)和英語(yǔ)壓縮后的文本一樣大。所以我們需要對(duì)比的就是他們的壓縮時(shí)間,壓縮時(shí)間越長(zhǎng)的,他們的信息熵就越大。
而中文的壓縮效率遠(yuǎn)遠(yuǎn)低于其他文字。除此之外他們又做了其他的對(duì)比實(shí)驗(yàn),比如說(shuō)換壓縮算法。再比如說(shuō)把譯文擴(kuò)充。因?yàn)槭ソ?jīng)中都是常見(jiàn)詞匯,但是其他語(yǔ)言中有很多特殊的詞匯。但是在壓縮過(guò)后,中文依然是壓縮效率最低的一個(gè)語(yǔ)言??梢哉f(shuō)中文是信息熵最大的一種語(yǔ)言了。
雖然說(shuō)這個(gè)實(shí)驗(yàn)也不完美,有很多漏洞,但是多個(gè)實(shí)驗(yàn)結(jié)果看上去都是很相似的。而且即便是有很大的漏洞,這樣的實(shí)驗(yàn)依然存在著很強(qiáng)的指導(dǎo)意義。
聯(lián)系客服