用輸入法,不論使用極點(diǎn)、酷極、萬(wàn)能、智能等哪一款五筆,都有一個(gè)打造最適合自己詞庫(kù)的過(guò)程。本文目的,在于教你掌握基本的文本處理方法。 有朋友問(wèn)了,有極點(diǎn)工具箱,還需要自己手工處理么? 我的回答是: 極點(diǎn)工具箱是不透明處理,你并不清楚它是怎么工作的,你原來(lái)的字、詞頻是否得到保留。 而我教你的方法,讓你清清楚楚的明白自己所做的,字、詞頻也不會(huì)變化,保證百分百原版移植。 一、工欲善其事,必先利其器。 先下載自己要用到的文本處理工具。 二、試煉。將系統(tǒng)自帶的輸入法詞庫(kù)轉(zhuǎn)換成極點(diǎn)或酷極格式的詞庫(kù)。 假如你看不到*.mb文件,請(qǐng)?jiān)趶楅_(kāi)的窗口中選擇c:\windows\system32目錄就能看到了。這樣轉(zhuǎn)換結(jié)束后,將會(huì)在c:\windows\system32目錄下生成一個(gè)winzm.txt的文本文件。 2、打開(kāi)winzm.txt文件,你看到的,將是如下圖所示的格式: ![]() 可以看到,它的編碼有詞也有字,格式為: 字(或詞組)+英文字母。另外,還有一些單字+英文字母后還有空格+字母, 這是輸入法為造詞而用的造詞碼,對(duì)我們沒(méi)有什么用處,大家先不要管它。 后面我們將會(huì)教大家如何快速的去掉它。 請(qǐng)大家將文件開(kāi)始直至[Text]的部分全部刪除,這些是輸入法的規(guī)則定義部分,我們用不上。 3、開(kāi)始處理和轉(zhuǎn)換文本的格式。 ![]() 現(xiàn)在,我們要涉及重點(diǎn)了,就是怎樣把現(xiàn)有的這種字或詞+編碼的格式給換成編碼+字詞的格式? 在我看來(lái),無(wú)非是將這兩者調(diào)個(gè)個(gè)兒。現(xiàn)在,需要請(qǐng)到我們的主要工具:Emeditor。EM對(duì)中文的處理很好,這也是我們用它的主要原因。 ②、將漢字和編碼調(diào)個(gè)個(gè)兒。 4、如 ![]() 我們同樣可以用EM來(lái)完成。 同樣以未替換前的碼表格式來(lái)說(shuō)明。 ①、 去掉全部的單字編碼行,只保留詞組及編碼。 EM打開(kāi)碼表,按Ctrl+H調(diào)出替換窗口,在查找處輸入:^[^\x00-\xff][a-z]{1,4}$\n 然后在替換為處留空。 好了,看看是不是將單字和編碼全部刪了?記著,一定別忘了選中“正則表達(dá)式”選項(xiàng)。 ②、 去掉全部的詞組編碼行,只保留單字及編碼。 其實(shí)真正來(lái)說(shuō),處理這些文本,我們都只是利用了它們的正則表達(dá)式功能,正則表達(dá)式在處理文本時(shí)功能非常強(qiáng)大,能完成一些我們幾乎只有編程才能完成的任務(wù)?!∪绻信d趣的話(huà),可以自己找找正則表達(dá)式方面的相關(guān)內(nèi)容研究研究。 |
聯(lián)系客服