下載make好word2vec后,生成以下5個命令:
compute-accuracy:
distance:
word2phrase:就是將詞語拼成短語。
word2vec:丫應該是make后第一個執(zhí)行的命令了,因為需要使用該命令訓練語料庫。我們首先需要準備好txt文本文件,里面全是用空格或Tab空開的詞。然后通過以下代碼生成*.bin文件,bin里面保存的值就是文檔中詞語和其對應的向量。千萬不要以為,得到的bin文件就一定比input.txt小,超過100M的txt是這樣,而且越大越是,但是對于20~50M的語料庫而言就不一定了,起碼我訓練的時候是這樣。
- ./word2vec -train input.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1
word-analogy:
在Ubuntu15.04下安裝Gensim:
sudo apt-get install python-numpy python-scipy
pip install gensim
本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請
點擊舉報。