使用Anaconda集成IPython、Spark和TensorFlow、Orange,形成統(tǒng)一管理的分布式機(jī)器學(xué)習(xí)研究環(huán)境??梢詫⒘鞒淘O(shè)計、算法評估、神經(jīng)網(wǎng)絡(luò)、分布式計算和包管理集成到一起等,以及可以將其與git/jenkins/sonarqube等集成到一起,實現(xiàn)完整的大規(guī)模數(shù)據(jù)處理與分析的DevOps。不過,目前這些項目還是各自為陣的狀態(tài),集成度和自動化程度都還不高。
為了方便管理,將其安裝在由conda管理的獨(dú)立虛擬環(huán)境中。
由https://www.continuum.io開發(fā)。集成了很多優(yōu)秀的python項目,包括conda虛擬運(yùn)行環(huán)境管理和軟件包管理軟件,可以部分替代virtualenv和pip的作用。
從 https://www.continuum.io/downloads 下載并且安裝。
1 2 3 | #創(chuàng)建python虛擬環(huán)境。 conda create -n tensor python=3 source activate tensor |
現(xiàn)已更名為Jupyter(http://jupyter.org/),支持通過notebook進(jìn)行算法模型的共享。
Spark,高性能并行計算環(huán)境
從 https://conda.anaconda.org/anaconda-cluster 可以訪問到集成的Spark版本。
安裝:
1 | conda install -n tensor -c https://conda.anaconda.org/anaconda-cluster spark |
TensorFlow是由Google開源的基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)引擎,從 https://www.tensorflow.org/ 訪問詳細(xì)信息。
安裝:
1 | conda install -n tensor -c https://conda.anaconda.org/jjhelmus tensorflow |
網(wǎng)站:http://orange.biolab.si/
原始項目為安裝在virtualenv里的指南,這里將安裝在conda環(huán)境下。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 | #安裝基礎(chǔ)支持庫 sudo apt-get update sudo apt-get -y install git python-pip python-virtualenv python3-dev python3-numpy python3-scipy python3-pyqt4 python-qt4-dev python3-sip-dev libqt4-dev #首先安裝Anaconda ./Anaconda3-2.5.0-Linux-x86_64.sh #退出控制臺窗口,重新進(jìn)入,以讓路徑設(shè)置生效。 #輸入conda list,可以查看anaconda安裝的包,檢查安裝是否成功。 #創(chuàng)建python虛擬環(huán)境。 conda create -n tensor python=3 #激活所創(chuàng)建的python虛擬環(huán)境,后續(xù)的軟件將安裝在該環(huán)境中。 source activte tensor #復(fù)制orange源代碼。 git clone https://github.com/biolab/orange3 #安裝Orange的依賴庫代碼 cd orange3 pip install -r requirements-core.txt pip install -r requirements-dev.txt pip install -r requirements-doc.txt pip install -r requirements-gui.txt pip install -r requirements-sql.txt python setup.py develop cd .. #安裝擴(kuò)展庫 git clone https://github.com/biolab/orange-bio cd orange-bio python setup.py develop cd .. #退出虛擬環(huán)境 source deactivate |
運(yùn)行,將下面代碼保存到start.sh,然后啟動即可:
1 2 3 | #運(yùn)行 source activate tensor python -m Orange.canvas |
Orange安裝完畢,運(yùn)行與官方的安裝結(jié)果完全一樣,只是python擴(kuò)展包現(xiàn)在交由conda而不是virtualenv管理。
下一步就需要考慮如何將TensorFlow和Spark等結(jié)合起來,在分布式環(huán)境下使用。以及將Orange的widget代碼放到Spark環(huán)境下去分布式運(yùn)行。