自動化機器學習(AutoML)如今已經(jīng)成為一個相當有趣且重要的話題。本文將對AutoML做一個簡要的解釋,論證它的合理性和可用性,介紹幾個關于AutoML的現(xiàn)代工具,并討論AutoML的未來和方向。
什么是自動化機器學習?
自動化機器學習并不是自動化數(shù)據(jù)科學。雖然兩者存在重疊,但是機器學習只是數(shù)據(jù)科學工具包中眾多工具之一,它的使用實際上并沒有考慮到所有數(shù)據(jù)科學任務。例如,如果預測是數(shù)據(jù)科學任務的一部分,那么機器學習將是一個有用的組件;但是,機器學習可能根本不適用于描述性分析任務。
即使對于預測性任務,數(shù)據(jù)科學也比實際的預測性建模包含更多的內(nèi)容。數(shù)據(jù)科學家Sandro Saita在討論AutoML和自動化數(shù)據(jù)科學之間的潛在混淆時,曾說過:
此外,數(shù)據(jù)科學家和自動化機器學習的領先擁護者Randy Olson指出,有效的機器學習設計要求我們:
· 不斷地調(diào)整模型的超參數(shù)
· 不斷地嘗試多種模型
· 不斷地為數(shù)據(jù)探索特征表示法
考慮到以上所有因素,如果我們把AutoML看作是算法選擇、超參數(shù)調(diào)整、迭代建模和模型評估的任務,我們就可以定義AutoML是什么,但不會有完全一致的意見,不過,這足以讓我們順利地開始進行下一步工作了。
為什么需要它?
雖然我們已經(jīng)完成了定義概念的工作,但AutoML有什么作用呢?讓我們來看看為什么機器學習很困難。
人工智能研究員和斯坦福大學在讀博士S.ZaydEnam在一篇題為“為什么機器學習很難”的博客文章中寫道:
注意,雖然Enam主要指的是機器學習研究,但也涉及到用例中現(xiàn)有算法的實現(xiàn)。
然后,Enam從算法研究的角度對這個框架問題進行了詳細的闡述。如果一個算法不起作用,或者做得不夠好,并且選擇和重新編譯的過程是迭代的,這就可以使用自動化,因此可以使用自動化機器學習。
之前曾有人試圖捕捉AutoML的本質(zhì),如下所示:
AutoML的基本原理源于這樣一個想法:如果必須使用各種算法和許多不同的超參數(shù)配置來構(gòu)建機器學習模型,那么這個模型構(gòu)建可以自動化,模型性能和精度的比較也可以自動化。
很簡單,對吧?
比較不同的自動化機器學習工具
既然我們了解了什么是AutoML,以及它的作用,我們?nèi)绾螌崿F(xiàn)呢?下面是一些當代Python AutoML工具的概述和比較,這些工具采用不同的方法,試圖實現(xiàn)與機器學習過程自動化相同的目標。
Auto-sklearn
Auto sklearn是“一個自動化機器學習工具包和一個scikit-learn評估工具的替代品”,它也恰好是kdruggets最近的自動化數(shù)據(jù)科學和機器學習博客競賽的贏家。
auto-sklearn使機器學習用戶從算法選擇和超參數(shù)調(diào)整中解放出來。它利用了貝葉斯優(yōu)化、元學習和集成構(gòu)造的最新優(yōu)勢。
正如上述,auto-sklearn通過貝葉斯優(yōu)化來執(zhí)行超參數(shù)優(yōu)化,然后重復以下步驟:
· 建立概率模型,以捕捉超參數(shù)設置與其性能之間的關系。
· 使用該模型選擇有用的超參數(shù)設置,然后通過權(quán)衡勘探(在模型不確定的部分空間中搜索)和開發(fā)(聚焦于預計性能良好的部分空間)來嘗試下一步。
· 使用這些超參數(shù)設置運行機器學習算法。
對該過程的進一步解釋如下:
這一過程可以概括為聯(lián)合選擇算法、預處理方法及其超參數(shù):分類器/回歸器和預處理方法的選擇是頂級的、分類的超參數(shù),并且根據(jù)它們的設置,所選方法的超參數(shù)變靈活。然后,可以使用處理這種高維條件空間的貝葉斯優(yōu)化方法搜索組合空間;使用基于隨機森林的SMAC,這已被證明對這種情況最有效。
就實用性而言,由于Auto-sklearn是scikit-learn估算器的替代品,因此需要使用scikit learn的功能性安裝。Auto-sklearn還支持通過共享文件系統(tǒng)上的數(shù)據(jù)共享來并行執(zhí)行,并且可以利用Scikit-Learn的模型持久性。根據(jù)作者的觀點,有效地使用Auto-sklearn替換估計量需要以下4行代碼,以便獲得機器學習pipeline:
import autosklearn.classification
cls = autosklearn.classification.AutoSklearnClassifier()
cls.fit(X_train, y_train)
y_hat = cls.predict(X_test)
使用mnist數(shù)據(jù)集的auto sklearn的更穩(wěn)定示例如下:
import autosklearn.classificationimport sklearn.cross_validationimport sklearn.datasetsimport sklearn.metrics
digits = sklearn.datasets.load_digits()
X = digits.data
y = digits.target
X_train, X_test, y_train, y_test = sklearn.cross_validation.train_test_split(X, y, random_state=1)
automl = autosklearn.classification.AutoSklearnClassifier()
automl.fit(X_train, y_train)
y_hat = automl.predict(X_test)
print('Accuracy score', sklearn.metrics.accuracy_score(y_test, y_hat))
另外值得注意的是,Auto Sklearn贏得了Chalearn AutoML挑戰(zhàn)賽的Auto和Tweakaton賽道。Auto-sklearn可在其官方Github存儲庫(https://github.com/automl/auto-sklearn)中獲得。
TPOT
TPOT被“推銷”為“你的數(shù)據(jù)科學助手”(請注意,它不是“你的數(shù)據(jù)科學替代品”)。它是一個python工具,“使用基因編程自動創(chuàng)建和優(yōu)化機器學習pipeline”。TPOT和auto-sklearn一樣,與scikit-learn一起工作,將自己描述為scikit-learn包裝器。
正如本文前面所提到的,2個突出顯示的項目使用不同的方法來實現(xiàn)類似的目標。雖然這兩個項目都是開源的,用python編寫,旨在通過AutoML簡化機器學習過程,但與使用貝葉斯優(yōu)化的auto-sklearn相比,TPOT的方法是基于遺傳編程的。
然而,雖然方法不同,但結(jié)果是相同的:自動超參數(shù)選擇,用各種算法建模,以及探索許多特征表示,都會實現(xiàn)迭代模型構(gòu)建和模型評估。
TPOT的一個好處是,它以scikit學習pipeline的形式,為性能最佳的模型生成可運行的獨立python代碼。然后,可以修改或檢查該代碼,以獲得更多的洞察力,從而有效地充當起點,而不是僅僅作為最終產(chǎn)品。
TPOT在MNIST數(shù)據(jù)上運行的示例如下:
from tpot import TPOTClassifierfrom sklearn.datasets import load_digitsfrom sklearn.model_selection import train_test_split
digits = load_digits()
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, train_size=0.75, test_size=0.25)
tpot = TPOTClassifier(generations=5, population_size=20, verbosity=2)
tpot.fit(X_train, y_train)
print(tpot.score(X_test, y_test))
tpot.export('tpot-mnist-pipeline.py')
本次運行的結(jié)果是一條達到98%測試精度的pipeline,同時將所述pipeline的python代碼導出到tpot-mnist-pipeline.py文件,如下所示:
import numpy as np
from sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.pipeline import make_pipeline
# NOTE: Make sure that the class is labeled 'class' in the data file
tpot_data = np.recfromcsv('PATH/TO/DATA/FILE', delimiter='COLUMN_SEPARATOR')
features = tpot_data.view((np.float64, len(tpot_data.dtype.names)))
features = np.delete(features, tpot_data.dtype.names.index('class'), axis=1)
training_features, testing_features, training_classes, testing_classes = train_test_split(features, tpot_data['class'], random_state=42)
exported_pipeline = make_pipeline(
KNeighborsClassifier(n_neighbors=3, weights='uniform'))
exported_pipeline.fit(training_features, training_classes)
results = exported_pipeline.predict(testing_features)
TPOT可以通過其官方Github報告獲得。
當然,以上不是唯一可用的AutoML工具。還有Hyperopt(Hyperopt- sklearn)、Auto-WEKA和Spearmint??梢灶A計的是,在接下來的幾年里,會有許多其他的項目產(chǎn)生,包括研究和專于工業(yè)的項目。
自動化機器學習的未來
AutoML從此去向何方?
自動化機器學習就其本身而言將會漸漸地變得十分重要。對局外人來說,自動化機器學習可能不像深度神經(jīng)網(wǎng)絡那么性感,它將開始在ML、AI和數(shù)據(jù)科學領域產(chǎn)生深遠的影響。
Randy Olson在最近的一次采訪中詳細地提到了以下幾點:
但是AutoML能否取代數(shù)據(jù)庫科學家?Randy繼續(xù)說到:
他的觀點得到了Auto-sklearn開發(fā)者的認同:
所以這聽起來很令人鼓舞:數(shù)據(jù)科學家不會被取代,且AutoML可以幫助完成工作。這并不是說AutoML已經(jīng)完善了。當被問及是否可以做出任何改進時,Auto-sklearn小組說:
AutoML的未來究竟是什么?很難確定。然而,毫無疑問,它正在走向某個地方,而且速度可能很快。雖然自動化機器學習的概念可能不是所有數(shù)據(jù)科學家目前都熟悉,但現(xiàn)在似乎是深入了解的好時機。畢竟,如果你能更早就開始了解AutoML的好處,并在技術(shù)浪潮中乘風破浪,你不僅要在不確定的未來努力確保你的工作,你還要學習如何利用同樣的技術(shù)來幫助你現(xiàn)在更好地完成工作。