本文為大家列舉了八大主流數(shù)據(jù)集來源,不僅包含大量的數(shù)據(jù)集信息,而且包含了描述、用法以及一些實施案例等。
1、Kaggle數(shù)據(jù)集
Kaggle數(shù)據(jù)集地址
https://www.kaggle.com/datasets
這是我最喜歡的數(shù)據(jù)集之一,每個數(shù)據(jù)集都對應(yīng)于一個小型社區(qū),你可以在其中討論數(shù)據(jù)、查找公共代碼,或者在其中創(chuàng)建自己的項目。這里包含了大量不同類型、不同結(jié)構(gòu)的數(shù)據(jù)集內(nèi)容。同時,還可以在其中獲取到與每個數(shù)據(jù)集關(guān)聯(lián)的資料,其中包含了許多數(shù)據(jù)科學家們提供的數(shù)據(jù)集分析筆記等。
2、Amazon數(shù)據(jù)集
AWS開放數(shù)據(jù)地址
https://registry.opendata.aws/
這個數(shù)據(jù)集中包含了不同領(lǐng)域的數(shù)據(jù)內(nèi)容,例如:公共交通、生態(tài)資源、衛(wèi)星圖像等。同時提供了搜索功能,以幫助用戶找到所需的數(shù)據(jù)集,還有各種數(shù)據(jù)集的描述信息以及用例,非常易于使用。
數(shù)據(jù)集存儲在Amazon Web Services(AWS)資源中,對于使用AWS構(gòu)建自己機器學習實驗的用戶來說,傳輸速度將非常塊。
3、UCI機器學習數(shù)據(jù)集
UCI數(shù)據(jù)集地址:
https://archive.ics.uci.edu/ml/datasets.html
這個數(shù)據(jù)集來自于加州大學信息與計算機科學學院,其中包含了100多個數(shù)據(jù)集。根據(jù)機器學習問題的類型對數(shù)據(jù)集進行分類,可找到單變量或多變量時間序列數(shù)據(jù)集,以及分類、回歸或推薦系統(tǒng)的數(shù)據(jù)集。
4、Google數(shù)據(jù)集搜索引擎
Google數(shù)據(jù)集搜索引擎
https://toolbox.google.com/datasetsearch
在2018年末,Google推出了數(shù)據(jù)集搜索服務(wù)。這是一個可以按名稱搜索數(shù)據(jù)集的搜索引擎,目標是為數(shù)萬個不同數(shù)據(jù)集存儲庫提供統(tǒng)一搜索入口,非常好用。
5、微軟數(shù)據(jù)集
在2018年7月,微軟與外界研究社區(qū)一起,發(fā)布了微軟研究開發(fā)數(shù)據(jù)。
微軟數(shù)據(jù)集地址:
https://msropendata.com/
它包含了云服務(wù)器中的數(shù)據(jù)存儲庫,致力于促進全球研究社區(qū)的協(xié)作,并在其中提供了一系列用于已發(fā)表研究的數(shù)據(jù)集內(nèi)容。
6、Awesome開放數(shù)據(jù)集收藏列表
Awesom Public Datasets
https://github.com/awesomedata/awesome-public-datasets
本數(shù)據(jù)集列表中,按主題整理了大量的數(shù)據(jù)集內(nèi)容,例如:生物學、經(jīng)濟學、教育等。其中列出的大多數(shù)數(shù)據(jù)集都是免費的,但在使用任何數(shù)據(jù)集之前,均需檢查數(shù)據(jù)集的許可要求。
7、政府數(shù)據(jù)集
許多國家均在網(wǎng)絡(luò)上提供了多種公眾可用的政府數(shù)據(jù)集內(nèi)容,例如:
歐洲政府數(shù)據(jù)集
https://data.europa.eu/euodp/data/dataset
美國政府數(shù)據(jù)集
https://www.data.gov/
新西蘭政府數(shù)據(jù)集
https://catalogue.data.govt.nz/dataset
印度政府數(shù)據(jù)集
https://data.gov.in/
北愛爾蘭公共數(shù)據(jù)集
https://www.opendatani.gov.uk/
8、VisualData數(shù)據(jù)集
VisualData數(shù)據(jù)集
https://www.visualdata.io/
視覺數(shù)據(jù)包含了一些用于構(gòu)建計算機視覺模型的優(yōu)秀數(shù)據(jù)集,用戶可通過某個CV主題查詢,例如語義分割、圖像標題、圖像生成、自動駕駛汽車等內(nèi)容。