如果要一句話概括數(shù)據(jù)科學(xué)的本質(zhì),那就是:
“學(xué)習(xí)數(shù)據(jù)科學(xué)最好的方法就是應(yīng)用數(shù)據(jù)科學(xué)?!?/p>
如果你是一個(gè)初學(xué)者,那么這將對(duì)你正在運(yùn)營的新項(xiàng)目幫助極大。如果你是一個(gè)有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)專家,那么我想你已經(jīng)懂我在說什么了。
然而,當(dāng)我向人們給到此類建議時(shí),他們通常會(huì)反問我——那我可以在哪里獲取到數(shù)據(jù)集進(jìn)行練習(xí)呢?可能有的同學(xué)們還不太了解,現(xiàn)在有很多數(shù)據(jù)集是開放的。
如果你現(xiàn)在也需要大量的數(shù)據(jù)集進(jìn)行練習(xí),那么本文就可以解決你現(xiàn)在的困境,你可以利用這些數(shù)據(jù)進(jìn)行練習(xí),甚至可以利用它們創(chuàng)建自己的項(xiàng)目,甚至是產(chǎn)品。
如何利用這些資源?
對(duì)于數(shù)據(jù)的應(yīng)用來說,是無止境的。如果在這里提供了具體的應(yīng)用方法或者使用方式只會(huì)限制你的創(chuàng)造力。
我想最簡單的方法就是使用她們來創(chuàng)建自己的“數(shù)據(jù)故事”,并將其發(fā)布在自己的博客里。這不僅可以提高你的數(shù)據(jù)可視化技能,還可以提高你的結(jié)構(gòu)化思維。
另一方面,如果你正在考慮或者已經(jīng)在運(yùn)營一款數(shù)據(jù)產(chǎn)品,本文中的這些數(shù)據(jù)集將可以為你提供額外的新的數(shù)據(jù)源。
在本文中,我將這些數(shù)據(jù)源基于應(yīng)用將其分為不同的類別。首先從簡單通用且容易處理的數(shù)據(jù)集開始,然后最后是大量的或行業(yè)相關(guān)的數(shù)據(jù)集。接下來我們?cè)賮頌樘囟ǖ男枨髞磉M(jìn)行為本挖掘、圖像分類等等。
如果你還想到了其他的數(shù)據(jù)集資源,請(qǐng)?jiān)谠u(píng)論中與我分享哦~
簡單&通用的數(shù)據(jù)集——for 初學(xué)者
data.gov(https://www.data.gov/)——這是美國政府公開數(shù)據(jù)源的站點(diǎn)。Data.gov提供各種數(shù)據(jù)及標(biāo)準(zhǔn)數(shù)據(jù)接口,方便用戶下載數(shù)據(jù),參與政府事務(wù),提供反饋意見和建議,消除政府和公眾之間的信息不對(duì)稱問題。這個(gè)站點(diǎn)上有多種領(lǐng)域的數(shù)據(jù),包括氣候、教育、能源和金融等等。
data.gov
data.gov.in(https://data.gov.in/)該站點(diǎn)為印度政府的公開數(shù)據(jù)網(wǎng)站。在該站點(diǎn)上你可以找到各種行業(yè)的數(shù)據(jù),類似氣候、健康等等。
data.gov.in
World Bank(http://www.shihang.org/)從該網(wǎng)站上你可以獲取到世界銀行的公開數(shù)據(jù)。該站點(diǎn)提供類似數(shù)據(jù)目錄、DataBank和微數(shù)據(jù)這樣的數(shù)據(jù)工具可供你在線使用。
World Bank
RBI(https://rbi.org.in/Scripts/Statistics.aspx)該站點(diǎn)為印度央行的公開數(shù)據(jù)。你可以在該站點(diǎn)中查看到類似貨幣市場(chǎng)業(yè)務(wù)、國際收支以及一些產(chǎn)品的使用等等。如果你身處印度的BFSI(Banking, Financial services and Insurance)行業(yè),我想這是一個(gè)你必去的網(wǎng)站。
RBI
Five Thirty Eight Datasets(https://github.com/fivethirtyeight/data),該站點(diǎn)中的每一個(gè)數(shù)據(jù)集中都有大量的數(shù)據(jù),以及一個(gè)對(duì)數(shù)據(jù)進(jìn)行解釋的字典。如果你正在學(xué)習(xí)如何創(chuàng)建數(shù)據(jù)故事,那么。這將是你最好的選擇。
Five Thirty Eight Datasets
大數(shù)據(jù)集——難度提升!
Amazon Web Services (AWS) datasets(https://aws.amazon.com/datasets/)亞馬遜提供了一些大數(shù)據(jù)集,你可以在他們的平臺(tái)或者本地計(jì)算機(jī)上使用。
Google datasets(https://cloud.google.com/bigquery/public-data/)作為BigQuery的一部分,Google提供了一些大數(shù)據(jù)集,該站點(diǎn)上的數(shù)據(jù)集包括嬰兒名字,GitHub的公開數(shù)據(jù)等等。
Youtube labeled Video Dataset(https://research.google.com/youtube8m/)幾個(gè)月前,Google Research Group發(fā)布了Youtube的數(shù)據(jù)集。其中包括800萬Youtube視頻ID和相關(guān)標(biāo)簽。
預(yù)測(cè)模型&機(jī)器學(xué)習(xí)數(shù)據(jù)集
UCI Machine Learning Repository(https://archive.ics.uci.edu/ml/datasets.html)UIC機(jī)器學(xué)習(xí)庫顯然是最著名的數(shù)據(jù)存儲(chǔ)庫。這通常是你尋找數(shù)據(jù)集相關(guān)的第一個(gè)機(jī)器學(xué)習(xí)庫。在這里有各種數(shù)據(jù)集,從泰坦尼克相關(guān)數(shù)據(jù)到最近的空氣質(zhì)量和GPS數(shù)據(jù)等。存儲(chǔ)庫中有超過350種分類。你可以利用這些分類過濾器來確定自己需要的數(shù)據(jù)集。
Kaggle(https://www.kaggle.com/datasets)該站點(diǎn)是一個(gè)可以讓人們捐贈(zèng)自己的數(shù)據(jù)集的地方,同時(shí)其他的成員可以對(duì)其進(jìn)行使用和優(yōu)化。他們有超過350個(gè)數(shù)據(jù)集。這個(gè)站點(diǎn)的另一個(gè)優(yōu)勢(shì)在于 ,你可以看到其他成員的提問和他們寫的腳本等信息。
Analytics Vidhya(https://datahack.analyticsvidhya.com/contest/all/)你可以從該站點(diǎn)下載數(shù)據(jù)集,但是該站點(diǎn)的數(shù)據(jù)量級(jí)相對(duì)較小。
Quandl(https://www.quandl.com/)該站點(diǎn)提供經(jīng)濟(jì)、金融以及其他各種他們通過自己的網(wǎng)站/API獲取并整合的公開數(shù)據(jù)源。在該站點(diǎn)上的數(shù)據(jù)源分為公開版和高級(jí)版。你可以免費(fèi)使用公開版的數(shù)據(jù)源,但是需要支付一定的費(fèi)用才可以訪問高級(jí)版。
Past KDD Cups(http://www.kdd.org/kdd-cup)KDD Cups是ACM Special Interest Group組織的競賽,每年舉行一次,有關(guān)發(fā)現(xiàn)和數(shù)據(jù)挖掘。獲獎(jiǎng)?wù)呖梢允褂闷渲械拇蟛糠仲Y源。
Driven Data(https://www.drivendata.org/)Driven Data發(fā)現(xiàn)數(shù)據(jù)科學(xué)可以用來對(duì)社會(huì)產(chǎn)生積極的影響。然后他們通過運(yùn)行在線建模競賽的方式讓數(shù)據(jù)科學(xué)家可以開發(fā)最好的模型來解決這些問題。
圖像分類數(shù)據(jù)集
The MNIST Database(http://yann.lecun.com/exdb/mnist/)該站點(diǎn)是最受歡迎的手寫數(shù)據(jù)圖像識(shí)別數(shù)據(jù)集。這個(gè)站點(diǎn)上有6萬個(gè)訓(xùn)練案例和1萬組練習(xí)集。這通常會(huì)是新手使用的第一個(gè)圖像識(shí)別訓(xùn)練數(shù)據(jù)集。
The MNIST Database
Chars74K(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/)該站點(diǎn)上是圖像識(shí)別的下一個(gè)階段,如果你已經(jīng)掌握了手寫圖像數(shù)據(jù),在該站點(diǎn)上你可以得到很多關(guān)于自然圖像識(shí)別的數(shù)據(jù)集。在該站點(diǎn)上包含了74000張圖片。
Chars74K
Frontal Face Images(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html)如果你已經(jīng)對(duì)前兩個(gè)站點(diǎn)的項(xiàng)目有一定的了解,那么這個(gè)站點(diǎn)就是下一個(gè)挑戰(zhàn)——人臉識(shí)別。圖片是由卡內(nèi)基梅隆大學(xué)和麻省理工大學(xué)整理收集,分別存放在4個(gè)文件夾下。
Frontal Face Images
ImageNet(http://image-net.org/)現(xiàn)在要為大家介紹一些通用的資料。圖像數(shù)據(jù)集是根據(jù)WordNet的層級(jí)來組織的。
ImageNet
文本分類數(shù)據(jù)集
Spam – Non Spam(http://www.esp.uem.es/jmgomez/smsspamcorpus/)這是一個(gè)對(duì)垃圾信息標(biāo)記收集的研究站點(diǎn)。
Spam – Non Spam
Twitter Sentiment Analysis(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)該站點(diǎn)中包含1,578,627個(gè)已經(jīng)分類的推特狀態(tài)。每一條都被標(biāo)記了是積極情緒還是消極情緒。數(shù)據(jù)是基于Kaggle和Nick Sanders的調(diào)研結(jié)果。
Twitter Sentiment Analysis
Movie Review Data(http://www.cs.cornell.edu/People/pabo/movie-review-data/)該網(wǎng)站提供了有關(guān)電影評(píng)論的集合文件,用正面或者負(fù)面情緒以及主觀評(píng)級(jí)將其標(biāo)注。
Movie Review Data
推薦引擎數(shù)據(jù)集
GroupLens(http://grouplens.org/)該站點(diǎn)通過對(duì)真實(shí)的個(gè)人創(chuàng)建深度分析系統(tǒng),來改進(jìn)社交計(jì)算的理論和實(shí)踐。同時(shí)在GroupLens Research中,收集了MovieLens中的網(wǎng)站數(shù)據(jù)集,根據(jù)數(shù)據(jù)集的大小,在不同的時(shí)間段收集數(shù)據(jù)。
GroupLens
Jester(http://www.ieor.berkeley.edu/~goldberg/jester-data/)這是一個(gè)有關(guān)線上笑話評(píng)論系統(tǒng)的數(shù)據(jù)集。
Jester
其他數(shù)據(jù)源網(wǎng)站
KDNuggets(http://www.kdnuggets.com/datasets/index.html)在KNDuggets上的這個(gè)頁面一直是人們尋找數(shù)據(jù)集的一個(gè)頁面。但是有一些數(shù)據(jù)源已經(jīng)不再提供數(shù)據(jù)集,所以建議在下載或者使用時(shí)謹(jǐn)慎按需選擇。
KDNuggets
Awesome Public Datasets(https://github.com/caesar0301/awesome-public-datasets),這是一個(gè)GitHub上的數(shù)據(jù)集分類綜合列表。在這個(gè)列表中數(shù)據(jù)集被分為各種種類。
Awesome Public Datasets
Reddit Datasets Subreddit(https://www.reddit.com/r/datasets/)因?yàn)檫@是一個(gè)社區(qū)論壇,可能你會(huì)覺得這個(gè)網(wǎng)站又短混亂。但是,你可以通過人氣對(duì)數(shù)據(jù)集排序,來查看最受的歡迎的數(shù)據(jù)集是哪些。同時(shí)在這個(gè)站點(diǎn)上你可以發(fā)現(xiàn)很多有趣的討論。
Reddit Datasets Subreddit
希望以上資源對(duì)于大家學(xué)習(xí)數(shù)據(jù)科學(xué)有所助益。對(duì)于初學(xué)者來說,這絕對(duì)是個(gè)實(shí)戰(zhàn)練習(xí)的絕佳資源。如果你還有其他的數(shù)據(jù)科學(xué)練習(xí)資源,歡迎在評(píng)論區(qū)和大家分享~!
聯(lián)系客服