'The world's most valuable resource is no longer oil,but data'
一種新的商品催生出一個利潤豐厚、發(fā)展迅速的行業(yè)。這促使反壟斷監(jiān)管機(jī)構(gòu)介入,從而約束那些能夠控制這種商品流動的巨頭。
一百年前,石油就是這樣一種資源?,F(xiàn)在,一些經(jīng)營數(shù)據(jù)的巨頭引發(fā)了類似擔(dān)憂,這些數(shù)據(jù)將成為數(shù)字時代的石油。
目前處于數(shù)據(jù)驅(qū)動型經(jīng)濟(jì)中,如果無法分析當(dāng)前或未來的趨勢,任何組織都無法生存下去。搶奪數(shù)據(jù)已經(jīng)成為決定下一步行動方案的關(guān)鍵。
作為數(shù)據(jù)科學(xué)領(lǐng)域的從業(yè)者來說,對于數(shù)據(jù)的需求更為強(qiáng)烈。
本次整理了一些NBA、社交網(wǎng)絡(luò)、圖像、語音、文本、時間序列、人文歷史、金融等領(lǐng)域的免費(fèi)和開源的數(shù)據(jù)集資源。(從正文帶藍(lán)色下劃線鏈接自?。?。
數(shù)據(jù)集
一、NBA球員數(shù)據(jù)集:
https://www.basketball-reference.com/players/l/linje01.html
http://china.nba.com/statistics
http://www.stat-nba.com
二、圖像、文本、語言數(shù)據(jù)集
圖像
1、由79302017幅圖像組成的數(shù)據(jù)集,每幅圖像為32x32像素彩色圖像。
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
2、人臉識別數(shù)據(jù)集。
http://www.face-rec.org/databases/
3、一個可搜索的圖像數(shù)據(jù)庫。
http://www.image-net.org/index
語音:
1、CMU語音識別數(shù)據(jù)庫。
http://www.speech.cs.cmu.edu/databases/
2、對音樂分析的數(shù)據(jù)集。
http://users.cis.fiu.edu/~lli003/Music/music.html
3、100萬首歌曲的數(shù)據(jù)集
https://labrosa.ee.columbia.edu/millionsong/
文本:
1、用于構(gòu)建機(jī)器學(xué)習(xí)推薦系統(tǒng)的1.5 TB數(shù)據(jù)集
https://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75&guccounter=1
三、金融和商業(yè)數(shù)據(jù)集:
1、ebay拍賣招標(biāo)數(shù)據(jù)集。
http://www.modelingonlineauctions.com/datasets
2、紐約市警察局的交通事故數(shù)據(jù)(csv格式)。
http://nypd.openscrape.com/#/
3、從aiHit數(shù)據(jù)庫中隨機(jī)抽取的10,000家英國公司的信息
https://www.aihitdata.com/redirect/cons/datasets.html
4、美國股票新聞數(shù)據(jù)
http://dataju.cn/Dataju/web/datasetInstanceDetail/220
5、美國金融客戶投訴數(shù)據(jù)
http://dataju.cn/Dataju/web/datasetInstanceDetail/229
6、Airbnb 開放的民宿信息和住客評論數(shù)據(jù) http://dataju.cn/Dataju/web/datasetInstanceDetail/360
四、政府出臺的相關(guān)數(shù)據(jù)
1、健康、環(huán)境、能源等數(shù)據(jù)。
http://data.un.org/
2、經(jīng)濟(jì)時間系列,由美國政府機(jī)構(gòu)制作,以多種形式和媒體發(fā)行
http://inforumweb.umd.edu/econdata/econdata.html
3、USGovXML是一個由美國政府提供的公開可用web服務(wù)和XML數(shù)據(jù)源的索引
http://usgovxml.com/
五、技術(shù)、社交網(wǎng)絡(luò)、人文歷史等數(shù)據(jù)集
1、80 Tb的存檔web爬蟲數(shù)據(jù)。
http://blog./2012/10/26/80-terabytes-of-archived-web-crawl-data-available-for-research/
2、一個包含許多“開放”社交網(wǎng)絡(luò)分析數(shù)據(jù)集的可訪問庫的站點(diǎn)。
http://ww31.growmeme.com/overview
3、斯坦福大型網(wǎng)絡(luò)數(shù)據(jù)集收集。
http://snap.stanford.edu/data/index.html
4、一個包含谷歌圖書公司的數(shù)據(jù)集。
https://aws.amazon.com/cn/datasets/google-books-ngrams/
5、基因遺傳數(shù)據(jù)集。
http://portals.broadinstitute.org/cgi-bin/cancer/datasets.cgi
6、地球撞擊隕石數(shù)據(jù)。
https://www.analyticbridge.datasciencecentral.com/profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized
機(jī)器學(xué)習(xí)數(shù)據(jù)集常用搜索網(wǎng)站
1、Kaggle
https://www.kaggle.com/competitions
2、加州大學(xué)歐文分校機(jī)器學(xué)習(xí)庫。
http://archive.ics.uci.edu/ml/index.php
3、Google數(shù)據(jù)集搜索。
https://toolbox.google.com/datasetsearch
4、Datahub,分享高質(zhì)量數(shù)據(jù)集平臺
https://datahub.io/
5、用于上傳和查找數(shù)據(jù)集的機(jī)器學(xué)習(xí)數(shù)據(jù)集存儲庫。
https://www.webdoctx.com/www.mldata.org
介紹完以上的數(shù)據(jù),最后分享份收藏已久的數(shù)據(jù)分析課的視頻資源,希望幫助公眾號的讀者入門!
大家可以在本公眾號『程序IT圈』上輸入框回復(fù):數(shù)據(jù)。