免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
25個(gè)免費(fèi)數(shù)據(jù)集網(wǎng)站大放送——For 熱愛數(shù)據(jù)科學(xué)的你

如果要一句話概括數(shù)據(jù)科學(xué)的本質(zhì),那就是:

“學(xué)習(xí)數(shù)據(jù)科學(xué)最好的方法就是應(yīng)用數(shù)據(jù)科學(xué)?!?/p>

如果你是一個(gè)初學(xué)者,那么這將對(duì)你正在運(yùn)營的新項(xiàng)目幫助極大。如果你是一個(gè)有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)專家,那么我想你已經(jīng)懂我在說什么了。

然而,當(dāng)我向人們給到此類建議時(shí),他們通常會(huì)反問我——那我可以在哪里獲取到數(shù)據(jù)集進(jìn)行練習(xí)呢?可能有的同學(xué)們還不太了解,現(xiàn)在有很多數(shù)據(jù)集是開放的。

如果你現(xiàn)在也需要大量的數(shù)據(jù)集進(jìn)行練習(xí),那么本文就可以解決你現(xiàn)在的困境,你可以利用這些數(shù)據(jù)進(jìn)行練習(xí),甚至可以利用它們創(chuàng)建自己的項(xiàng)目,甚至是產(chǎn)品。

如何利用這些資源?

對(duì)于數(shù)據(jù)的應(yīng)用來說,是無止境的。如果在這里提供了具體的應(yīng)用方法或者使用方式只會(huì)限制你的創(chuàng)造力。

我想最簡單的方法就是使用她們來創(chuàng)建自己的“數(shù)據(jù)故事”,并將其發(fā)布在自己的博客里。這不僅可以提高你的數(shù)據(jù)可視化技能,還可以提高你的結(jié)構(gòu)化思維。

另一方面,如果你正在考慮或者已經(jīng)在運(yùn)營一款數(shù)據(jù)產(chǎn)品,本文中的這些數(shù)據(jù)集將可以為你提供額外的新的數(shù)據(jù)源。

在本文中,我將這些數(shù)據(jù)源基于應(yīng)用將其分為不同的類別。首先從簡單通用且容易處理的數(shù)據(jù)集開始,然后最后是大量的或行業(yè)相關(guān)的數(shù)據(jù)集。接下來我們?cè)賮頌樘囟ǖ男枨髞磉M(jìn)行為本挖掘、圖像分類等等。

如果你還想到了其他的數(shù)據(jù)集資源,請(qǐng)?jiān)谠u(píng)論中與我分享哦~

簡單&通用的數(shù)據(jù)集——for 初學(xué)者

data.gov(https://www.data.gov/)——這是美國政府公開數(shù)據(jù)源的站點(diǎn)。Data.gov提供各種數(shù)據(jù)及標(biāo)準(zhǔn)數(shù)據(jù)接口,方便用戶下載數(shù)據(jù),參與政府事務(wù),提供反饋意見和建議,消除政府和公眾之間的信息不對(duì)稱問題。這個(gè)站點(diǎn)上有多種領(lǐng)域的數(shù)據(jù),包括氣候、教育、能源和金融等等。

data.gov

data.gov.in(https://data.gov.in/)該站點(diǎn)為印度政府的公開數(shù)據(jù)網(wǎng)站。在該站點(diǎn)上你可以找到各種行業(yè)的數(shù)據(jù),類似氣候、健康等等。

data.gov.in

World Bank(http://www.shihang.org/)從該網(wǎng)站上你可以獲取到世界銀行的公開數(shù)據(jù)。該站點(diǎn)提供類似數(shù)據(jù)目錄、DataBank和微數(shù)據(jù)這樣的數(shù)據(jù)工具可供你在線使用。

World Bank

RBI(https://rbi.org.in/Scripts/Statistics.aspx)該站點(diǎn)為印度央行的公開數(shù)據(jù)。你可以在該站點(diǎn)中查看到類似貨幣市場(chǎng)業(yè)務(wù)、國際收支以及一些產(chǎn)品的使用等等。如果你身處印度的BFSI(Banking, Financial services and Insurance)行業(yè),我想這是一個(gè)你必去的網(wǎng)站。

RBI

Five Thirty Eight Datasets(https://github.com/fivethirtyeight/data),該站點(diǎn)中的每一個(gè)數(shù)據(jù)集中都有大量的數(shù)據(jù),以及一個(gè)對(duì)數(shù)據(jù)進(jìn)行解釋的字典。如果你正在學(xué)習(xí)如何創(chuàng)建數(shù)據(jù)故事,那么。這將是你最好的選擇。

Five Thirty Eight Datasets

大數(shù)據(jù)集——難度提升!

Amazon Web Services (AWS) datasets(https://aws.amazon.com/datasets/)亞馬遜提供了一些大數(shù)據(jù)集,你可以在他們的平臺(tái)或者本地計(jì)算機(jī)上使用。

Google datasets(https://cloud.google.com/bigquery/public-data/)作為BigQuery的一部分,Google提供了一些大數(shù)據(jù)集,該站點(diǎn)上的數(shù)據(jù)集包括嬰兒名字,GitHub的公開數(shù)據(jù)等等。

Youtube labeled Video Dataset(https://research.google.com/youtube8m/)幾個(gè)月前,Google Research Group發(fā)布了Youtube的數(shù)據(jù)集。其中包括800萬Youtube視頻ID和相關(guān)標(biāo)簽。

預(yù)測(cè)模型&機(jī)器學(xué)習(xí)數(shù)據(jù)集

UCI Machine Learning Repository(https://archive.ics.uci.edu/ml/datasets.html)UIC機(jī)器學(xué)習(xí)庫顯然是最著名的數(shù)據(jù)存儲(chǔ)庫。這通常是你尋找數(shù)據(jù)集相關(guān)的第一個(gè)機(jī)器學(xué)習(xí)庫。在這里有各種數(shù)據(jù)集,從泰坦尼克相關(guān)數(shù)據(jù)到最近的空氣質(zhì)量和GPS數(shù)據(jù)等。存儲(chǔ)庫中有超過350種分類。你可以利用這些分類過濾器來確定自己需要的數(shù)據(jù)集。

Kaggle(https://www.kaggle.com/datasets)該站點(diǎn)是一個(gè)可以讓人們捐贈(zèng)自己的數(shù)據(jù)集的地方,同時(shí)其他的成員可以對(duì)其進(jìn)行使用和優(yōu)化。他們有超過350個(gè)數(shù)據(jù)集。這個(gè)站點(diǎn)的另一個(gè)優(yōu)勢(shì)在于 ,你可以看到其他成員的提問和他們寫的腳本等信息。

Analytics Vidhya(https://datahack.analyticsvidhya.com/contest/all/)你可以從該站點(diǎn)下載數(shù)據(jù)集,但是該站點(diǎn)的數(shù)據(jù)量級(jí)相對(duì)較小。

Quandl(https://www.quandl.com/)該站點(diǎn)提供經(jīng)濟(jì)、金融以及其他各種他們通過自己的網(wǎng)站/API獲取并整合的公開數(shù)據(jù)源。在該站點(diǎn)上的數(shù)據(jù)源分為公開版和高級(jí)版。你可以免費(fèi)使用公開版的數(shù)據(jù)源,但是需要支付一定的費(fèi)用才可以訪問高級(jí)版。

Past KDD Cups(http://www.kdd.org/kdd-cup)KDD Cups是ACM Special Interest Group組織的競賽,每年舉行一次,有關(guān)發(fā)現(xiàn)和數(shù)據(jù)挖掘。獲獎(jiǎng)?wù)呖梢允褂闷渲械拇蟛糠仲Y源。

Driven Data(https://www.drivendata.org/)Driven Data發(fā)現(xiàn)數(shù)據(jù)科學(xué)可以用來對(duì)社會(huì)產(chǎn)生積極的影響。然后他們通過運(yùn)行在線建模競賽的方式讓數(shù)據(jù)科學(xué)家可以開發(fā)最好的模型來解決這些問題。

圖像分類數(shù)據(jù)集

The MNIST Database(http://yann.lecun.com/exdb/mnist/)該站點(diǎn)是最受歡迎的手寫數(shù)據(jù)圖像識(shí)別數(shù)據(jù)集。這個(gè)站點(diǎn)上有6萬個(gè)訓(xùn)練案例和1萬組練習(xí)集。這通常會(huì)是新手使用的第一個(gè)圖像識(shí)別訓(xùn)練數(shù)據(jù)集。

The MNIST Database

Chars74K(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/)該站點(diǎn)上是圖像識(shí)別的下一個(gè)階段,如果你已經(jīng)掌握了手寫圖像數(shù)據(jù),在該站點(diǎn)上你可以得到很多關(guān)于自然圖像識(shí)別的數(shù)據(jù)集。在該站點(diǎn)上包含了74000張圖片。

Chars74K

Frontal Face Images(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html)如果你已經(jīng)對(duì)前兩個(gè)站點(diǎn)的項(xiàng)目有一定的了解,那么這個(gè)站點(diǎn)就是下一個(gè)挑戰(zhàn)——人臉識(shí)別。圖片是由卡內(nèi)基梅隆大學(xué)和麻省理工大學(xué)整理收集,分別存放在4個(gè)文件夾下。

Frontal Face Images

ImageNet(http://image-net.org/)現(xiàn)在要為大家介紹一些通用的資料。圖像數(shù)據(jù)集是根據(jù)WordNet的層級(jí)來組織的。

ImageNet

文本分類數(shù)據(jù)集

Spam – Non Spam(http://www.esp.uem.es/jmgomez/smsspamcorpus/)這是一個(gè)對(duì)垃圾信息標(biāo)記收集的研究站點(diǎn)。


Spam – Non Spam

Twitter Sentiment Analysis(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)該站點(diǎn)中包含1,578,627個(gè)已經(jīng)分類的推特狀態(tài)。每一條都被標(biāo)記了是積極情緒還是消極情緒。數(shù)據(jù)是基于Kaggle和Nick Sanders的調(diào)研結(jié)果。

Twitter Sentiment Analysis

Movie Review Data(http://www.cs.cornell.edu/People/pabo/movie-review-data/)該網(wǎng)站提供了有關(guān)電影評(píng)論的集合文件,用正面或者負(fù)面情緒以及主觀評(píng)級(jí)將其標(biāo)注。

Movie Review Data

推薦引擎數(shù)據(jù)集

GroupLens(http://grouplens.org/)該站點(diǎn)通過對(duì)真實(shí)的個(gè)人創(chuàng)建深度分析系統(tǒng),來改進(jìn)社交計(jì)算的理論和實(shí)踐。同時(shí)在GroupLens Research中,收集了MovieLens中的網(wǎng)站數(shù)據(jù)集,根據(jù)數(shù)據(jù)集的大小,在不同的時(shí)間段收集數(shù)據(jù)。

GroupLens

Jester(http://www.ieor.berkeley.edu/~goldberg/jester-data/)這是一個(gè)有關(guān)線上笑話評(píng)論系統(tǒng)的數(shù)據(jù)集。

Jester

其他數(shù)據(jù)源網(wǎng)站

KDNuggets(http://www.kdnuggets.com/datasets/index.html)在KNDuggets上的這個(gè)頁面一直是人們尋找數(shù)據(jù)集的一個(gè)頁面。但是有一些數(shù)據(jù)源已經(jīng)不再提供數(shù)據(jù)集,所以建議在下載或者使用時(shí)謹(jǐn)慎按需選擇。


KDNuggets

Awesome Public Datasets(https://github.com/caesar0301/awesome-public-datasets),這是一個(gè)GitHub上的數(shù)據(jù)集分類綜合列表。在這個(gè)列表中數(shù)據(jù)集被分為各種種類。

Awesome Public Datasets

Reddit Datasets Subreddit(https://www.reddit.com/r/datasets/)因?yàn)檫@是一個(gè)社區(qū)論壇,可能你會(huì)覺得這個(gè)網(wǎng)站又短混亂。但是,你可以通過人氣對(duì)數(shù)據(jù)集排序,來查看最受的歡迎的數(shù)據(jù)集是哪些。同時(shí)在這個(gè)站點(diǎn)上你可以發(fā)現(xiàn)很多有趣的討論。

Reddit Datasets Subreddit

小結(jié):

希望以上資源對(duì)于大家學(xué)習(xí)數(shù)據(jù)科學(xué)有所助益。對(duì)于初學(xué)者來說,這絕對(duì)是個(gè)實(shí)戰(zhàn)練習(xí)的絕佳資源。如果你還有其他的數(shù)據(jù)科學(xué)練習(xí)資源,歡迎在評(píng)論區(qū)和大家分享~!

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
20個(gè)非常好的免費(fèi)數(shù)據(jù)源(免費(fèi)哦!)
入門|從文本處理到自動(dòng)駕駛:機(jī)器學(xué)習(xí)最常用的50大免費(fèi)數(shù)據(jù)集
力薦!50 個(gè)最實(shí)用的免費(fèi)機(jī)器學(xué)習(xí)數(shù)據(jù)集
運(yùn)動(dòng)想象,情緒識(shí)別等公開數(shù)據(jù)集匯總
機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的最佳公共數(shù)據(jù)集
上海交大:我們做了一個(gè)醫(yī)療版MNIST數(shù)據(jù)集,發(fā)現(xiàn)常見AutoML算法沒那么好用
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服