免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
【回顧】大數(shù)據(jù)微課 | 郭鵬程:如何獲得有生命力的數(shù)據(jù)

1.拿數(shù)據(jù)做什么?
2.
數(shù)據(jù)建模
3.
業(yè)務(wù)數(shù)據(jù)化
4.
分析和挖掘的方向

5.抽樣和數(shù)據(jù)量


最后如果還有時(shí)間的話,我也會(huì)根據(jù)自己的經(jīng)歷和理解講一講做數(shù)據(jù)的幾種職業(yè)發(fā)展途徑。

如今數(shù)據(jù)行業(yè)正式火熱的時(shí)候,不少公司紛紛設(shè)置數(shù)據(jù)崗位,也有很多創(chuàng)業(yè)公司從數(shù)據(jù)角度入手,同時(shí),不少高校也成立了數(shù)據(jù)專業(yè)。

特別是大數(shù)據(jù)這個(gè)名詞,已經(jīng)被熱炒了好幾年。

如果大家留意的話,會(huì)發(fā)現(xiàn)網(wǎng)上很多關(guān)于大數(shù)據(jù)的課題,往往是在研究大數(shù)據(jù)平臺(tái),比如Hadoop,spark

然而從時(shí)間角度來說,數(shù)據(jù)工作者有三個(gè)角度:技術(shù)、統(tǒng)計(jì)、和業(yè)務(wù)

這里技術(shù)主要指的就是IT技術(shù),從簡(jiǎn)單的分析工具,如R、SPSS,數(shù)據(jù)庫(kù),到大數(shù)據(jù)平臺(tái),如storm,spark等等

統(tǒng)計(jì)呢,是指建模、數(shù)學(xué)、概率統(tǒng)計(jì),其中尤其以統(tǒng)計(jì)最為重要

業(yè)務(wù)是指,數(shù)據(jù)工作者會(huì)始終以業(yè)務(wù)為導(dǎo)向。從某個(gè)角度來說,數(shù)據(jù)應(yīng)該是扮演輔助的角色。這個(gè)待會(huì)我們會(huì)重點(diǎn)講

關(guān)于數(shù)據(jù)分析和數(shù)據(jù)挖掘,市面上有很多種教材,會(huì)講各種各樣的算法,比如回歸,關(guān)聯(lián)等等。然而如果真的深入到實(shí)際工作中時(shí),會(huì)發(fā)現(xiàn):

教科書上的練習(xí)過于紙上談兵,現(xiàn)實(shí)中很少有干干凈凈的數(shù)據(jù)擺在你面前讓你用各種算法去做;實(shí)際上數(shù)據(jù)清洗會(huì)占到真正工作的60%以上

相信這點(diǎn)不少同學(xué)會(huì)深有體會(huì)。這里順帶介紹一下我的經(jīng)歷,本科我修的是天文,但是主要的還是推導(dǎo)公式,跟現(xiàn)在我們很多大學(xué)里學(xué)的還是差不多(這點(diǎn)有些遺憾)。

后來對(duì)學(xué)術(shù)現(xiàn)狀表示很灰心,就決定去社會(huì)上實(shí)踐一下,于是比價(jià)勉強(qiáng)的做了電子工程師;然而接著發(fā)現(xiàn)沒有受過專門訓(xùn)練還是很難走遠(yuǎn),就決定去深造。

因?yàn)閷I(yè)原因(為了好申請(qǐng)),我的博士方向選定了天文儀器,也就是說,天文背景 電子工程師背景,聽上去很合適的樣子。

然后就是連續(xù)n年在實(shí)驗(yàn)室里做儀器,運(yùn)到山上去觀測(cè),然后回來分析數(shù)據(jù),期望能夠發(fā)現(xiàn)點(diǎn)什么。。。。

結(jié)果數(shù)據(jù)質(zhì)量很差,打個(gè)比方是什么呢?

我們期望在一張白紙上,會(huì)突然有個(gè)黑點(diǎn),然后可以興奮的指著說,我發(fā)現(xiàn)了一顆星

結(jié)果實(shí)際上呢,拿出紙來,發(fā)現(xiàn)一片雪花

就這樣好多年,很難畢業(yè)。然后就換了個(gè)做理論的導(dǎo)師,導(dǎo)師的名言是:“we never use real data. real data sucks!'

我們只用模擬數(shù)據(jù)~

然后就畢業(yè)了。。。

做的事天文統(tǒng)計(jì),用計(jì)算機(jī)模擬物理模型,然后反過來分析模擬的數(shù)據(jù),做了一堆東西。。。

有了這些經(jīng)歷,我對(duì)數(shù)據(jù)的質(zhì)量就特別敏感,總希望從一開始就把握好數(shù)據(jù)質(zhì)量,不然我們浪費(fèi)的不僅是金錢和時(shí)間,還有更重要的機(jī)會(huì)。

                                              


我們現(xiàn)在說說第一個(gè)話題,拿數(shù)據(jù)做什么?

數(shù)據(jù)用來做什么?我大概總結(jié)了一下:記錄、解釋(理解)、預(yù)測(cè)、控制

記錄:一個(gè)是將我們感興趣的活動(dòng)記錄下來,比如日志,交易記錄等等

解釋:通過數(shù)據(jù)和數(shù)據(jù)之間發(fā)現(xiàn)的信息,幫助我們理解一些問題,比如,通過實(shí)驗(yàn)和分析數(shù)據(jù),很多物理模型得以建立

預(yù)測(cè):通過分析和挖掘數(shù)據(jù)建立的模型,可以用來在已知情況下,去預(yù)測(cè)我們感興趣的某些變量,幫助我們采取相應(yīng)的措施

控制:也是在模型的基礎(chǔ)上,如果我們希望達(dá)到某種結(jié)果,改如何改變某些可以控制的變量。比如,我們通過調(diào)整利率可以達(dá)到管理經(jīng)濟(jì)的目的

數(shù)據(jù)分析和數(shù)據(jù)挖掘,就是用來從數(shù)據(jù)中獲得信息、模型、知識(shí)的一系列方法

其中,根據(jù)我的理解,數(shù)據(jù)分析相對(duì)傳統(tǒng),一般是建立在假設(shè)檢驗(yàn)的基礎(chǔ)上,對(duì)已知的模型進(jìn)行參數(shù)估計(jì)等

而數(shù)據(jù)挖掘,一般是指發(fā)現(xiàn)數(shù)據(jù)中隱含的模式,或者我們稱之為知識(shí)、模型、都可以

常見的數(shù)據(jù)分析方法:如描述性統(tǒng)計(jì)、相關(guān)分析、回歸分析等等;常見的數(shù)據(jù)挖掘方法:如分類、關(guān)聯(lián)、聚類、回歸等等

具體指代的是什么,有很多資料可以查,我在這里就不一一贅述了。

那么我們對(duì)這個(gè)話題總結(jié)一下的話,可以概括為: 數(shù)據(jù)-信息-知識(shí)-智慧”。這個(gè)是業(yè)內(nèi)經(jīng)常被拿來說的數(shù)據(jù)金字塔

1,3,8,15,20,25,26,30,31,20,8,4

比如這串?dāng)?shù)字,我們可以稱之為數(shù)據(jù)

如果再加點(diǎn)內(nèi)容,這個(gè)表示了某個(gè)地區(qū)一年12個(gè)月(不確定我是不是輸錯(cuò)了)的氣溫,那么這個(gè)叫信息

當(dāng)我們利用分析方法,發(fā)現(xiàn)平均氣溫的周期性,以及冬暖夏涼時(shí),這個(gè)就稱之為知識(shí)。至于如何應(yīng)對(duì)這種周期性的氣溫變化,以及能對(duì)她做什么,那就是智慧了。

我個(gè)人認(rèn)為,數(shù)據(jù)工作,也就到知識(shí)這個(gè)層面。


好,剛才說了,數(shù)據(jù)工作者就是能到達(dá)知識(shí)這個(gè)層面,尤其是現(xiàn)在,即使alpha狗這么厲害,它估計(jì)還是分不清善惡。也很難做出有創(chuàng)意的決策。所以數(shù)據(jù)工作者要看清自己的位置,那就是輔助決策。

當(dāng)然一邊是數(shù)據(jù)工作者,一邊又是CEO的人是另一回事,但是也要分不同的角色去扮演。數(shù)據(jù)工作者實(shí)際工作中,是不會(huì)有人喂給你質(zhì)量很好的數(shù)據(jù)的

書上那么多高大上的算法,在現(xiàn)實(shí)中也是難得一用的,一般是做了好幾個(gè)月數(shù)據(jù)清洗,挖掘之后,啥模式也沒有。


那我們就要說,數(shù)據(jù)工作者最重要的一個(gè)任務(wù),就是根據(jù)業(yè)務(wù)去進(jìn)行數(shù)據(jù)建模。什么叫做數(shù)據(jù)建模?從我個(gè)人的理解,就是要把你所面對(duì)的業(yè)務(wù)轉(zhuǎn)變成數(shù)學(xué)問題(或者說數(shù)據(jù)問題)。也可以用另一句話來代替:就是要定義變量

這是我在工作中遇到的坑,看別人遇到的坑。。。??偨Y(jié)的經(jīng)驗(yàn)。這里也是今天我分享的最核心的內(nèi)容:

要做好變量定義,其實(shí)要涉及到好幾個(gè)問題:1.對(duì)業(yè)務(wù)流程的理解 2. 對(duì)IT技術(shù)的理解 3. 對(duì)分析和挖掘方法的理解

1. 是指,如何定義變量,可以使得數(shù)據(jù)輔助主營(yíng)業(yè)務(wù)增收或者降低成本,甚至有增值價(jià)值?

2.是指,這些變量是否能夠被有效的收集和存儲(chǔ)?應(yīng)該使用什么樣的技術(shù)?如果達(dá)不到則白搭。

3. 數(shù)據(jù)積累下來了,可以用什么分析和挖掘的方法?(這個(gè)后面也會(huì)有討論)

舉一個(gè)例子:

之前我們?yōu)?/span>12301全媒體呼叫中心做數(shù)據(jù)分析,由于沒有在一開始就介入到數(shù)據(jù)建模的工作,導(dǎo)致后面很多問題

12301是國(guó)家旅游局的客服中心,承擔(dān)游客對(duì)涉旅企事業(yè)單位的投訴、咨詢,協(xié)助國(guó)家旅游局對(duì)旅游秩序進(jìn)行監(jiān)管。大家可以想象,它的業(yè)務(wù)模式是什么?要考慮哪些方面的需求?

這里是強(qiáng)調(diào),數(shù)據(jù)建模時(shí),一定要以業(yè)務(wù)作為導(dǎo)向,才能定義到合適的變量。一個(gè)客服中心,考慮N方需求:用戶,企業(yè),客服人員,系統(tǒng),監(jiān)管單位。

游客打電話進(jìn)來,會(huì)投訴或者咨詢,下一步這個(gè)中心就要把這個(gè)問題專項(xiàng)被投訴企業(yè)或監(jiān)管部門,這是主營(yíng)業(yè)務(wù)。然后還有對(duì)投訴工單進(jìn)行追蹤和反饋。

同時(shí),客服中心需要自我管理,也就是要提高工作效率,也就是希望能從數(shù)據(jù)里看到客服人員的接訴狀況

再同時(shí),由于客服中心經(jīng)常會(huì)使用第三方的呼叫中心系統(tǒng),往往這些系統(tǒng)價(jià)格不菲,所以還需要使用數(shù)據(jù)來評(píng)估系統(tǒng)的使用狀況。

數(shù)據(jù)工作者只有在了解了業(yè)務(wù)模式之后,占多多方的角度上考慮問題,從全局去找一個(gè)對(duì)所有方都優(yōu)化的模型,那么工單系統(tǒng)中需要記載的變量就相對(duì)容易的浮出來了。

所以,這里暫且不說什么復(fù)雜的模型,光是要把實(shí)際業(yè)務(wù)抽取為變量,就需要以業(yè)務(wù)導(dǎo)向。

以業(yè)務(wù)為導(dǎo)向,以業(yè)務(wù)為導(dǎo)向

當(dāng)業(yè)務(wù)跑起來之后,數(shù)據(jù)以最好的姿勢(shì)積累了下來之后,你的數(shù)據(jù)自然會(huì)變成價(jià)值連城的大數(shù)據(jù)”。那么基本流程是這樣的:定義變量--設(shè)計(jì)采集流程--參與系統(tǒng)開發(fā)--數(shù)據(jù)反饋。

數(shù)據(jù)工作者先進(jìn)行數(shù)據(jù)建模,然后設(shè)計(jì)和參與業(yè)務(wù)系統(tǒng)的開發(fā),然后從數(shù)據(jù)角度對(duì)業(yè)務(wù)進(jìn)行反饋。。。 這樣迭代。這一步,我們可以用另外一句話來概括:先業(yè)務(wù)數(shù)據(jù)化,后數(shù)據(jù)業(yè)務(wù)化

前半句我們已經(jīng)說了,后半句實(shí)際上就是將我們的數(shù)據(jù)進(jìn)行分析和挖掘,體現(xiàn)其價(jià)值。


因?yàn)殛P(guān)系比較緊密,我接著說第三個(gè)話題。業(yè)務(wù)數(shù)據(jù)化中的一些經(jīng)驗(yàn)性原則:

首先,變量的類型

先看看變量都有哪些類型



這個(gè)圖不少人應(yīng)該已經(jīng)看過。變量大概分為兩類:類別型,和數(shù)值型。這兩類其中又會(huì)再各分為兩類。

為什么我們要說變量的類型,原因有兩個(gè),第一:變量類型會(huì)影響數(shù)據(jù)所攜帶的信息量;第二:變量類型會(huì)影響后續(xù)的分析方式。

我再給大家找一個(gè)似曾相識(shí)的圖:


這幅圖我不用多解釋了,大家有問題可以后面再問。

那么對(duì)于變量類型,我的原則是,能夠用數(shù)值型的就用數(shù)值型。原因很簡(jiǎn)單,數(shù)值型的可以做離散化,轉(zhuǎn)換成類別型;反之則不成

所以我傾向于用冗余的方式去做,能用數(shù)值型,就用數(shù)值型。

好,第二條,變量的度量和粒度

舉個(gè)栗子更容易說清楚,比如描述地理位置的變量。按照粒度從大到小,可以是 -國(guó)家---縣等等。但是如果有經(jīng)緯度,那我一定要經(jīng)緯度

這個(gè)粒度最細(xì)。后續(xù)數(shù)據(jù)清洗的時(shí)候,我可以輕易的把地理經(jīng)緯度轉(zhuǎn)換成為洲-國(guó)家---縣,當(dāng)然這步需要借助于一些數(shù)據(jù)辭典。這個(gè)原則呢,也就是要粒度最細(xì),精度最高的方式來采集數(shù)據(jù)。定義變量。

第三條,變量個(gè)數(shù)

這里我的原則是,取得的變量最好不相關(guān),也就是都是獨(dú)立測(cè)量的。比如說,如果有某類交易的總額和平均額,那么我取一個(gè)就好了。這點(diǎn)比較明顯,但是有兩個(gè)地方可能會(huì)有坑

1. 舉個(gè)例子


那天有工人來我家安馬桶測(cè)量,需要確定污水口中心到墻面的距離,理論上 R d=D。

所以測(cè)量?jī)蓚€(gè)就夠了,但是呢,由于污水口的中心點(diǎn)很難確定,通常他們都會(huì)把三個(gè)值都測(cè)量一下。如果發(fā)現(xiàn)等式不成立,他們會(huì)重新測(cè)量。這里就是因?yàn)橛行┳兞康闹档拇_定會(huì)有不確定因素,所以引入另一個(gè)相關(guān)的作為校準(zhǔn)。

第二個(gè)坑:有時(shí)候會(huì)見到有些朋友會(huì)把一堆變量做很多計(jì)算后,衍生出很多新的變量,然后一起放到模型里去分析,這個(gè)就會(huì)出現(xiàn)變量之間的相關(guān)關(guān)系,也是我們希望避免的。

好,關(guān)于數(shù)據(jù)建模,大致講這么多。

那會(huì)問,第二個(gè)坑里 為什么要避免?變量之間的相關(guān)關(guān)系?

分析數(shù)據(jù)的時(shí)候,自變量太多的話,我們首先要做一下降維處理,不然分析的難度會(huì)很大,剛才的衍生變量,實(shí)際上認(rèn)為的造成不必要人為的維度的增加。當(dāng)然,有些衍生變量與原變量之間是相互獨(dú)立的。

什么是數(shù)據(jù)的粒度?舉個(gè)例子,都是表示地點(diǎn),江蘇就比蘇州的粒度要粗。

如果數(shù)據(jù)收得不太理想您建議該怎么做?我覺得,有條件的話重做?;蛘咴诂F(xiàn)有數(shù)據(jù)上清理后處理。

剛才說的溫度周期性會(huì)有一些啟發(fā)。但是在工作中發(fā)現(xiàn)的總感覺是顯然意見的知識(shí)?比如我們發(fā)現(xiàn)下雨的時(shí)候,雖然景區(qū)游客少了,但是去的游客往往更文藝一些(我們準(zhǔn)備的導(dǎo)覽機(jī)租的更好)。 

時(shí)間粒度不同的變量如何分析?比如,分鐘級(jí)別、小時(shí)級(jí)別和天級(jí)別,甚至到月級(jí)別。

原始數(shù)據(jù)特征之間一定要處理成相互獨(dú)立的嗎?比如用svd降維之后的特征具體含義就沒了。


假設(shè)數(shù)據(jù)已經(jīng)到手,先要清洗,清洗主要是處理 缺失值,不一致的取值,以及明顯錯(cuò)誤的值,這點(diǎn)咱們也不說了。臟活累活。。。。 

這是對(duì)不參與系統(tǒng)開發(fā)的數(shù)據(jù)者的報(bào)應(yīng)。。。

假設(shè)數(shù)據(jù)到手了。。。

你有一堆變量,可能是來自數(shù)據(jù)庫(kù),也可能是文本文件,excel,。。。 這些也無所謂

我們能做什么分析

第一,數(shù)據(jù)分析的任務(wù),就是想看一下這么多變量之間是否有關(guān)系?

如果你發(fā)現(xiàn)木有關(guān)系,。。。。那么好了,事情基本就結(jié)束了,所有的變量都是相互獨(dú)立的。。。 不相關(guān)的。。。。

然而事情并不會(huì)這樣子

一般都會(huì)有關(guān)系

通過相關(guān)分析,或者更多的,也是我更推薦的,是用可視化的探索性分析,你會(huì)發(fā)現(xiàn)很多有趣的關(guān)聯(lián)性

可視化探索分析可以給數(shù)據(jù)分析人員很多指示性的方向,定性的。

這里也強(qiáng)力推薦,可視化。

可視化

可視化不光是給領(lǐng)導(dǎo)看的,也不光是講故事的,更多的是分析用的,當(dāng)我們發(fā)現(xiàn)變量間存在相關(guān)性的時(shí)候,這時(shí)候回歸基本上可以解決大部分問題。這里的回歸,指的是廣義的回歸。


見圖,圖來自《R語言實(shí)戰(zhàn)》

跑完了回歸分析,基本上解釋、預(yù)測(cè)、控制,很多工作就可以做了

可以說,大部分情況下,回歸都可以勝任了。

我把以回歸為代表的模型,稱作統(tǒng)計(jì)模型

很多時(shí)候,我們使用統(tǒng)計(jì)模型,注重關(guān)聯(lián)性,但是不注重因果

然而統(tǒng)計(jì)模型對(duì)數(shù)據(jù)實(shí)際上有假設(shè)的

舉個(gè)例子

異常值的判斷: 通常一個(gè)方法,是用樣本均值加減三倍的樣本方差

在這之外的數(shù)據(jù)點(diǎn),我們認(rèn)為是異常值(<1%的概率會(huì)出現(xiàn)的值)

這里有個(gè)假設(shè),那么就是你認(rèn)為樣本數(shù)據(jù)是正態(tài)分布的。

然而未必

另一個(gè)例子,比如說我們?cè)谧鎏煳挠^測(cè)的時(shí)候,要計(jì)算落在CCD上的光子的個(gè)數(shù)

計(jì)數(shù)的變量,大多數(shù)情況下,并非正態(tài)分布,而是泊松分布,那么異常值就不可以用剛才說的方法來做

比如,網(wǎng)頁的點(diǎn)擊數(shù),等等

當(dāng)然,有泊松回歸可以解決類似問題

在回歸的過程中,會(huì)有對(duì)變量進(jìn)行冪次變化的交互過程,

比如 y=x^a

如果前輩有人已經(jīng)產(chǎn)生了這樣的模型,通常我們會(huì)拿來用,但是通過擬合的方式,來確定參數(shù)a

使用這種模型,我稱之為經(jīng)驗(yàn)?zāi)P?/span>

第三種模型,因?yàn)槲沂俏锢沓錾淼模X得會(huì)是究極一些,就是物理模型

雖然一般來說用不上吧

實(shí)際上在大數(shù)據(jù)行業(yè)的現(xiàn)階段,重關(guān)聯(lián),不重因果,也就是往往會(huì)用統(tǒng)計(jì)模型去研究大數(shù)據(jù)中的價(jià)值

一方面是因?yàn)椋y(tǒng)計(jì)模型夠用了,還有很多價(jià)值沒有被挖掘;

另一方面是,如此大量的數(shù)據(jù),使用物理模型去研究,計(jì)算量過于昂貴

然后物理模型非常有用,可以幫我們來判斷什么樣的分析方式更合適

舉個(gè)例子

價(jià)格

物價(jià)也好,股價(jià)也好,現(xiàn)在都有比較成熟的物理模型驗(yàn)證了,價(jià)格是對(duì)數(shù)正態(tài)分布;

比如人的滿意度,也并非線性的,也是對(duì)數(shù)形式的

也就是說,你如果想讓另一個(gè)人對(duì)你的滿意度提高1倍,你對(duì)他的好大概要提高10倍,也就是一個(gè)量級(jí)。。。。

追妹子的同學(xué)注意了,物理模型教你控制成本。

當(dāng)然了,實(shí)際上

物理模型在歷史上的建立,也是從統(tǒng)計(jì)模型到經(jīng)驗(yàn)?zāi)P停鸩浇⒌?。。?/span>

好,關(guān)于這個(gè)話題呢,我們總結(jié)一下,就是拿到數(shù)據(jù)之后分析和挖掘的方向

最主要的任務(wù),就是要探究變量之間的關(guān)系

不管是數(shù)據(jù)分析也好,還是數(shù)據(jù)挖掘的各種算法也好


5個(gè)話題

抽樣和數(shù)據(jù)量

這點(diǎn)剛才有位同學(xué)提到過,如何檢驗(yàn)數(shù)據(jù)質(zhì)量

這里面就是抽樣科學(xué)研究的問題

好的抽樣,是指樣本相對(duì)于總體,有代表性,樣本足夠大

有代表性,可以通過檢查樣本變量的分布,是否與總體分布一致來確認(rèn)

樣本是否夠大,除了經(jīng)驗(yàn)性的認(rèn)為,多一個(gè)變量,就多30條記錄以外,還有一個(gè)辦法叫做功效分析

功效分析研究四個(gè)因素的關(guān)系,這是基于數(shù)據(jù)分析的思想(假設(shè)檢驗(yàn))

四個(gè)因素分別是:顯著水平α,功效(1-第二類錯(cuò)誤的概率),樣本大小,和效應(yīng)值

在抽樣之前可以做一下這類分析,來確定這次分析是否值得。

具體內(nèi)容呢,由于時(shí)間關(guān)系,大家可以參考有關(guān)資料

當(dāng)然,現(xiàn)在大數(shù)據(jù)的一個(gè)思想,是說我要全部

所有的數(shù)據(jù)都因?yàn)椴杉杀镜投伎梢约{入囊中

那么就是另一個(gè)問題了,有了大數(shù)據(jù)平臺(tái)的支持,與剛才我們說的小樣本數(shù)據(jù)分析會(huì)有些不同。

但是數(shù)據(jù)工作者大多數(shù)時(shí)候,還是會(huì)遇到小樣本問題

這些工作如何做,大家確實(shí)需要好好研讀一下統(tǒng)計(jì)分析建模、概率論等書籍

今天我主要講以上5點(diǎn)內(nèi)容

綜合起來呢,數(shù)據(jù)工作者如果想獲得高質(zhì)量的數(shù)據(jù),數(shù)據(jù)建模是最重要的,而好的建模是建立在對(duì)業(yè)務(wù)的理解和抽象基礎(chǔ)上的。



問答專區(qū):

梁嘉駿 
統(tǒng)計(jì)模型確實(shí)是關(guān)聯(lián)關(guān)系而不是因果關(guān)系,但是物理模型也未必是因果關(guān)系吧?老師能提供一些使用物理模型估計(jì)的關(guān)鍵詞,工具嗎?想了解一下物理模型在知識(shí)發(fā)現(xiàn)的應(yīng)用

Guo PC 
@梁嘉駿 所謂因果,應(yīng)該是指時(shí)空上的先后關(guān)系和必然性聯(lián)系

Guo PC 
物理模型有時(shí)候確實(shí)可以解釋這些問題

Guo PC 
當(dāng)然,所有的模型都是錯(cuò)的,但是有時(shí)候他們是有用的”[壞笑]

劉娟
是不是以后會(huì)往研究人的情感方向發(fā)展呢

Guo PC
@張虎 MATLAB,R,Python

張虎 
@講師-郭鵬程?這三個(gè)你比較傾向哪個(gè)?

Guo PC
@劉娟 同意,現(xiàn)在很多也在研究用戶行為的,關(guān)鍵是要等獲取用戶的情感數(shù)據(jù),視頻網(wǎng)站可以通過鼠標(biāo)的軌跡來間接測(cè)量,前一陣那個(gè)云視鏈不是號(hào)稱觀察用戶的眼珠子來獲取用戶的情感數(shù)據(jù)嗎?[表情]

Guo PC 
@張虎 我最早用MATLAB,后來用R,現(xiàn)在網(wǎng)Python轉(zhuǎn),R最容易學(xué),Python的好處是還可以直接做系統(tǒng)開發(fā)。。。

歪歪
在傳統(tǒng)行業(yè),比較關(guān)注設(shè)備健康狀態(tài),傳統(tǒng)的方式是三個(gè)月六個(gè)月甚至是三年對(duì)設(shè)備進(jìn)行專業(yè)的檢查測(cè)試;同時(shí)這些設(shè)備也會(huì)有其他監(jiān)測(cè)手段對(duì)某些參數(shù)進(jìn)行監(jiān)測(cè),一般是一天一次;另外,與其可能相關(guān)的有天氣、設(shè)備運(yùn)行數(shù)據(jù),頻次在分鐘級(jí)別。我們希望能從這些不同時(shí)間粒度的數(shù)據(jù)中找到與設(shè)備健康狀態(tài)相關(guān)的關(guān)系,但變量顆粒的問題很是困擾

Guo PC 
@歪歪 這個(gè)我乍一看,先想到的是把粒度都?xì)w集到天,檢查測(cè)試數(shù)據(jù)可以用插值的方式估計(jì)到每天,分鐘級(jí)數(shù)據(jù)可以求平均到每天

Guo PC 
這個(gè)還要分鐘級(jí)數(shù)據(jù)是否有比較大的日內(nèi)變化

歪歪 
郭老師,有的,分鐘級(jí)別的數(shù)據(jù)是電力負(fù)荷數(shù)據(jù),有高峰和低谷的

Guo PC 
@歪歪 如果是穩(wěn)定的周期型的日內(nèi)變化,我感覺也可以平均,或者取代表值

Guo PC 
如峰值、中值、最小值等等

Tyntyn 
就是我現(xiàn)在用現(xiàn)實(shí)調(diào)查的數(shù)據(jù)很難做出什么結(jié)果,有沒有什么研究理論一塊的路子可以介紹著走一走呢?

Guo PC
有本書,叫做 市場(chǎng)調(diào)查 基于R語言

Guo PC 
周庭銳老師寫的

Guo PC 
如果是市場(chǎng)調(diào)查的話,好像不太適合


本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
用戶流失預(yù)警分析
騰訊劉天宇:可控、可靠的數(shù)據(jù)到文本生成技術(shù)
DMBOK 06|數(shù)據(jù)建模與設(shè)計(jì)
大數(shù)據(jù)和Hadoop時(shí)代的維度建模和Kimball數(shù)據(jù)集市
《創(chuàng)世神會(huì)夢(mèng)見真空中的球形雞嗎?》(下篇)
微軟團(tuán)隊(duì)發(fā)布第一個(gè)基于AI的天氣和氣候基礎(chǔ)模型 ClimaX
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服