免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
二 04文本數(shù)據(jù)的價(jià)值

當(dāng)你開車路過一家餐廳的停車場時,你的手機(jī)屏幕上彈出了這家餐廳的當(dāng)日特價(jià)菜品推薦,這種體驗(yàn)是不是很棒?如果賭場老板把發(fā)牌人忘記付給你的20美元親自送還給你,你的心里是不是有點(diǎn)兒小激動?如果在線視頻游戲能夠把和我們玩法相近的用戶即刻告知我們,這世界會不會變得很美妙?你是不是要下調(diào)汽車保險(xiǎn)費(fèi)率?大數(shù)據(jù)能讓這一切變成現(xiàn)實(shí)。

我們發(fā)現(xiàn)了一個非常明顯的趨勢,各行各業(yè)雖然生成了許多大數(shù)據(jù)源,但其底層的支撐技術(shù)卻是相同的。而且,不同行業(yè)還可以使用相同的大數(shù)據(jù)源。大數(shù)據(jù)并非只有單一的用途,它的影響將會非常深遠(yuǎn)。

文本是最大的也是最常見的大數(shù)據(jù)源之一。想想我們周圍有多少文本信息的存在,電子郵件、短信、微博、社交媒體網(wǎng)站的帖子、即時通信、實(shí)時會議以及可以轉(zhuǎn)換成文本的錄音信息。文本數(shù)據(jù)是現(xiàn)在結(jié)構(gòu)化程度最低的,也是最大的大數(shù)據(jù)源。幸運(yùn)的是,我們在駕馭文本數(shù)據(jù)、利用文本數(shù)據(jù)來更好地做商業(yè)決策方面已經(jīng)做了很多工作。

文本分析一般會從解析文本開始,然后將各種單詞、短語以及包含文本的部分賦予語義。我們可以通過簡單的詞頻統(tǒng)計(jì),或更復(fù)雜的操作來進(jìn)行文本分析。自然語言處理中已經(jīng)有很多諸如此類的分析了,這里我們就不再贅述。文本挖掘工具是主流分析套件中一個不可或缺的組成部分。此外,我們還能找到許多獨(dú)立的文本挖掘工具包。其中一些文本分析工具使用基于規(guī)則的方法,用戶需要調(diào)整軟件才能找到自己感興趣的模式。另一些工具則使用機(jī)器學(xué)習(xí)和其他算法自動地發(fā)現(xiàn)數(shù)據(jù)模式。每種方法都各有利弊,其相關(guān)論述已經(jīng)超出了本書的范圍。我們關(guān)心的是如何使用生成的結(jié)果,而不是使用工具產(chǎn)生結(jié)果的過程。

做完文本解析和分類以后,我們就可以分析這些過程所產(chǎn)生的結(jié)果了。文本挖掘過程的輸出結(jié)果通常是其他分析流程的輸入。例如,如果能夠分析出客戶使用電子郵件的情感,就能利用一個變量將客戶的情感標(biāo)記為正面情感或負(fù)面情感。這種標(biāo)記本身是一種結(jié)構(gòu)化的數(shù)據(jù),可以作為分析流程的輸入。使用非結(jié)構(gòu)化的文本創(chuàng)建結(jié)構(gòu)化的數(shù)據(jù),這個過程通常稱為信息提取。

另一個例子是,假定我們能夠在客戶與公司往來的郵件中識別出他們對公司某些產(chǎn)品的評價(jià),我們就能利用一系列變量來標(biāo)識客戶的產(chǎn)品評價(jià)。這些變量本身也是結(jié)構(gòu)化的度量指標(biāo),可以用來做分析。上述這些例子解釋了如何捕獲非結(jié)構(gòu)化數(shù)據(jù)片段,并從中提取出相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。

文本分析的例子很好地說明了該過程:獲取非結(jié)構(gòu)化數(shù)據(jù),然后處理該數(shù)據(jù),最后創(chuàng)建出可以用于分析和報(bào)表過程的結(jié)構(gòu)化數(shù)據(jù)。駕馭大數(shù)據(jù)的一個重要部分是,利用這種創(chuàng)造性的方式將非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)變成可用于分析的數(shù)據(jù)。

解釋文本數(shù)據(jù)實(shí)際上是相當(dāng)困難的。強(qiáng)調(diào)的詞匯和語境不同,同一個單詞表達(dá)出來的意思就不同。面對純文本,我們根本不知道重點(diǎn)在哪里,也不知道整個語境。

文本分析既是一門藝術(shù),也是一門科學(xué),總會存在一定的不確定性。文本分析往往會有分類錯誤和含義模糊的問題。沒錯,如果我們在文本集合中發(fā)現(xiàn)了更好的決策支持模式,那就應(yīng)該使用它。文本分析的目標(biāo)是改進(jìn)你的決策,但并不是令你的決策變得完美。文本數(shù)據(jù)可以有效地提升決策效果,它能提供比沒有它時更好的結(jié)果,即使數(shù)據(jù)有噪音或含義模糊時,這一點(diǎn)也成立。

使用文本數(shù)據(jù)

一種目前很流行的文本分析應(yīng)用是所謂的情感分析。情感分析是從大量人群中挖掘出總體觀點(diǎn),并提供市場對某個公司的評論、看法和感受等相關(guān)信息。情感分析通常使用社會化媒體網(wǎng)站的數(shù)據(jù)。以下是情感分析的幾個例子。

  • 公司或產(chǎn)品的口碑怎么樣?
  • 大家正在討論的是公司的哪些活動?
  • 大家對公司、產(chǎn)品和服務(wù)的評價(jià)是好是壞?

如前所述,文本分析的難點(diǎn)在于詞匯和語境是相關(guān)的。我們要考慮到這個問題,但大量的評價(jià)會讓客戶情感的傾向變得明確。如果我們可以解讀出人們在社交媒體上所說內(nèi)容、與客服互動信息的趨勢,這會對規(guī)劃下一步的工作有很大的價(jià)值。

如果公司可以掌握每一個客戶的情感信息,就能了解客戶的意圖和態(tài)度。與使用網(wǎng)絡(luò)數(shù)據(jù)推斷客戶意圖的方法類似,了解客戶對某種產(chǎn)品的總體情感是正面情感還是負(fù)面情感也是很有價(jià)值的信息。如果這名客戶此時還沒有購買該產(chǎn)品,那價(jià)值就更大了。情感分析提供的信息可以讓我們知道要說服這名客戶購買該產(chǎn)品的難易程度。

文本數(shù)據(jù)的另一個用途是模式識別。我們對客戶的投訴、維修記錄和其他的評價(jià)進(jìn)行排序,期望在問題變大之前,能夠更快地識別和修正問題。產(chǎn)品首次發(fā)布,然后開始出現(xiàn)投訴,文本分析可以識別出客戶在哪些方面存在問題。我們甚至可以做到在客服電話接二連三打進(jìn)來之前,先把問題識別出來。這樣我們就能更快地、更積極地做出響應(yīng)。公司可以及時地做出反應(yīng),解決產(chǎn)品未來發(fā)行版本中同樣的問題,也能主動與客戶進(jìn)行接觸,緩解他們當(dāng)下遇到困難時的焦躁情緒。

欺詐檢測也是文本數(shù)據(jù)的重要應(yīng)用之一。在健康險(xiǎn)或傷殘保險(xiǎn)的投訴事件中,使用文本分析技術(shù)可以解析出客戶的評論和理由。文本分析可以將欺詐模式識別出來,標(biāo)記出風(fēng)險(xiǎn)的高低。面對高風(fēng)險(xiǎn)的投訴,需要更仔細(xì)地檢查。另一方面,投訴在某種程度上還能自動地執(zhí)行。如果系統(tǒng)發(fā)現(xiàn)了投訴模式、詞匯和短語沒有問題,就可以認(rèn)定這些投訴是低風(fēng)險(xiǎn)的,并可以加速處理,同時將更多的資源投入高風(fēng)險(xiǎn)的投訴中。

法律事務(wù)也會從文本分析中受益。按照慣例,任何法律案件在上訴前都會索取相應(yīng)的電子郵件和其他通信歷史記錄。這些通信文本會被批量地檢查,識別出與本案相關(guān)的那些語句。例如,哪些電子郵件中有隱藏的內(nèi)幕消息?哪些人在和別人交流時說的是假話?威脅背后的實(shí)質(zhì)是什么?

在法律案件中應(yīng)用文本分析的做法稱為電子偵察。所有預(yù)先進(jìn)行的分析將幫助起訴獲得成功。不使用文本分析,僅通過人工的方式將無法瀏覽所有的所需文檔。即使我們可以做到人工瀏覽那些文檔,但因?yàn)槿蝿?wù)本身過于單調(diào)枯燥,我們很可能會漏掉其中的一些關(guān)鍵信息。

文本數(shù)據(jù)可能會對所有的行業(yè)都產(chǎn)生影響。它可能是如今使用最廣泛的一類大數(shù)據(jù)。對企業(yè)來講,掌握如何收集、解析和分析文本是很重要的。文本是我們必須駕馭的一種大數(shù)據(jù)源。

Bill Franks,是Teradata公司全球合作伙伴計(jì)劃的首席分析專家,他負(fù)責(zé)跟蹤研究分析領(lǐng)域的前端趨勢,幫助客戶理解Teradata和其分析合作伙 伴如何為客戶創(chuàng)造價(jià)值。Bill還負(fù)責(zé)管理Teradata與SAS合作成立的業(yè)務(wù)分析創(chuàng)新中心,并專注于幫助客戶獲得創(chuàng)新分析能力。此外,Bill負(fù)責(zé) 制定Teradata公司在高級分析領(lǐng)域的戰(zhàn)略與定位。

本文節(jié)選自《駕馭大數(shù)據(jù)》一書。 Bill Franks 著,黃海、車皓陽、王悅 等譯,由人民郵電出版社出版發(fā)行。


 

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
每周一本書之《駕馭大數(shù)據(jù)》:如何實(shí)現(xiàn)大數(shù)據(jù)的應(yīng)用性
商業(yè)價(jià)值:大數(shù)據(jù)的大價(jià)值
對話:大數(shù)據(jù)時代我們?nèi)绾巫鎏幚砼c分析
【大數(shù)據(jù)專欄】客戶數(shù)據(jù)分析:知道的太多也不是好事
大數(shù)據(jù)時代:挖掘技術(shù)和規(guī)模已成雙重門檻
數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服