數(shù)據(jù)量大(Volume)
大數(shù)據(jù)的起始數(shù)據(jù)單位至少是拍字節(jié)(約1000個(gè)太字節(jié))、艾字節(jié)(約1000個(gè)拍字節(jié))或澤字節(jié)(約1000個(gè)艾字節(jié))。
類型繁多(Variety)
大數(shù)據(jù)的數(shù)據(jù)格式是多樣化的,如文字、圖片、視頻、音頻、地理位置信息等,數(shù)據(jù)也可以有不用的來源,如傳感器,互聯(lián)網(wǎng)等。
價(jià)值密度低(Value)
隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但價(jià)值密度較低,例如監(jiān)控視頻,在連續(xù)不斷的監(jiān)控中,有用的數(shù)據(jù)可能僅有一二秒。如何通過強(qiáng)大的計(jì)算機(jī)更迅速的完成數(shù)據(jù)的價(jià)值“提純”成為目前大數(shù)據(jù)背景下亟待解決的問題。
速度快,時(shí)效高(Velocity)
速度快這一點(diǎn)是大數(shù)據(jù)區(qū)分與傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。到目前2020年,全球數(shù)據(jù)使用量達(dá)到了大約35澤字節(jié)(35ZB)。另外數(shù)據(jù)還具有一定的時(shí)效性,是不停變化的,數(shù)據(jù)量可以隨時(shí)間逐漸增大,也可在空間上不斷移動(dòng)變化的數(shù)據(jù)。如果采集到的數(shù)據(jù)不經(jīng)過流轉(zhuǎn),最終會(huì)過期作廢。(如數(shù)據(jù)處理軟件達(dá)不到”秒”處理,所帶來的商業(yè)價(jià)值就會(huì)大打折扣)。
大數(shù)據(jù)在醫(yī)療領(lǐng)域的應(yīng)用
醫(yī)療行業(yè)很早就遇到了海量數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)的挑戰(zhàn),而近年來很多國(guó)家都在積極推進(jìn)醫(yī)療信息化發(fā)展,這使得很多醫(yī)療機(jī)構(gòu)有資金來做大數(shù)據(jù)分析。
大數(shù)據(jù)在零售和電商行業(yè)的應(yīng)用
零售行業(yè)可以利用大數(shù)據(jù)技術(shù)進(jìn)行精準(zhǔn)營(yíng)銷。例如,商家可以更具客戶消費(fèi)喜好和趨勢(shì),進(jìn)行商品的精準(zhǔn)營(yíng)銷,降低營(yíng)銷成本。在未來,電商還可以利用大數(shù)據(jù)預(yù)測(cè)流行趨勢(shì)、消費(fèi)趨勢(shì)、地域消費(fèi)特點(diǎn)、客戶消費(fèi)習(xí)慣、各種消費(fèi)行為的相關(guān)熱度、消費(fèi)熱點(diǎn)、影響消費(fèi)的重要因素等。
大數(shù)據(jù)在金融行業(yè)的應(yīng)用
大數(shù)據(jù)在金融行業(yè)應(yīng)用范圍較廣。大數(shù)據(jù)在金融行業(yè)的應(yīng)用可以總結(jié)為以下5個(gè)方面:精準(zhǔn)營(yíng)銷,風(fēng)險(xiǎn)管控,決策支持,效率替身,產(chǎn)品設(shè)計(jì)。
大數(shù)據(jù)在交通出行領(lǐng)域的應(yīng)用
目前,交通領(lǐng)域的大數(shù)據(jù)應(yīng)用主要體現(xiàn)在兩個(gè)方面,一方面可以利用大數(shù)據(jù)來實(shí)現(xiàn)即時(shí)信號(hào)燈調(diào)度,提高已有線路運(yùn)行能力。另一方面通過大數(shù)據(jù)了解車輛密度,合理進(jìn)行道路規(guī)劃。
大數(shù)據(jù)在教育領(lǐng)域的應(yīng)用
大數(shù)據(jù)教育領(lǐng)域的應(yīng)用主要集中在自適應(yīng)個(gè)性化學(xué)習(xí)、英語(yǔ)語(yǔ)音測(cè)評(píng)、教育機(jī)器人、只能陪練、分級(jí)閱讀等幾個(gè)方面。
大數(shù)據(jù)在制造業(yè)的應(yīng)用
在未來,利用工業(yè)大數(shù)據(jù)將提升制造業(yè)水平,主要集中在產(chǎn)品故障診斷與預(yù)測(cè)、分析工藝流程、改進(jìn)生產(chǎn)工藝、優(yōu)化生產(chǎn)過程能耗、工業(yè)供應(yīng)鏈分析與優(yōu)化、生產(chǎn)計(jì)劃與排程等方面。
數(shù)據(jù)收集
大數(shù)據(jù)的采集不是抽樣調(diào)查,它強(qiáng)調(diào)數(shù)據(jù)盡可能完整和全面,盡量保證每一個(gè)數(shù)據(jù)精確有用。對(duì)于Web數(shù)據(jù),多采用爬蟲方式進(jìn)行收集,這需要對(duì)爬蟲軟件進(jìn)行時(shí)間設(shè)置以保障收集到的數(shù)據(jù)具有時(shí)效性。(數(shù)據(jù)的采集技術(shù)有ETL工具,如Sqoop等、日志采集工具(如Flume,Kafka等))。
數(shù)據(jù)預(yù)處理與存儲(chǔ)
大數(shù)據(jù)收集來的數(shù)據(jù)會(huì)有很多重復(fù)數(shù)據(jù)、無用數(shù)據(jù)、噪聲數(shù)據(jù),會(huì)有數(shù)據(jù)值缺失和數(shù)據(jù)沖突的情況等,所以需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和清洗。(預(yù)處理環(huán)節(jié)主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約、數(shù)據(jù)轉(zhuǎn)換處理等內(nèi)容)
數(shù)據(jù)處理與分析
數(shù)據(jù)處理,數(shù)據(jù)的分布式處理技術(shù)與存儲(chǔ)形式和業(yè)務(wù)數(shù)據(jù)類型相關(guān)。大數(shù)據(jù)處理的主要模型有MapReduce分布式計(jì)算框架、Spark分布式內(nèi)存計(jì)算系統(tǒng)、Storm分布式流計(jì)算系統(tǒng)等。
數(shù)據(jù)分析,大數(shù)據(jù)分析技術(shù)包括已有數(shù)據(jù)的分布式統(tǒng)計(jì)分析技術(shù)和未知數(shù)據(jù)的分布式挖掘、深度學(xué)習(xí)技術(shù)三種。分布式統(tǒng)計(jì)分析可由數(shù)據(jù)處理完成,分布式挖掘和深度學(xué)習(xí)則在大數(shù)據(jù)分析階段完成。
數(shù)據(jù)可視化與應(yīng)用環(huán)節(jié)
數(shù)據(jù)可視化是指將大數(shù)據(jù)分析與預(yù)測(cè)結(jié)果以計(jì)算機(jī)圖形或圖像的直觀方式顯示給用戶的過程,并可與用戶進(jìn)行交互式處理。所以,大數(shù)據(jù)可視化是影響大數(shù)據(jù)可用性和易于理解性質(zhì)量的關(guān)鍵因素。
云計(jì)算與大數(shù)據(jù)
大數(shù)據(jù)必然無法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu),它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。所以它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)、云存儲(chǔ)和虛擬化技術(shù)。云計(jì)算的應(yīng)用需要大數(shù)據(jù),而云計(jì)算則為大數(shù)據(jù)的處理和數(shù)據(jù)挖掘提供了最佳的技術(shù)解決方案。整體來看是相輔相成,不斷發(fā)展的關(guān)系。
大數(shù)據(jù)與人工智能的關(guān)系
如果把人工智能比作一個(gè)無限潛力的嬰兒,某一領(lǐng)域?qū)I(yè)的海量的深度的數(shù)據(jù)就是喂養(yǎng)這個(gè)嬰兒的奶粉。奶粉的數(shù)量決定了嬰兒是否能長(zhǎng)大,而奶粉的質(zhì)量則決定嬰兒后續(xù)的智力發(fā)育水平。
但是不是所有問題只要有,就能夠做到這么好,這要受限于4個(gè)條件限制:首先是需要有大量的數(shù)據(jù),第二是完全信息,第三是確定性,第四是但領(lǐng)域和單任務(wù)。只有這4個(gè)限定條件滿足后才有可能做到達(dá)到或者超過人類水平的人工智能。
存儲(chǔ)主要利用分布式文件系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)庫(kù)、云數(shù)據(jù)庫(kù)等,實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲(chǔ)和管理。
數(shù)據(jù)清理
對(duì)數(shù)據(jù)的不一致檢測(cè)、噪聲數(shù)據(jù)的識(shí)別、數(shù)據(jù)過濾與修正等。
數(shù)據(jù)集成
將多個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行集成,從而形成集中、統(tǒng)一的數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體等。
數(shù)據(jù)歸約
在不損害分析結(jié)果準(zhǔn)確性的前提下降低數(shù)據(jù)集規(guī)模,使之簡(jiǎn)化,包括維歸約、數(shù)量規(guī)約、數(shù)據(jù)抽樣等技術(shù)。
數(shù)據(jù)轉(zhuǎn)換處理
包括基于規(guī)則或元數(shù)據(jù)的轉(zhuǎn)換、基于模型與學(xué)習(xí)的轉(zhuǎn)換等技術(shù),可用過轉(zhuǎn)換實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一,有利于提高大數(shù)據(jù)的一致性和可用性。
————摘自北京郵電大學(xué)出版社的《大數(shù)據(jù)導(dǎo)論第一版》
聯(lián)系客服