免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
失聯搜救中的統計數據分析
失聯搜救中的統計數據分析

統計之都創(chuàng)作小組

關鍵詞:統計, 數據分析, 貝葉斯

大數據時代如何活用數據可視化、大數據與眾包、群體智慧、貝葉斯方法等為失聯搜救出謀獻策?請看下文。

引子

“MH370”作為航班代碼,是近日震驚世界的馬來西亞航空公司客機失去聯絡事件(后簡稱“馬航事件”)留給公眾最深刻的數字印象。時至今日,有關馬航事件的調查和搜救工作仍在繼續(xù)。遺憾的是直到截稿時間,MH370航班的殘骸仍未找到。

在歷史上的多次飛機船只等交通工具出現失聯情況的突發(fā)事件中,數據的收集、分析以及信息的及時發(fā)布都在搜尋中起到過關鍵的作用。比如在2009年,法國航空公司曾有一架民航客機失去聯絡和蹤跡。當時,有不少基于數據分析的文獻為失事飛機的搜尋提供了援助。前事不忘,后事之師。本文旨在基于統計學領域的相關知識結合大眾可以獲知的信息來對馬航事件進行了解和分析。本文秉持科普視角,試圖闡述在應對馬航事件過程中數據收集和數據分析所起到的作用,繼而為尋找失聯飛機提供一些思路。我們將以尋找失事飛機和船只的事件為線索,來梳理其中涉及到的數據分析思路,以試圖減少大家的猜疑和困惑。

一、信息可視化助公眾了解事件

馬航事件牽動全球關注。在馬航事件發(fā)生之后,很多公眾幾乎每天第一時間關注媒體報道——看一看飛機找到了沒有。回顧在馬航事件發(fā)生后各界媒體發(fā)布的圖表、報告和多媒體新聞,其信息之多和繁雜致使公眾沒有足夠時間和精力去了解事件進展。這時如果能用幾張簡潔明了的圖表把新聞內容展示出來,往往能對公眾了解事件進展起到事半功倍的效果。這就是信息可視化,或稱為數據可視化。我們根據信息的內容分三部分介紹數據可視化在馬航事件信息傳遞過程中的作用。

直觀了解事件進展

我們或許很難用三言兩語把馬航事件的來龍去脈描述清楚,如果把馬航事件用文字表述出來亦須耗費不少篇章。單純的描述有時候并不利于公眾了解事件。相反地,信息可視化則可直觀地刻畫馬航事件。圖1-1為馬來西亞最初發(fā)布的關于馬航MH370航班失聯的消息。圖1-2為馬來西亞其后發(fā)布的馬航MH370航班被偵察到的地理坐標。圖1-3為最終被搜救隊伍估計的馬航MH370航班最后一次向衛(wèi)星傳出信號的可能位置。三幅圖通過把相關地理位置刻畫在二維平面,并且把關鍵的時間、地點、區(qū)域在二維平面標明,使得公眾可以很直觀地了解馬航事件,非常有效地、避免誤導地傳遞了關鍵信息。公眾甚至無需閱讀圖中注釋即可了解馬航事件梗概。

圖1-1 馬航MH370客機首次宣告失聯
圖1-2 馬航MH370客機關鍵坐標
圖1-3 馬航MH370客機最后一次向衛(wèi)星傳出信號的可能位置

迅速了解搜救區(qū)域

目前,越來越多證據表明失聯客機可能在印度洋中,因此,一個非常自然的疑問就是飛機殘骸到底在哪里?衛(wèi)星數據成為回答這個問題最受重視的信息來源。由于非專業(yè)人士很難讀懂原始衛(wèi)星數據,數據可視化可以幫助公眾迅速了解搜救區(qū)域。圖1-4展示了有關馬航MH30航班的搜救區(qū)域。在圖1-4中,圓點標記出疑似殘骸所在的區(qū)域,圓點的顏色代表不同的發(fā)現日期。將有關疑似殘骸的信息可視化到圖表并配上適當的解釋,可以幫助公眾在短時間內了解正在被搜尋和將要被搜尋的區(qū)域以及已經搜尋到的疑似殘骸??梢暬椒@然比冗長的文字描述有效很多。此外,根據衛(wèi)星對南印度洋上浮標的追蹤數據,圖1-5刻畫了在3月8日至3月24日期間殘骸的移動軌跡。由圖1-5我們可以得到一些或能有助搜救的推測,譬如,不同區(qū)域疑似殘骸的移動趨勢截然不同,相比北端疑似殘骸而言,南端疑似殘骸向東運動的趨勢更為明顯等。

圖1-4 馬航MH370客機搜救區(qū)域
圖1-5 疑似殘骸標記物在三月八日至三月二十四日的移動軌跡

了解搜救條件

搜救條件,意為搜索救援行動的基礎,包括搜救設備,搜救區(qū)域的氣象情況等等。由于媒體報道較少,公眾對搜救條件的了解相對少。事實上,大洋氣象復雜,海洋的搜救條件往往比陸地的搜救條件要惡劣,因而此番搜救是一個巨大考驗。圖1-6的圖(a)和圖(b)分別描述了3月16日南印度洋的風速和浪高。在兩幅圖中,顏色越深的區(qū)域,風浪越小,顏色越接近白色的區(qū)域,風浪越大。綜合圖(a)和圖(b),搜救海域位于南印度洋風浪最大區(qū)域的西北角,并且在圖中部分搜救海域泛白,可見搜救條件惡劣。

圖1-6 三月十六日(a)相關搜救海域的風速;(b)相關搜救海域的浪高

二、大數據和眾包

當像飛機失聯這樣的突發(fā)事件發(fā)生時,搜索的第一步當然是要把它失聯前所有的數據信息都收集在一起分析。航空公司,各國政府,各國軍方的各種飛行數據,雷達數據,通訊數據都被用來幫忙。對這些數據的分析我們會在后面詳細介紹。雖然,我們會理所當然地認為數據短缺似乎并不應當發(fā)生在這個大數據時代。但是,由于數據量大,數據源多,噪聲大,從大數據中找到有價值的信息有可能變得更難。眾包平臺(Crowdsourcing)應運而生。

眾包是什么呢?根據維基百科,“眾包”這個概念最早出現于2005年?!巴獍弊鳛椤氨姲钡慕忝迷~更為人熟知?!巴獍敝赴压ぷ魅蝿战唤o非本公司的組織或者個人完成?!氨姲?,顧名思義,指把工作任務交給廣大人民群眾去完成。當今眾包幾乎都由網友完成。眾包所交付的任務可以有任意的形式和內容。這些任務可以具體到找圖片或編譯代碼,也可以是尋求一個答案或一個主意。例如,網友在知乎提問,世紀佳緣把其實際自動配對的難題放到網上作為建模競賽,乃至有些人在微博上貼出失物照片以尋找失主,都屬于廣義上眾包的范疇。

3月8日,DigitalGlobe公司在馬航MH370航班離開馬來西亞海岸幾個小時后,調整了其高分辨率衛(wèi)星群的位置,以獲取盡可能多的圖片數據。3月10日,DigitalGlobe公司把這些圖片放到了眾包平臺Tomnod上,首個小時圖片訪問量達六萬個。每當突發(fā)事件出現,眾包平臺就會推出活動專頁,讓熱心網友在大量實時高分辨率衛(wèi)星圖片中尋找線索。在馬航事件中,全民找飛機就是一次非常典型的眾包案例。

DigitalGlobe公司衛(wèi)星群中的5顆衛(wèi)星,每天環(huán)繞地球75圈。這些衛(wèi)星最初都用于與人道主義相關的目的。例如,如圖2-1所示,這些衛(wèi)星曾用于追蹤上帝抵抗軍在民主剛果共和國、蘇丹南部以及中非共和國整個土地上的大規(guī)模動向,以預測和挫敗上帝抵抗軍的下一次攻擊。后來這些衛(wèi)星被越來越多地用于協助處理突發(fā)事件。去年,DigitalGlobe公司曾經提供覆蓋了幾千萬平方公里的圖片以尋找一架在美國愛達荷州墜毀的輕型飛機。如今,眾包幾乎成為了航空意外等意外事件的首要解決途徑之一。一位前Tomnod員工曾表示,在馬航事件發(fā)生伊始,Tomnod就收到來自美國政府的非官方請求,甚至收到來自保險公司的請求——各界都想知道關于馬航事件的眾包專頁將何時上線。

在DigitalGlobe公司發(fā)布至Tomnod眾包頁面的衛(wèi)星照片中,一個像素覆蓋50厘米的土地空間或水域空間。 在NASA陸地衛(wèi)星提供的衛(wèi)星照片中,一個像素卻要覆蓋大約30米的土地空間或水域空間,即一架噴氣機可能在圖像中只占用一個像素。

圖2-1 蘇丹國,蘇丹港,2011年10月8號, DigitalGlobe, satellite GeoEye-1

DigitalGlobe公司幾乎在獲知馬航事件的第一時間就展開了他們的行動。他們專門設立一個首窺(First Look)小組負責隨時隨刻對推特和新聞進行實時監(jiān)控,以應對馬航事件以及類似事件。首窺小組成員首先要決定衛(wèi)星該飛往何處,然后他們開始調整系統讓衛(wèi)星到位。像地震這類事件,需要災難發(fā)生之前的數據以期在搜救中進行對比。像馬航事件,則需要根據新聞對正確監(jiān)測位置進行推測,以安排衛(wèi)星?!八麄兿袷褂霉雀璧貓D一樣搜尋地圖,查完一個,然后繼續(xù)到下一個區(qū)域,并嘗試檢查盡可能多的圖片。我們時刻都有幾百幾千人做這一切。但這項任務是非常困難的,你需要小心地區(qū)分云,波浪和殘骸,以期找到一兩個可能有價值的點。當你真的去找圖片的時候,你會驚奇地發(fā)現許多云彩看起來有多像船。我們用一組算法來對人群意見進行排名,看看那些地方大家都同意有問題.例如,如果100人中99個人都點擊了一個有趣的小像素,這個像素就是真正有價值的。在這里,該算法通過數據進行篩選,看看哪些圖片是可靠的,哪些不可靠,所以也許不應該得到同樣的重視。之后,這些篩選出來的圖片再由我們的分析師進行細查,并派人去現場搜救?!?/p>

眾包并非萬能,卻能體現“眾人拾柴火焰高”、“一方有難八方支援”的人道主義精神。Tomnod社區(qū),作為一個眾包平臺,被認為是一個高尚的社區(qū),由于其習慣于在尋常的大片陸地、冰原或水域尋找不易被察覺的關鍵圖片。DigitalGlobe公司方面曾表示:“就像愛達華州空難一樣,今天我們正在大海撈針。檢查所有像素是很困難的,更何況我們正在尋找的東西沒有確定特征。我猜想在這個階段——我也希望我們是錯的 ——我們找的東西看起來不像普通飛機。就是為什么我們要請求公眾的幫助?!?/p>

眾包這么好,以后是不是啥人也不要請,薪水也不要付了呢?當然不是!網友參與,純粹出于個人興趣,干活的質量和耐心,純靠個人責任心。誠然網友里面“油菜花”很多,可是活兒的質量不能保證。因此眾包僅限于那種大量重復性勞動,并且不需要太多技能,一般有一臺電腦一根網線就能干,比如這次全民找飛機。順便說Tomnod上那個專頁現在還在,感興趣的網友可以加入進去,期望能找到飛機殘骸或者燃油泄漏的痕跡,據悉直到現在還有幾千全球網友在繼續(xù)這項工作。同時,如何客觀分析眾包平臺上得出結論和數據也是統計學家關心的問題。

三、群體智慧

在尋找失事飛機、海底沉船、或珍珠寶藏過程中,當可用數據極其缺乏時,群體智慧 The Wisdom of Crowds 也可以派上用場。

1968年5月,美國潛艇蝎子號(Scorpion)在完成北大西洋參觀后,在返回紐波特紐斯(Newport News)途中消失了。雖然海軍知道蝎子號最后一次報告的位置,但是海軍對蝎子號發(fā)生的事故一無所知,只能模糊得知在最后無線電聯系后蝎子號前進的距離。為了尋找蝎子號,海軍劃定了一個半徑32千米,數千英尺深的圓形海域。這幾乎是一個不可能完成的任務。當時,人們想到的最可行方案是聘用三四個潛艇和海洋環(huán)流頂級專家來推斷蝎子號的位置。但是,在雪莉·桑塔格(Sherry Sontag)和克里斯托弗·德魯(Christopher Drew)的書《Blind Man's Bluff: The Untold Story of American Submarine Espionage》中記載,一個叫約翰·克雷文(John Craven)的海軍軍官提出了一個不同的計劃。

首先,克雷文列出一系列能夠解釋蝎子號事故的場景。接著,他組建了一個囊括各方面專家的團隊。團隊成員包括數學家、潛艇專家和救助人員等。有趣的是,他非但不是要求團隊成員互相協商尋求一個答案,反而請每個成員提供自己對每個可能場景的發(fā)生概率的猜測。為了讓事情變得更有趣,他把一瓶芝華士作為猜中的獎品。于是團隊成員開始對潛艇可能遇到的麻煩、潛艇的下沉速度、下沉角度等因素下注。

可以預見,團隊成員個人推測信息無法告訴克雷文蝎子號的具體位置,但克雷文認為,如果他能把所有答案加在一起,構建一個蝎子號出事全景的復合圖像,他應該會得到對潛艇最終位置的很好估計。而這正是他所做的。他收集了所有的猜測,并使用貝葉斯方法來估計蝎子號的最終位置。當一切完成后,克雷文得到一個該團隊對于潛艇位置的集體估計。

克雷文最后得到的位置和任何一個團隊成員猜測的位置都不同。換句話說,沒有一個成員規(guī)劃的場景和克雷文使用所有收集到的信息構成的場景是重合的??死孜淖詈蟮墓烙嫴攀钦嬲募w判斷,是該團隊作為一個整體取得的,而不是團隊中最聰明的人的判斷。最后事實證明這個集體的判斷非常精彩。在蝎子號消失后的第五個月,海軍發(fā)現了它。它和克雷文最后得到的位置只差約200米。

這個故事的驚人之處在于是團隊成員在幾乎沒有任何線索和證據的情況下做出的推斷。真正的數據只是很小的碎片。沒有人知道為什么潛艇沉沒,沒有人有任何行駛速度和下沉速度的信息。然而,即使在組里沒有人知道任何這些事情的情況下,該團隊作為一個整體表現得相當出色。

統計學家弗朗西斯·高爾頓(Francis Galton)在1906年最先提出群體智慧。在普利茅斯出席了一個農場活動時,他被一個重量猜測比賽所吸引。比賽目標是猜一頭牛被屠宰后的重量。那次大約有800名男女老幼參加了比賽,每人寫下自己的猜測。猜得最接近牛的屠宰后重量的人得獎。比賽結束后高爾頓拿著所有記錄做統計分析。他發(fā)現,所有參賽者猜測的平均值1197磅和實際重量1198磅僅差一磅。集體的猜測不僅比比賽的實際贏家準確,而且也比養(yǎng)牛和宰牛專家所做的猜測準確。

有這個話題興趣的讀者可以參看詹姆斯·索羅維基(James Surowiecki)的書《群體的智慧》(The Wisdom of Crowds: Why the Many Are Smarter Than the Few and How Collective Wisdom Shapes Business, Economies, Societies and Nations)。在馬航事件中,也有人提出是否可以用群體的智慧的方法來尋找它,但目前還沒人實現這個想法。

四、貝葉斯與決策

當我們在搜救過程中逐漸收集到更多更準確的數據,科學地結合現有數據、科學知識、以及主觀經驗無疑可為找尋失聯客機帶來一線曙光。在統計學領域,貝斯方法(Bayesian Methods)提供了一個可以將觀測數據、科學知識以及各種經驗結合在一起的應用框架。

我們用一個簡單例子來說明一下這個框架。假設有一個布袋,裝有10個黑球和5個白球,那么隨機取出一個球是白色的概率是5/15,即1/3。生活中的情況要更復雜一些——有時我們根本不能事先知道在布袋里到底有幾個黑色或者白色的球。這也正是我們有時會進行抽樣調查的原因。在不清楚整體情況時,我們會隨機抽取一些樣本,通過對樣本分析以了解整體的情況。若我們不斷累積經驗,我們的猜測將愈加接近真實情況。貝葉斯方法,作為一種科學的方法,其本質也正是通過不斷積累經驗,更新對整體的認識 ,從而對真實情形進行把握。

例如,在開始的時候,我們并不知道布袋中白球的比例,那這個比例對我們而言可能是0,也可能是1,或者是1/3,1/5等等。即所有這些比例對我們來說可能性都差不多。假定我們有放回地抽取了六次球,發(fā)現有兩次抽到的是白球,有四次抽到的是黑球(記做事件A)。利用這六次抽取球的結果,我們大可猜測——在事件A發(fā)生的情況下,袋子中白球的比例是1/3的可能性就比較大了。如果加入一些更具體的概率模型和先驗知識,用條件概率的計算來計算看到事件A以后我們對袋子內可能情況的描述,就是貝葉斯方法。

再比如說我們去一個陌生的餐館吃飯。我們因為之前不了解這家餐廳,以至于我們似乎只能隨機的做出一個判斷。但是貝葉斯方法建議我們去利用可能積累的經驗來提供判斷的線索。比如,我們的經驗是:通常那些坐滿了客人的餐廳的食物要更美味些,而那些客人寥寥的餐廳的食物可能不那么可能。這樣,我們可以觀察餐廳的上座率,從而利用這一條件改變我們的判斷:在坐滿了客人的條件下,餐廳的食物可口的概率比較大。所以說,在我們認識事物不全面的情況下,貝葉斯方法是一種很好的利用經驗幫助作出更合理判斷的方法。

現在我們已經對貝葉斯方法有了一定了解,下面我們談談如何利用貝葉斯方法幫助尋找失事馬航MH370客機呢?對于失事飛機,我們不僅需要找到它的三維坐標,同樣需要找到它的失事原因。新線索的出現,幫助我們積累了經驗,從而改變飛機是由于自然事故還是遭遇劫機等人為事故造成的概率。兩者的概率大小分別由Pr(自然事故|找到的線索)和Pr(遭遇劫機等人為事故|找到的線索)描述。當然,我們還可以利用一些其他的線索幫助我們改變判斷,比如飛機的原計劃航線,風速,洋流,以及掃描過的海域的情況。法航事件的飛機殘骸搜尋工作給我們提供了一個參考案例。

圖4-1 飛機殘骸可能地點的后驗概率分布圖(概率由大到小的順序為:紅、橙、黃、綠、藍)

接著,我們來回顧貝葉斯方法在法航事件搜救過程中的應用。在2009年6月1日早晨,法航447航班在暴風雨中失去了聯系。2010年7月,法國航空事故調查處委任Metron負責重新檢查分析已有的搜救信息以便繪制一副飛機殘骸可能地點的概率分布圖,如圖4-1所示,概率由大到小的順序為:紅、橙、黃、綠、藍。2011年1月20日,法國航空事故調查處于其網站刊登了分析結果。直到2011年4月8日,法國航空事故調查處發(fā)言人表示2011年1月20日刊出分析結果暗示,在圖2-1中的一個圓形范圍內有很大可能性會發(fā)現飛機殘骸;并且,在對該區(qū)域進行持續(xù)一周的搜尋之后,殘骸被發(fā)現。隨后,飛行數據記錄器和駕駛艙語音記錄器被找到。最終確認殘骸的位置離圖4-1中的概率中心位置并不遠,可見貝葉斯方法非常有效。

基于貝葉斯方法對整體概率進行計算所利用的信息來自四個階段的搜尋工作。階段一:利用被動聲學技術搜尋水下定位信號器。法航447裝備的飛行數據記錄器和駕駛艙語音記錄器可以幫助分析事故發(fā)生時的狀況。同時,在飛機沉入水中時,飛機裝配的水下定位信號器發(fā)出信號協助通訊。水下定位信號器的電池可以工作至少30天,平均可以工作40天。搜尋持續(xù)了31天并于2009年7月10日停止。兩臺搜救船——費爾蒙特冰川號和探險號,均裝備了美國海軍提供的聲波定位裝置——參與了搜救。階段二:旁側聲吶搜尋。在聲波搜尋結束后,BEA決定使用Pourquoi Pas 提供的IFREMER旁側聲吶技術繼續(xù)搜尋。在本階段,一些由于時間關系未能在第一階段搜尋的海域也被搜尋。階段三:旁側掃描聲吶搜尋。 階段四:即我們在上一段提及的利用貝葉斯方法進行搜救,并最終找到了飛機殘骸。圖4-2展示了搜救過程。

圖4-2 飛機殘骸地點的后驗概率分布計算過程

由法航事件,我們可以看到貝葉斯方法確實可以為搜救飛機殘骸提供理論依據。由于既得數據有時并不能為計算后驗概率提供太多信息,我們需要糾集所有有用的信息,并使所有信息都可以轉化為貝葉斯方法中的先驗信息。誠如香港城市大學Nozer Singpurwalla教授所言,即使在數據量極為豐富的情況下,應用貝葉斯方法的時候都應考慮專家的主觀判斷、證據以及想象力。在搜尋飛機的過程中,搜尋隊可以估算出已經搜尋過得海域中存在殘骸但由于失誤沒有找到的概率、壞掉一個信號器與壞掉兩個信號器是否是獨立事件等等。

五、結束語

除了數據分析與統計方法在上面幾個方面的應用,其實我們可以看到整個搜尋過程就是一個通過數據收集,數據分析,統計推斷,再收集,再分析,再推斷,不斷提高我們對事件的估計和把握的過程。從科學研究到日常決定,我們都是在不斷重復類似這樣的過程。多了解一些統計和分析的方法對我們做科學決策肯定會有幫助。

就在本文收稿的時候,搜尋前方傳來消息:“在距離珀斯約1600公里處南印度洋水域負責搜尋失聯航班的中國艦艇海巡01輪通過黑匣子搜尋儀,偵聽到疑似馬航失聯航班的信號?!倍蟀拇罄麃喎矫嬉矌状翁綔y到水下信號。希望這些發(fā)現和數據信息能夠為我們找到馬航370提供最新的強心劑。

參考文獻
本文第一節(jié)圖片來源:http://www.nytimes.com/****/search-for-flight-370.html 本文第二節(jié)圖片及資料來源:http://www.wired.co.uk/****/digital-globe-hunts-for-malaysia-plane 本文第三節(jié)資料來源:http://leightonvw.com/********help-find-a-missing-aircraft/ 本文第四節(jié)圖片及資料來源:http://fivethirtyeight.com https://www.informs.org 馬航事件脈絡梳理:http://news.qq.com/zt2014/MH370/index.htm 
本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
馬來西亞不可能讓真相浮出水面,馬航370客機成民航界最大懸案
請問馬航MH370何時能找到!
MH370失蹤真相大白!英國專家爆料客機在澳大利亞!
即使確定信號 打撈仍有幾大限制因素
圖解搜救MH370,花費幾何
MH370到底找到沒有?
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服