2017年6月15日,硬X射線調制望遠鏡衛(wèi)星(HXMT)成功發(fā)射;2018年1月30日,衛(wèi)星成功在軌交付。
What?我還以為發(fā)射成功就萬事大吉了呢!
其實,發(fā)射成功只是第一步。為了順利在軌交付,需要對硬件和科學載荷分別進行測試,其中重要的工作就是結合在軌實驗數(shù)據(jù)完善數(shù)據(jù)校準流程。這就要說到在天文學研究中舉足輕重的數(shù)據(jù)科學。
今天大院er要為大家介紹的正是這位“幕后英雄”。
縱觀天文學研究的各種前沿問題,盡管層次和名目繁多,看起來關系錯綜復雜,但是主干工作仍然是圍繞著各種奇怪的人名地名命名的天文臺、各種有著長還要更長名字的望遠鏡開展的。
望遠鏡的論證、設計和建造
要建造一臺望遠鏡,一般來說,流程是這樣:
圖1 天文學家提議建造望遠鏡,天文學家和工程師共同設計望遠鏡,工程師建造望遠鏡并交付天文學家,望遠鏡開光(與寺廟無關)后投入使用。(繪圖:付宇盈)
從17世紀至今,望遠鏡越造越龐大,所需資源不斷上漲,論證、設計、建造和使用過程也日益復雜。
一方面是因為天文學本身就是觀測驅動的,另一方面則是得益于人類社會也在不斷發(fā)展。教育不斷發(fā)展,培養(yǎng)了更多的科學家、工程師;產(chǎn)業(yè)不斷發(fā)展,提高了生產(chǎn)效率;社會管理和動員能力不斷發(fā)展,成千上萬的科技工作者圍繞同一個項目工作也能實現(xiàn)。
以2017年6月15日發(fā)射的硬X射線調制望遠鏡衛(wèi)星為例,在20世紀90年代提出設想之后,便是研發(fā)和論證兩條腿走路。
圖2 硬X射線調制望遠鏡(HXMT)衛(wèi)星
1. 研發(fā)方面,不是首席科學家一個人在辦公室、實驗室或者小作坊就把工作全都完成了,而是需要不同單位的合作者一起研究。
圖3 三家單位在衛(wèi)星研制過程中承擔的工作
其中,衛(wèi)星平臺負責科學載荷的供配電,負責實現(xiàn)導航制導與控制(由于科學載荷本身不能轉動,所以需要依靠衛(wèi)星將望遠鏡對準需要觀測的目標進行定點觀測,或者圍繞目標進行掃描觀測)。
不同單位承擔不同的工作,而衛(wèi)星總體又要與運載、發(fā)射場、測控等其他系統(tǒng)協(xié)同工作。
2. 論證方面,通俗的說,就是與經(jīng)費支持單位、工程技術單位和科學共同體一起探討和迭代出具備足夠的科學價值、技術可行性和經(jīng)費可承受性的方案。
在數(shù)百年前的科學草創(chuàng)階段,經(jīng)費支持單位一般是貴族階級,工程技術單位是各種工匠,或者科學家兼職工匠,科學共同體的圈子很小。而現(xiàn)在,上述各方的職能日益分化,因此相互之間的接口也更為復雜。因此,往往一個望遠鏡項目的首席科學家除了具備學界響當當?shù)穆曂?,廣泛的工程技術敏感性,還具備項目管理和運作能力。
獲取科學產(chǎn)出
望遠鏡建成并投入使用后,天文學家將利用它進行天文觀測,并基于觀測數(shù)據(jù),進行科學研究。
這個過程中,最為核心的問題就是觀測時間的分配。
圖4 望遠鏡觀測時間的調配是核心問題(繪圖:付宇盈)
有限的望遠鏡、探測器總是無法滿足同時在所有波段觀察所有目標的需求,因此,觀察什么/不觀察什么、什么時候觀察、用何種模式觀察,等等,都與望遠鏡有限資源有限壽命能取得的科學產(chǎn)出有關。
瞧,這又是一個管理問題。
因此,現(xiàn)代望遠鏡、天文臺成立科學委員會,來針對上述問題進行決策。觀測時間分配同樣兼顧效率和公平。筆者認為,所謂效率,就是有限資源科學產(chǎn)出最大化;所謂公平,就是論證、設計、研發(fā)階段不能白出力。
所以,深度參與望遠鏡前期工作的科學家代表可以進入科學委員會,獲得望遠鏡的觀測時間,開展與望遠鏡主要科學目標相關的觀測;其他天文學家也可以向科學委員會提交觀測建議書,針對自己感興趣的目標申請觀測時間。
望遠鏡的使用中,除了觀測時間分配,另一個問題是觀測數(shù)據(jù)的獲取。
觀測的建議者無疑能夠最先獲得觀測數(shù)據(jù)。一般來說,觀測數(shù)據(jù)只給觀測建議者,供建議者慢慢研究,或許最符合建議者的利益(不過考慮到拖延癥,或許還是有個截止時間更好);而對于科學委員會來說,把所有觀測數(shù)據(jù)都公開,讓所有感興趣的人來挖掘里面的科學價值,顯然最符合提升望遠鏡科學產(chǎn)出的需求;對于目前以各國政府機構為主體的經(jīng)費資助單位,將不同階段的科學產(chǎn)出釋放出來,也符合社會需求。
在X射線天文學中,望遠鏡的觀測時間分配和觀測數(shù)據(jù)獲取都具有顯著的開放性,這或許與X射線天文學足夠年輕有關吧。
天文學與數(shù)據(jù)科學
在筆者看來,天文觀測堪比建造通天塔(巴別塔)。每一磚、每一瓦都從觀測數(shù)據(jù)中取得;望遠鏡則好比建造者使用的工具,從徒手進化到瓦刀,又從瓦刀進化到起重機、攪拌機;一代又一代先驅、學者不斷向塔頂攀登,又努力把塔修建得更高,然后向更多的人講述塔頂?shù)娘L景。
觀測數(shù)據(jù)本身并不帶來知識,但它是知識的基礎。觀測數(shù)據(jù)除了包含來自天體的信息,更與觀測過程和探測器有關。探測器能力越來越強,觀測過程也越來越復雜,積累的觀測數(shù)據(jù)堪稱海量。天文數(shù)據(jù)分析的模式也在悄然發(fā)生改變。過去,一人一鏡走天下,觀測設施是分散化、去中心化的;現(xiàn)如今,觀測設施越來越集中化,借助虛擬天文臺等技術,身處世界各地的研究者都能獲取觀測資源和觀測數(shù)據(jù)。
圖5 中國虛擬天文臺的主頁面(http://astrocloud.china-vo.org/)
因此,現(xiàn)代天文學的數(shù)據(jù)分析需求日益強烈,且與統(tǒng)計學、計算科學等不斷交叉。
過去,射電天文學使用的干涉陣采用離線數(shù)據(jù)處理,分別在各個臺站取得時間序列形式的觀測數(shù)據(jù)后,放到一起進行交叉相關。而預計將于2020年出光的平方公里射電望遠鏡陣(SKA),則必須采取必要的在線數(shù)據(jù)分析了,因為SKA需要用上千臺射電天線,合成相當于一平方公里有效面積的望遠鏡,數(shù)據(jù)產(chǎn)生速率實在太快(估計每天能產(chǎn)生的原始數(shù)據(jù),與目前全球互聯(lián)網(wǎng)日均流量的數(shù)量級相當)。數(shù)據(jù)分析領域面臨如此挑戰(zhàn),以至于引起了高性能計算領域的持續(xù)關注。再比如,猶如大海撈針一般的天體引力波信號探測項目高新激光干涉儀引力波天文臺(aLIGO)動用了分布式計算、超算等設施,還進行了大量的機器學習方面的研究,才能排除地面設施受到的各種干擾,并準確檢驗出收集到的引力波信號。
也許有人會問,相比之下,傳統(tǒng)的光學波段應該不會面臨如此大的數(shù)據(jù)分析挑戰(zhàn)吧?
也不盡然。例如,上世紀的哈勃空間望遠鏡(HST)曾一度“罹患眼疾”:因為裝調失誤,導致成像模糊。在航天員修復哈勃的硬件之前,要想從哈勃的觀測數(shù)據(jù)中重建清晰圖像,也只能通過軟件方法了。
當時重建哈勃觀測數(shù)據(jù)需要解決的數(shù)學問題其實和我們現(xiàn)在分析硬X射線調制望遠鏡的掃描觀測數(shù)據(jù)頗有相似之處,都可以抽象為多維的退卷積問題,只不過卷積核不具備必要的對稱性,因而計算復雜度頗具挑戰(zhàn)。當時的科學家想了一個辦法,利用二維陣列化的CPU,來構造價格相對低廉的向量處理器,從而在硬件架構層面優(yōu)化圖像重建問題的計算。
圖6 預計在2022年投入使用的LSST
將要建成的大口徑全天巡視望遠鏡(LSST)是一臺地面大口徑、寬視場望遠鏡,它的探測器是美國斯坦福直線加速器中心(SLAC)在美國能源部資助下研發(fā)的相機,是名副其實的史上最大天文相機。
這臺相機的尺寸和一輛SUV相當,重達2.8噸,32億像素,使用時要制冷到零下100攝氏度以下。這么大的相機,每個觀測夜將要生成15TB的數(shù)據(jù),也就不足為奇了。這個數(shù)據(jù)量確實不會給存儲方面帶來很大壓力,但在數(shù)據(jù)分析中,例如進行兩點相關甚至是多點相關分析時,確實帶來真正的“大數(shù)據(jù)”問題。
所以,天文學中的數(shù)據(jù)分析也越來越專業(yè)化,并且和具體項目的具體科學問題以及具體儀器強關聯(lián)。因此,當前大型項目的工作方式,并不是將數(shù)據(jù)分析外包給面向通用任務的商業(yè)化機構,而是在項目內部通過專家交流、自主研究等方式解決。
文章開篇提到,望遠鏡衛(wèi)星要想產(chǎn)出成果,發(fā)射成功只是第一步,相信讀到這里,您一定明白了,在軌交付也不是最后一步。未來要想獲取科學成果,依然離不開Ta——數(shù)據(jù)科學。
明天,大院er還將為您呈上一篇講述HXMT衛(wèi)星是如何用數(shù)據(jù)“看”宇宙的佳作,敬請期待。