“大數(shù)據(jù)”三個(gè)字想必大家并不陌生。
一般來說,2013年被定義為“大數(shù)據(jù)元年”,如今4年過去,大數(shù)據(jù)逐漸從相對空洞的商業(yè)術(shù)語中脫離出來深入到各個(gè)領(lǐng)域。近期如火如荼儼然“紅?!钡墓蚕韱诬囀袌觯藗冊谙硎艹鲂蟹绞降母淖儽澈?,公司之間的競爭從投放量亦慢慢走向數(shù)據(jù)的博弈。如同一門綜合性學(xué)科一般,單純的數(shù)據(jù)堆砌早已沒有意義,如何挖掘、分析與應(yīng)用,才可能擁有數(shù)據(jù)的價(jià)值;而此時(shí)在算法趨同的趨勢下,數(shù)據(jù)的質(zhì)量與規(guī)模則成為兵家必爭之地。
上面的說法倒是也新鮮,但是大家可能忽略的一個(gè)問題是:“大數(shù)據(jù)總是站在更大數(shù)據(jù)的陰影之下?!?/p>
在一般理解里,大數(shù)據(jù)前面可能還缺“中文”二字。也就是說,日常所謂的大數(shù)據(jù)通常情況下指的都是中文大數(shù)據(jù)。
有這樣一組數(shù)字:當(dāng)下全球互聯(lián)網(wǎng)用戶已超過30億,占全球總?cè)丝诘?0%。然而在如此龐大的用戶規(guī)模中,卻有接近90%以上的網(wǎng)民不具備母語以外的語言技能,并且其中59.4%以上的用戶具有跨語言、交友、獲取新聞信息等需求。
因此,盡管大數(shù)據(jù)產(chǎn)業(yè)已步入多元化、垂直化發(fā)展階段,但目前絕大多數(shù)大數(shù)據(jù)還囿于單一語種,而那些散落在全球范圍內(nèi)的多語種價(jià)值尚沉睡海底。這種需求等差,使得跨語言大數(shù)據(jù)的應(yīng)用價(jià)值日顯關(guān)鍵,小到商業(yè)數(shù)據(jù)分析,大到國與國之間的互通合作,跨越了語言符號的大數(shù)據(jù)已不容小覷。
跨語言大數(shù)據(jù)的差異化價(jià)值
語言是一切溝通的基礎(chǔ),其所蘊(yùn)含的信息量十分龐大,而通過對語料的收集、處理與分析,則能從數(shù)據(jù)源頭抓取跨語言大數(shù)據(jù)的價(jià)值,打破單一語種的局限,以可視化、宏觀化的方式滿足各行各業(yè)之于數(shù)據(jù)的需求。
“在網(wǎng)絡(luò)使用者正常的關(guān)鍵詞搜索過程中,無論搜索結(jié)果是多少條,人們的閱讀習(xí)慣常常是幾條或者幾十條,且語言單一。譯見大數(shù)據(jù)要做的是不僅僅要去除掉所有語言標(biāo)簽,讓用戶能夠搜到全球的相關(guān)信息,更要把搜索到的所有幾十萬條、幾百萬條數(shù)據(jù)都能夠定性定量地分析?!?中譯語通CEO于洋曾在采訪中表示。
中譯語通以翻譯起家,“在現(xiàn)有的語種以及諸多垂直領(lǐng)域已經(jīng)具備了正面PK谷歌翻譯的能力”,而去年7月份發(fā)布的大數(shù)據(jù)平臺“譯見”,則整合了機(jī)器翻譯、語義分析、智能采編、數(shù)據(jù)挖掘等十余種自然語言處理、大數(shù)據(jù)和人工智能技術(shù),在跨語言大數(shù)據(jù)領(lǐng)域深耕。
其不僅在各大行業(yè)展會(huì)、學(xué)術(shù)交流中嶄露頭角,倡導(dǎo)跨語言大數(shù)據(jù)共融理念;更是與國際優(yōu)秀企業(yè)簽約合作,與頂尖人工智能專家分享在AI語言科技所取得的研發(fā)成果。
跨語言大數(shù)據(jù)與行業(yè)如何融合?7月29日,中譯語通將舉辦“幻化·2017中譯語通戰(zhàn)略發(fā)布會(huì)”,屆時(shí)將發(fā)布與跨語言大數(shù)據(jù)相關(guān)的重磅新品,同時(shí)還將舉行多場高峰論壇,就人工智能、大數(shù)據(jù)、語言科技等話題與業(yè)內(nèi)專家、學(xué)者進(jìn)行探討。