受惠于互聯(lián)網(wǎng)與大數(shù)據(jù)技術的迅猛發(fā)展,數(shù)據(jù)正以前所未有的速度巨量生成,海量的數(shù)據(jù)資源由此產(chǎn)生。大數(shù)據(jù)資源日漸成為國家與社會的基礎性戰(zhàn)略資源,推動世界大步邁向大數(shù)據(jù)時代。因應于此,法律機關、尤其是司法機關大力推進部門信息的電子化、數(shù)字化、公開化,使得法律大數(shù)據(jù)逐漸興起并進入公眾視野。
法律大數(shù)據(jù)的出現(xiàn),使得基于法律大數(shù)據(jù)的司法實踐與新型實證研究成為可能,并可能帶來法學研究方式的革命性變化。這種可能性源于大數(shù)據(jù)所具有的獨特優(yōu)勢:(1)數(shù)據(jù)的“全樣本性”。大數(shù)據(jù)通常是特定領域的全面數(shù)據(jù),具有數(shù)量巨大與內(nèi)容全面之特性?;谌珮颖緮?shù)據(jù)的實證研究,能夠顯著減少傳統(tǒng)抽樣方法可能導致的誤差,增強對研究對象的整體把握,發(fā)現(xiàn)傳統(tǒng)抽樣數(shù)據(jù)中難以或根本無法獲取的信息,帶來研究視角、研究素材、研究方法的根本性轉(zhuǎn)變。(2)數(shù)據(jù)產(chǎn)生、收集、分析的快捷性?!皵?shù)據(jù)分析的速度越來越快,經(jīng)常在數(shù)據(jù)剛剛敲進去的時候就可以看到實時的分析結果”,這有助于研究者及時有效地掌握相關法律實踐狀況的全貌,從而克服傳統(tǒng)實證研究方法耗時、滯后的缺陷。(3)數(shù)據(jù)收集與分析技術的客觀性、科學性。
與具有親歷性的傳統(tǒng)手工作坊式實證研究“大多是自己收集、整理數(shù)據(jù)”“存在因為研究動機需要而選擇性收集、運用數(shù)據(jù)”不同,海量材料與數(shù)據(jù)遠非“人工作坊時代”研究者所能親自、逐一地審閱、統(tǒng)計和分析。大數(shù)據(jù)的收集和分析往往直接依托于數(shù)據(jù)技術自動處理、完成。在開源條件下,研究過程具有相當?shù)耐该鞫?,研究結論可復盤檢驗,數(shù)據(jù)收集、分析的客觀性、科學性明顯增強。特別是,利用不同渠道收集的數(shù)據(jù)集產(chǎn)生了海量數(shù)據(jù),當這些數(shù)據(jù)聚合到一起,可以對其進行挖掘,并開展更深層次的分析,該深度分析能揭示出各種模式、相關關系,并進行有統(tǒng)計意義的各種預測。這不僅能夠開展歷時性與變遷性的研究,也能夠進行預測性研究與趨勢分析,最終促進研究科學水準的提升。
在國外,法律大數(shù)據(jù)已廣泛滲透到公權力與私權利領域的法律實踐。在公權力領域,法律大數(shù)據(jù)在兩個方面得到較多利用:一是在警務活動中。美國、澳大利亞等國家早已開始利用法律大數(shù)據(jù)開展警務預測。在美國,法律大數(shù)據(jù)被充分運用于犯罪趨勢分析、發(fā)案情況預測、警力分配以及調(diào)查工作重心的確定等。二是在審判活動中。法律大數(shù)據(jù)已大量應用于司法管理活動和程序性司法決策。例如,法官通過對法律大數(shù)據(jù)進行分析、評估,建立“何種情況下將影響嫌疑人到庭接受審判,何種情況下容易誘發(fā)新的犯罪”的保釋風險預測模型,以此決定嫌疑人能否被保釋;法官利用法律大數(shù)據(jù)對罪犯是否符合假釋條件進行評估,以此作為判斷罪犯能否被假釋的重要參考。在私權利領域,律師(律所)和當事人也高度重視對法律大數(shù)據(jù)的利用。例如,律師(律所)利用法律大數(shù)據(jù)進行律所管理、成本控制以及訴訟(律師)費用的評估、預測,律師、當事人利用大數(shù)據(jù)挑選對自己有利的陪審團、進行訴訟結果預測。在大數(shù)據(jù)法律研究方面,國外學者除開始利用大數(shù)據(jù)對具體的法律問題展開研究外,對大數(shù)據(jù)法律研究與法律實踐的理論與方法問題(例如,如何確保數(shù)據(jù)本身的可靠性、公開性,如何克服算法的非透明性、非歸責性以及“數(shù)據(jù)歧視”,大數(shù)據(jù)運用是否與美國聯(lián)邦憲法第四修正案產(chǎn)生沖突及如何協(xié)調(diào))尤為關注。
目前,中國利用大數(shù)據(jù)開展的法律實踐方興未艾。例如:基于司法公開而大力推進的裁判文書上網(wǎng)工作;依托大數(shù)據(jù)技術建立犯罪信息判斷和趨勢預測;運用大數(shù)據(jù)建設“檢察大數(shù)據(jù)標準體系、應用體系、管理體系、科技支撐體系”;利用大數(shù)據(jù)建立案件權重系數(shù)和評價指標體系,確定法官工作量,并進行科學的員額分配、案件分流;基于大數(shù)據(jù)開展的多種法律人工智能實踐,嘗試如類案推薦、量刑輔助與偏離預警等應用。其中,裁判文書大規(guī)模上網(wǎng),使得中國第一次有了全國性、公開的、細節(jié)化的法律數(shù)據(jù)。但總體而言,目前國內(nèi)對于法律大數(shù)據(jù)的實踐性運用還相對有限,具體運用并不普遍,在一定程度上呈現(xiàn)出“話語熱、實踐冷”的現(xiàn)象:一方面,應用主體范圍有限,主要集中在少數(shù)司法機關、法律數(shù)據(jù)公司;另一方面,應用領域相對較窄、實際運用較少,主要集中在類案檢索、法律文書草擬、文書智能糾錯等輔助辦案方面。
近年來,國內(nèi)也出現(xiàn)直接利用大量數(shù)據(jù)展開法學研究的探索,并已經(jīng)注意到法律大數(shù)據(jù)所面臨的倫理規(guī)范等問題。其中,有學者就如何開展大數(shù)據(jù)法律研究,提出了有啟發(fā)性的見解。不過,國內(nèi)的大數(shù)據(jù)法律研究整體上還處于探索階段,一些研究缺乏對法律大數(shù)據(jù)的基本認識,研究方法和過程其實建立在某些誤識上。因此,檢視大數(shù)據(jù)法律研究現(xiàn)狀,澄清若干誤識,對于大數(shù)據(jù)法律研究的健康開展具有基礎性意義。
(一)大數(shù)據(jù)還是大量數(shù)據(jù)
大數(shù)據(jù)具備“4V”(Volume、Velocity、Variety、Value)特征,是關于某一領域(行業(yè))全樣本、能夠快速流轉(zhuǎn)、多樣化且富價值的數(shù)據(jù)。其中,“全樣本”是其最顯著的特征,“全樣本數(shù)據(jù)”意指相關的所有數(shù)據(jù)。然而,目前國內(nèi)的法律大數(shù)據(jù)基本上只是部分的、非完整的數(shù)據(jù),遠非“相關的所有數(shù)據(jù)”,稱其為“大量數(shù)據(jù)”或更合適?;谶@些大量數(shù)據(jù)展開的研究,似乎很難視為嚴格意義上的大數(shù)據(jù)法律研究。
從某種意義上講,中國的法律大數(shù)據(jù)肇始于裁判文書統(tǒng)一集中上網(wǎng);在裁判文書上網(wǎng)之前,中國并沒有法律大數(shù)據(jù)研究,法律實證研究基本上是基于“小數(shù)據(jù)”,即研究者自己在局部范圍或特定領域所收集的數(shù)據(jù),而展開的“手工作坊式”研究。裁判文書網(wǎng)的誕生與發(fā)展,使得豐富的全國性數(shù)據(jù)第一次制度性涌現(xiàn),其與既有實證研究所使用的數(shù)據(jù)在數(shù)量級、廣泛性上大不相同。然而,裁判文書網(wǎng)已經(jīng)公布的裁判文書數(shù)據(jù)整體上并不完全具備全樣本特征:公布文書數(shù)量與實際結案數(shù)量相差較大,數(shù)據(jù)缺失問題相當嚴重。根據(jù)全國法院2014年和2015年的裁判文書上網(wǎng)統(tǒng)計顯示:按省份看,上網(wǎng)裁判文書占實際結案文書比重最高的達78.14%(陜西),最低的僅為15.17%(西藏);最高人民法院在這兩年的上網(wǎng)裁判文書僅占其實結案件量的46.13%,這一比重與全國的總體情況大體持平。截至2017年7月11日,四川省的法院在2012-2016年間的裁判文書上網(wǎng)1134249份,而根據(jù)四川省高級人民法院工作報告,2012-2016年全省共審結案件3865125件,上網(wǎng)量不足審結量的1/3。此外,上網(wǎng)裁判文書所涉及的案件類型并不全面,特別是一些重大職務犯罪類案件,其裁判文書往往并不上網(wǎng)。
概括起來,刑事案件的公開比率優(yōu)于民事案件,一般刑事案件的公開比率優(yōu)于敏感刑事案件。裁判文書上網(wǎng)的數(shù)量、地域、案件類型等方面的局限,使得相關數(shù)據(jù)往往并非全數(shù)據(jù),遠離標準的大數(shù)據(jù),這容易導致一些基于裁判文書的實證研究存在支撐證據(jù)不足,甚至觀點可能錯誤的問題。此外,部分地區(qū)法院在公開裁判文書時還對文書內(nèi)容進行了刪減,其刪減往往并非對當事人身份信息的屏蔽處理,而是對文書特定段落的刪除。這也會使得某些依靠從裁判文書網(wǎng)獲取的文書對特定問題的分析,存在不同程度的數(shù)據(jù)偏差。因此,盡管特定領域、特定區(qū)域的分類數(shù)據(jù)可能較為齊全,但從整體上看中國當下的法律大數(shù)據(jù),雖然數(shù)據(jù)量可能較多,許多領域均可能有20-70%左右的全國性或全局性數(shù)據(jù),但其實仍多是大量數(shù)據(jù)。
如何認識大量數(shù)據(jù)的學術研究價值?一方面,完美的法律大數(shù)據(jù)往往難以強求。作為官方化的數(shù)據(jù),公開與不公開往往并存,法律、政治、傳統(tǒng)的各種因素都會影響法律和司法數(shù)據(jù)的公開程度。歐洲國家地方法院裁判文書的公開度往往不如中國,美國法院刑事審判中同樣少有關于裁判心證的公開信息。無論中外,法律數(shù)據(jù)都均非豐富、完整,難以完全反映法律和司法實踐。由此,有缺失的大量數(shù)據(jù)往往可能是“現(xiàn)實中的大數(shù)據(jù)”。另一方面,大量數(shù)據(jù)不僅在數(shù)據(jù)量、豐富性方面遠超小數(shù)據(jù),而且經(jīng)過清洗后可以具有相當?shù)娜执硇?。在求全不得的條件下,如果能夠正確清洗數(shù)據(jù),正確把握數(shù)據(jù)缺失的程度、特別是有無系統(tǒng)性缺失,大量數(shù)據(jù)就具有不可替代的學術研究價值。
(二)法律數(shù)據(jù)的官方性、結構化
相比于商業(yè)、社會領域的大數(shù)據(jù),法律大數(shù)據(jù)具有自身的獨特性:商業(yè)、社會領域的大數(shù)據(jù)往往是非官方的機構收集并使用的,而法律領域大數(shù)據(jù)則具有“官方化”的特征;這種差異深刻影響數(shù)據(jù)的生成和使用。官方化特征不僅使得法律數(shù)據(jù)的公開程度受到影響,也影響到法律數(shù)據(jù)的內(nèi)容、類型及格式。基于法律機關的政策考慮,相關法律數(shù)據(jù)的內(nèi)容多表現(xiàn)出格式化、預設性與法律化特征,據(jù)此向社會公開的法律數(shù)據(jù)其實是按照司法機關的管理目標所生產(chǎn)的內(nèi)容,而非公眾所欲知曉的有關法律實踐的充分、真實數(shù)據(jù)。這與商業(yè)、社會領域的大數(shù)據(jù)頗不相同,后者常常是更為自然的非結構性數(shù)據(jù)。
比較典型的結構化數(shù)據(jù),主要是來源于司法機關工作報告與法律統(tǒng)計年鑒的數(shù)據(jù)。此類數(shù)據(jù)都經(jīng)過“精細加工”,數(shù)據(jù)發(fā)布主體自身的價值偏好也潛藏其中。目前,“公開的司法統(tǒng)計數(shù)據(jù)不完整,許多應當公開的數(shù)據(jù)并未公開,公開比例也難以令人滿意”,諸如刑事案件律師辯護率、民事案件律師代理率等數(shù)據(jù)難以獲得;數(shù)據(jù)的統(tǒng)計口徑往往也不一致,甚至同一主題在不同年份的統(tǒng)計口徑也會出現(xiàn)變化,以致數(shù)據(jù)的連貫性較差。這些結構化或半結構化特征明顯的大量數(shù)據(jù),對司法管理具有一定的參考意義,也有相當?shù)难芯抠Y料價值,但由于其生產(chǎn)目的的特定性,整體上并不充分和全面,尤其是中觀、微觀層面數(shù)據(jù)的缺失,使得它并不完全具備大數(shù)據(jù)的特征。對于此類數(shù)據(jù),或許視作“重要和宏觀的司法數(shù)據(jù)”更恰當。而裁判文書的結構性則要弱一些,或可稱為半結構化的數(shù)據(jù)。裁判文書的事實認定與法律適用的表述思路和風格,是由眾多風格各異的法律實踐者個人或集體完成的,但其基本寫作邏輯和格式仍然受到制度與實踐層面的嚴格規(guī)范,大體上還是半結構化的。
真正豐富的法律大數(shù)據(jù)應兼具大數(shù)據(jù)的自然特征與法律特征,主要由各種法律主體參與生產(chǎn)、制作并發(fā)布,具有全樣本、即時性、多樣化特征?,F(xiàn)階段中國法律大數(shù)據(jù)整體上是以裁判文書網(wǎng)為主要來源的官方化、結構化或半結構化的大量數(shù)據(jù),實質(zhì)上只是法律領域中的有限數(shù)據(jù),也是角度特定的數(shù)據(jù)。
(三)數(shù)據(jù)在研究上的應用:方法和目的
作為實證研究的一種新形式,大數(shù)據(jù)法律研究應當遵從實證研究的一般范式,即利用大數(shù)據(jù)分析、發(fā)現(xiàn)經(jīng)驗現(xiàn)象,并基于經(jīng)驗現(xiàn)象提出、證實或證偽假設,最終發(fā)展和創(chuàng)新理論。同時,大數(shù)據(jù)與小數(shù)據(jù)的分析方式在研究模式方面有著共性:都應用數(shù)理統(tǒng)計的一般規(guī)律,采用統(tǒng)計學的許多方法,尤其是回歸分析。當然,實踐中“大小數(shù)據(jù)”研究的界限時常有所模糊。一些小數(shù)據(jù)并不小,特別是一些區(qū)域性數(shù)據(jù)研究涉及的樣本可能高達十幾萬甚至幾十萬個,其研究方式可能與大數(shù)據(jù)研究并無二致,甚至有的小數(shù)據(jù)研究已經(jīng)在使用復雜的機器學習。
盡管如此,大數(shù)據(jù)法律研究有其獨特性,與小數(shù)據(jù)研究存在諸多不同:(1)研究者的親歷性不同。由于小數(shù)據(jù)的有限性,研究者一般親自、逐一收集、審閱和分析每一個研究樣本,具有很強的親歷性。然而,面對全國性的裁判文書或者某個領域的裁判文書時,研究者便無力如此操作了。對于此類研究,如果沒有好的數(shù)據(jù)收集、分析方式與技術,研究根本不可能有效地開展。因此,小數(shù)據(jù)研究中的判斷一般是親歷性、實感化的判斷,大數(shù)據(jù)研究中的判斷往往依賴計算機軟件,是一種間接性的判斷,實感性較弱。(2)數(shù)據(jù)量的差異使得大數(shù)據(jù)研究更依賴諸如機器學習等新方式。面對海量數(shù)據(jù),應用計算機軟件和機器學習在所難免。巨大的數(shù)據(jù)量使得精細梳理變量間關系的研究受到挑戰(zhàn):大數(shù)據(jù)本身既可能粗糙,也可能信息過載,干擾因素與各種相關變量較多,研究者往往難以有效把握。這或許也是很多實證研究者依然致力于小數(shù)據(jù)研究的重要原因。
就當前的研究現(xiàn)狀來看,雖然中國的大數(shù)據(jù)法律研究已經(jīng)開始使用爬蟲軟件等抓取數(shù)據(jù),但內(nèi)容分析仍以描述性的數(shù)據(jù)分析為主,很少有研究者能夠使用統(tǒng)計軟件與統(tǒng)計學分析方法對數(shù)據(jù)資料進行精確的定量分析。對于如何整理與分析大數(shù)據(jù),法學研究者大多“還不能科學、熟練地運用數(shù)理統(tǒng)計等分析手段與方法對問題展開統(tǒng)計學意義上的定量分析,更遑論在研究中進行數(shù)理模型的建構,從而在定量研究的方法上與統(tǒng)計學、社會學、經(jīng)濟學等其他學科展開對話”。如果不得不采取數(shù)據(jù)科學方法,研究者往往也只能依靠統(tǒng)計學家和數(shù)據(jù)科學家進行數(shù)據(jù)收集、挖掘、統(tǒng)計與分析。但技術專家經(jīng)常不能把握法學研究者的真正意圖,對基本法律問題也缺乏相應判斷,這無疑增加法學研究人員與統(tǒng)計學家、數(shù)據(jù)科學家之間的溝通成本?;蛟S不得不承認,當前“對大數(shù)據(jù)的收集、研究和應用還處在一個比較粗淺的層面上,司法大數(shù)據(jù)可能具有的超凡價值遠遠沒有得到挖掘”。
對于經(jīng)驗性法律現(xiàn)象,如律師辯護率、刑民事案件二審的改判率等,基于法律大數(shù)據(jù)的描述性分析可能是適當?shù)?。然而,法律實證研究畢竟是一種可量化的社會科學研究,需要歸納出法律運作過程的規(guī)律,并對其背后的因果關系進行深度闡釋,或至少指出需進一步探究的相關性。一旦需要進行更多的因果關系或相關性研究,描述性分析則明顯力有不逮。例如,通過大數(shù)據(jù)來分析家庭經(jīng)濟收入、父母受教育程度、父母情感關系、同輩朋友中的犯罪情況、未成年人的學習情況等,是否對未成年人犯罪具有直接影響以及影響的強弱時,傳統(tǒng)的描述性統(tǒng)計分析可能就難以勝任。更加深入的法律大數(shù)據(jù)研究,還涉及機器學習與算法應用,尤其在對法律大數(shù)據(jù)進行應用研究時更是如此。例如,對于通過數(shù)據(jù)關聯(lián)分析在大量散亂的數(shù)據(jù)中如何發(fā)現(xiàn)數(shù)據(jù)之間的相關性,并將這些數(shù)據(jù)形成一個數(shù)據(jù)集,從而描繪出某個事物或事件的發(fā)展規(guī)律或趨勢,傳統(tǒng)的統(tǒng)計學方法往往力不從心,需要通過機器學習實現(xiàn)研究目標。Jon Kleinberg等人利用決策樹、迭代算法等機器學習算法,分析了美國15萬余件重罪案件的法官假釋決定,認為機器學習算法的預測要優(yōu)于人類法官的判斷。
實際上,大數(shù)據(jù)法律研究是一項綜合性、系統(tǒng)性工程,研究者掌握與運用相關研究方法的能力在很大程度上決定了研究的深度與層次。法律大數(shù)據(jù)研究的核心在于對海量數(shù)據(jù)的價值挖掘、處理,這就涉及上述數(shù)據(jù)的獲取、清洗與使用。以典型的裁判文書大數(shù)據(jù)分析為例,由于目前上載的裁判文書達到4000萬以上的量級,傳統(tǒng)人工下載的方式遠遠無法滿足研究的需要。這就必須借助爬蟲軟件自動從互聯(lián)網(wǎng)上下載海量文書。然而,文書的獲取只是大數(shù)據(jù)研究的第一步。由于爬蟲軟件抓取的文書是典型的無標簽非結構化數(shù)據(jù),其中包含重復文書、空白文書等“臟數(shù)據(jù)”,此時就必須借助數(shù)據(jù)清洗手段處理這些文書,添加案號、案由、審級等常規(guī)標簽。在數(shù)據(jù)清洗的基礎之上,才可能進行數(shù)據(jù)挖掘。由于人工統(tǒng)計無法完成數(shù)據(jù)挖掘的任務,因而需要運用正則表達式等數(shù)據(jù)挖掘方法??梢?,大數(shù)據(jù)本身為法學實證研究設定了先天的技術門檻。
舍恩伯格等認為,“大數(shù)據(jù)時代絕對不是一個理論消亡的時代,相反地,理論貫穿于大數(shù)據(jù)分析的方方面面”,“大數(shù)據(jù)不會叫囂‘理論已死’”,反而會“從根本上改變我們理解世界的方式”。目前有關大數(shù)據(jù)的法律研究,在研究取向上偏重于實踐型、應用型,而非學理性、抽象性,側(cè)重數(shù)據(jù)的調(diào)查與描述,過度沉迷于讓數(shù)據(jù)“自己說話”甚至“自己思考”,疏于開展深度的理論剖析與建構。很多冠以“大數(shù)據(jù)”的實證研究不過是運用大數(shù)據(jù)或大量數(shù)據(jù)對某個法律現(xiàn)象或問題的簡單描述,各種法律數(shù)據(jù)的簡單歸類統(tǒng)計,以及在此基礎上提出問題與解決對策。對大數(shù)據(jù)所呈現(xiàn)的普遍現(xiàn)象進行深度剖析與理論解讀的研究還較為缺乏,更遑論相關理論建構。
(四)作為方法的大數(shù)據(jù)法律研究
基于大數(shù)據(jù)的法律研究對法律研究方法到底意味著什么?這是否一場新的研究范式革命?法學界目前更多只是將之看作一種實踐現(xiàn)象。大數(shù)據(jù)法律研究的一些基本理論問題,如它的內(nèi)涵、特征、優(yōu)勢與局限,大數(shù)據(jù)法律研究與社科法學、實證法律研究之關聯(lián),如何適當運用、科學展開等,至今尚未得到充分討論。如果說基于小數(shù)據(jù)法律實證研究的理論圖景已日漸清晰,那么基于大數(shù)據(jù)法律實證研究的理論問題似乎未昭未揭。這可能會使研究者陷入“過分關注技術分析,忽視創(chuàng)新思維和思辨分析”的窠臼中。有論者在談到大數(shù)據(jù)對社會學研究的影響時指出,“‘大數(shù)據(jù)’概念的廣泛應用和巨大影響,對社會學研究的沖擊更為直接。這種沖擊涉及數(shù)據(jù)來源、研究方法、社會測量等諸多重要領域”。事實上,這種沖擊和影響甚至已經(jīng)開始波及法學研究。從研究對象看,大數(shù)據(jù)法律研究擴展了法學研究的問題域,使法學研究不再拘泥于傳統(tǒng)的研究對象和素材,從而拓展了法學研究的領域和格局。從研究范式看,大數(shù)據(jù)法律研究可能推動實證研究的跨越式發(fā)展,特別是機器學習方式的引入,會使法學研究從法教義學、社科法學和實證法律研究等范式轉(zhuǎn)向數(shù)據(jù)科學式的法學研究,形成“數(shù)據(jù)驅(qū)動+理論假設驅(qū)動”的范式革命,最終重構傳統(tǒng)法律實證研究。就此而言,或許可以將其視為法律實證研究的新階段。
大數(shù)據(jù)法律研究應當具有什么樣的問題意識?當前,一些大數(shù)據(jù)法律研究缺乏必要的問題意識,主要是描述式研究,淪為“調(diào)查報告式”的數(shù)據(jù)展示。針對法律實證研究,曾有論者提出“受眾是誰”的問題,大數(shù)據(jù)法律研究同樣應重視此問題。從某種程度上講,“受眾”不僅是指知識生產(chǎn)所面向的市場,也意味著知識生產(chǎn)者與消費者之間的互動。一方面,大數(shù)據(jù)法律研究應該面向司法實踐與司法改革,從司法機關與公眾真正關心、急欲解決的現(xiàn)實問題中尋找研究靈感,從而使大數(shù)據(jù)法律研究具備較強的實踐性。例如,最高人民法院和最高人民檢察院正圍繞“智慧法院”“智慧檢察”,深入推進法院與檢察院辦案、辦公的陽光化、網(wǎng)絡化、智能化,人工智能開始運用于司法改革推進和司法建設之中,而司法領域人工智能的運用顯然無法離開法律大數(shù)據(jù)的支撐。因此,大數(shù)據(jù)法律研究應該回應“智慧司法”“智慧檢察”的實踐需要,并藉此獲得更大的致用空間,在理論與實踐的互動過程中形成問題意識,推進大數(shù)據(jù)法律研究的發(fā)展。另一方面,大數(shù)據(jù)法律研究也應該直面一些傳統(tǒng)的法學理論命題,借助法律大數(shù)據(jù)分析工具對其進行檢驗或創(chuàng)新發(fā)展。當然,基于大數(shù)據(jù)發(fā)現(xiàn)新的法律現(xiàn)象、提出新的理論命題,并利用大數(shù)據(jù)分析技術進行論證,亦是大數(shù)據(jù)法律研究的應有之義。
對大數(shù)據(jù)法律研究規(guī)范與倫理問題的討論亦很重要。大數(shù)據(jù)法律研究涉及海量數(shù)據(jù)的收集、整理和分析,這對數(shù)據(jù)收集、分析主體的專業(yè)水平,特別是研究規(guī)范提出了較高甚至是苛刻的要求。如果大數(shù)據(jù)研究人員的專業(yè)水平有限,對研究規(guī)范不夠重視,很有可能導致收集的數(shù)據(jù)失真、分析結果失準,不僅不能對法律現(xiàn)象進行客觀量化,甚至可能形成錯誤結論,以致謬以千里。在數(shù)據(jù)本身有限且運用相對簡單的條件下,其他主體可以對研究結論進行重復性或經(jīng)驗式驗證,但在大數(shù)據(jù)背景下,這種驗證無疑困難得多,成本也更為高昂。特別是,在當前數(shù)據(jù)公司與研究者普遍不愿公布數(shù)據(jù)來源、內(nèi)容、收集工具、分析標準的情況下,如果研究者不能對大數(shù)據(jù)法律研究抱持嚴謹態(tài)度并恪守必要的研究規(guī)范,甚或不遵守相關學術倫理,基于功利動機而突破學術底線,將導致相應的大數(shù)據(jù)法律研究存在研究標準不科學、研究結論荒謬甚至數(shù)據(jù)造假等問題。此外,大數(shù)據(jù)法律研究表面上是圍繞數(shù)據(jù)展開,但由于很多數(shù)據(jù)其實指涉或反映主體的行為、意識與習慣等,這使得大數(shù)據(jù)法律研究不可避免地牽涉“人”的問題,甚至可能會將作為研究對象的“人”置于相對危險的境地。這樣的倫理問題目前似乎并未引起研究者的注意,對此更應有意識地采取相應的技術處理策略。
(一)致力于獲取全面、多樣的法律數(shù)據(jù)
第一,盡力獲取全面化的法律數(shù)據(jù)。數(shù)據(jù)的官方化,是法律大數(shù)據(jù)不同于商業(yè)性、社會性數(shù)據(jù)的特殊之處,這就決定了法律大數(shù)據(jù)的獲取與應用水平在相當程度上取決于法律機構是否充分、及時公開其收集、掌握的法律信息。所以,法律機構基于共享理念推行數(shù)據(jù)公開機制是法律大數(shù)據(jù)獲取和應用的關鍵之一。前已述及,裁判文書網(wǎng)所收集、整理、統(tǒng)計的數(shù)據(jù)往往并不能稱作“法律大數(shù)據(jù)”,甚至有時數(shù)據(jù)質(zhì)量可能還不如抽樣調(diào)查中的“代表性數(shù)據(jù)”。雖然2016年最高人民法院修訂了《關于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》(法釋[2016]19號),但由于其約束力不強、操作性較弱,事實上并未實現(xiàn)“(除不予公布的)其他裁判文書一律在互聯(lián)網(wǎng)公布”的目標。為了提高司法的公開水平,促進法學實證研究的發(fā)展,法學界需要呼吁最高人民法院進一步健全裁判文書發(fā)布的責任機制,加強對裁判文書不上網(wǎng)的審查力度,大力推動并真正實現(xiàn)裁判文書網(wǎng)絡發(fā)布的“應上盡上”原則,促進裁判文書網(wǎng)不斷由大量數(shù)據(jù)平臺向大數(shù)據(jù)平臺轉(zhuǎn)變。
第二,努力擴展法律數(shù)據(jù)的來源。數(shù)據(jù)是大數(shù)據(jù)法律研究展開的基礎,“只有具備足夠的數(shù)據(jù)源才可以挖掘出數(shù)據(jù)背后的價值”。然而,在法律大數(shù)據(jù)的來源上,目前過度依賴官方尤其是法院的主動發(fā)布,內(nèi)容、渠道存在單一性、有限性等問題。中國法治和中國司法的整體樣貌不可能據(jù)此充分展現(xiàn),司法決策信息更不是裁判文書所能充分顯示的。當前,除了對外公布的法律裁判文書,法律決策過程中的關鍵行為,如形成決策的內(nèi)部討論,往往是高度非文字化、非數(shù)據(jù)化的?!耙环矫妫徆P錄不是一種公開的法律證明文書’,其亦未實現(xiàn)充分的數(shù)據(jù)化;另一方面,大量的程序過程如警察的偵查過程、檢察院的起訴過程、法院庭審前后的過程也沒有公開的、正式或非正式的文字記錄,更遑論在此基礎之上的數(shù)據(jù)化了?!睘榇?,首先要拓寬法律大數(shù)據(jù)的領域。只有將檢察機關、公安機關、司法行政機關所收集和制作的、符合公開條件的數(shù)據(jù)全面納入公開范圍,才可能“推動形成有利于平臺互聯(lián)互通、信息共享共用、業(yè)務銜接聯(lián)動的體制機制”,進而實現(xiàn)公、檢、法、司的相關數(shù)據(jù)接駁、聯(lián)通共享,提高法律大數(shù)據(jù)的集成化水平。其次,要豐富法律大數(shù)據(jù)的類別與內(nèi)容。其他類型的訴訟文書(或材料),如庭前會議筆錄、庭審筆錄、案卷材料等,尚未成為法律大數(shù)據(jù)的來源。檢察機關雖然公布了部分訴訟文書,但存在數(shù)量少、不全面以及可獲得性較差等問題。一些相當重要的司法數(shù)據(jù),如檢察機關的批捕、公訴與抗訴等數(shù)據(jù),并未充分公開。隨著語音識別、文本抓取等人工智能技術在實踐中的運用得到普及,對更多訴訟活動進行電子記錄、數(shù)據(jù)提取,將一些“僵尸數(shù)據(jù)”轉(zhuǎn)化為可計量、可使用的統(tǒng)計數(shù)據(jù)已成為可能。因此,未來應將視野拓展到裁判文書和司法統(tǒng)計之外的信息,更加重視對起訴書、庭審筆錄等記錄訴訟活動與程序的結構化數(shù)據(jù)、非結構化數(shù)據(jù)的收集和整理,尤要思考如何將實踐中大量的非結構化數(shù)據(jù)、半結構化數(shù)據(jù)轉(zhuǎn)化為有價值、可運用的結構化數(shù)據(jù),確保大數(shù)據(jù)的有效性、有用性。另外,電子卷宗的推廣、證據(jù)標準判斷的數(shù)據(jù)化,也為更多地使用裁判文書以外的其他數(shù)據(jù)來源提供了重要機遇。這有助于我們獲得裁判文書網(wǎng)以外的豐富材料,進而助力開展更為多元的研究。只有當法官乃至所有法律行動者的行為模式與決策信息充分數(shù)據(jù)化時,法律大數(shù)據(jù)才能真正被稱為“大數(shù)據(jù)”。
第三,重視和利用好當下的大量數(shù)據(jù),包括區(qū)域性的全樣本數(shù)據(jù)。受制于各種客觀條件,大量數(shù)據(jù)而非大數(shù)據(jù)可能是研究者在很長一段時間內(nèi)所面臨的窘境。但大量數(shù)據(jù)也是法學研究的重要材料,值得高度重視與充分利用。為此,一方面,要避免數(shù)據(jù)樣本帶來的數(shù)據(jù)偏誤,特別是系統(tǒng)性偏差。了解現(xiàn)有數(shù)據(jù)公布的偏差情況,是利用好已有的數(shù)據(jù)材料,尤其是裁判文書網(wǎng)所公布的裁判文書的前提所在。例如,由于不同案件公開的比例差異,在進行裁判文書的數(shù)據(jù)挖掘時,刑事類的分析所包含的數(shù)據(jù)偏誤就天然小于民事類;一般刑事案件的分析就優(yōu)于貪腐類犯罪;離婚糾紛由于大量采用調(diào)解的方式結案,而調(diào)解文書通常不予公開,這就決定了有關婚姻類的大數(shù)據(jù)挖掘報告需要謹慎對待?;跀?shù)據(jù)本身的局限性,在利用裁判文書網(wǎng)進行研究時,可以適當縮小研究范圍,并限定研究對象,確保在有限的數(shù)據(jù)條件下盡可能地收集、獲取某領域或某類別相對完整、具有一定代表性的真實數(shù)據(jù)。此外,還可運用諸如“貝葉斯方法”和“大數(shù)定律”等數(shù)理統(tǒng)計方法對現(xiàn)有數(shù)據(jù)進行推斷,從而正確識別并驗證數(shù)據(jù)的代表性。另一方面,重視區(qū)域性的全樣本法律大數(shù)據(jù)。我國疆域遼闊,不同地域之間的人文、地理環(huán)境差異巨大,收集全國范圍內(nèi)的全樣本(或近似于全樣本)數(shù)據(jù)無疑具有相當難度,如果轉(zhuǎn)而收集若干具有代表性的區(qū)域性全樣本數(shù)據(jù),則可以提高數(shù)據(jù)收集的成功率。
(二)探索并深入展開大數(shù)據(jù)法律研究的科學方式
第一,探索新型、專門的大數(shù)據(jù)獲取、分析技術,并充分運用于大數(shù)據(jù)法律研究?!盎诖髷?shù)據(jù)技術而獲取的數(shù)據(jù),已經(jīng)不同于社會科學研究中普遍使用的隨機數(shù)據(jù)”,因而,“在統(tǒng)計推斷等方面需要因應調(diào)整”。在大數(shù)據(jù)挖掘、整理、分析方面,目前已經(jīng)有較為成熟的統(tǒng)計方式和數(shù)據(jù)科學方式,而與統(tǒng)計學相關但又頗為不同的機器學習方法也已崛起并運用于大數(shù)據(jù)分析之中。如何甄別大數(shù)據(jù)的有效性、真實性,如何分析、判斷數(shù)據(jù)之間的相關性與因果關系,還應有更多的方法與技術。在目前的大數(shù)據(jù)法律研究領域,數(shù)據(jù)挖掘依然主要通過正則表達式的方式。該方式在處理高度規(guī)整的文書表達時具有很強的準確性,如從海量文書中自動提取辯護人的數(shù)量、身份等表述高度一致的數(shù)據(jù)。然而,正則表達式在面臨高度多元化的表達時,由于無法窮盡表述,就多少顯得力不從心。例如,“自首”也許在文書中并不會以“自首”的關鍵詞出現(xiàn),而是以“家屬扭送”等諸多樣態(tài)的語詞呈現(xiàn),此時就需要用自然語義識別技術(NLP)。這類技術在法學領域才剛剛起步,主要出現(xiàn)在大數(shù)據(jù)與人工智能的司法實踐中,還較少被應用于法律大數(shù)據(jù)的研究中。
專門的數(shù)據(jù)分析機構具有得天獨厚的技術與人才優(yōu)勢,法律研究者和司法部門必須思考如何更好地借助專門數(shù)據(jù)分析機構和人工智能科技公司的優(yōu)勢,充分挖掘、分析與利用數(shù)據(jù)。中國電子信息產(chǎn)業(yè)發(fā)展研究院在2017年發(fā)布的《中國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展水平評估報告》中指出,“我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展將迎來‘黃金期’,產(chǎn)業(yè)聚集將進一步特色化發(fā)展,技術融合創(chuàng)新將更加深入”。法律研究者也應搭乘大數(shù)據(jù)發(fā)展的“快車”,充分發(fā)揮專門的大數(shù)據(jù)獲取、分析技術的作用。這些技術往往既非傳統(tǒng)法律實證研究的方法,也不全是當下分析小數(shù)據(jù)所運用的統(tǒng)計方法,而是數(shù)學與計算機內(nèi)容交叉、不斷發(fā)展進化的、以機器學習為主的新型方法。當然,研究者也需要注重對技術的深度學習與直接使用,努力做到自己掌握、使用現(xiàn)有技術工具進行數(shù)據(jù)收集、挖掘與分析。
第二,充分利用數(shù)據(jù)進行深度分析。簡單的描述性統(tǒng)計分析方法在面對海量數(shù)據(jù)時顯得力不從心,特別是當大數(shù)據(jù)獲取的信息本身就“漫無邊際”“支離破碎”而“根本不可能直接用于任何量化分析時”更是如此。為了提升大數(shù)據(jù)的利用水平與分析效能,需要將小數(shù)據(jù)社科研究中已普遍運用和相對成熟的數(shù)據(jù)分析方法,如列聯(lián)表分析、相關性分析、回歸分析與統(tǒng)計學中處理高維數(shù)據(jù)的方法等,運用到大數(shù)據(jù)分析中,熟練運用SPSS、SAS等統(tǒng)計分析軟件深度挖掘隱藏在法律大數(shù)據(jù)之中的寶藏?!爸挥型ㄟ^對數(shù)據(jù)的大量輸入并加上復雜運算,讓數(shù)據(jù)不斷產(chǎn)生又不斷拆分、整合,融合生成新的產(chǎn)品,然后輸出、使用,才能形成‘數(shù)據(jù)生產(chǎn)信息,信息改善決策’,這正是大數(shù)據(jù)發(fā)揮作用的基本原理?!笨紤]到大數(shù)據(jù)分析的重要性,必須思考如何在中短期內(nèi)提升大數(shù)據(jù)深度分析水平。當然,大數(shù)據(jù)法律研究在多大程度上真正需要運用以及如何運用統(tǒng)計學之外的其他分析方法,還有待進一步思考與探索。此外,面對法律大數(shù)據(jù)在數(shù)量、內(nèi)容上的急遽增加,特別是面對“來源更加廣泛,數(shù)據(jù)粒度更小,記錄單元更加碎片化,結構更加多元化”的大數(shù)據(jù),現(xiàn)有的分析工具和統(tǒng)計手段可能無法滿足處理需求,此時就要借助人工智能。通過將人工智能與法律大數(shù)據(jù)結合,對巨量數(shù)據(jù)進行智能篩選與算法分析,從而提升海量數(shù)據(jù)的分析效能。
隨著數(shù)據(jù)來源以驚人的速度擴展,人們會逐漸加深對大數(shù)據(jù)的依賴,也需要保持對大數(shù)據(jù)及其相關技術的超脫。一方面,大數(shù)據(jù)的分析手段如人工智能的算法本身就面臨諸多“技術陷阱”,甚至被一些研究者認為是在黑箱中運作,因此必須警惕其潛在風險。另一方面,特別“要防止為技術所裹挾,避免成為簡單的技術主義者”。只有如此,才能保持“人文社會科學工作者的思想高度、理論品格和價值定位”,進而產(chǎn)出更有溫度的優(yōu)秀成果。
第三,推動研究的團隊化與多學科的交叉融合,并致力于培養(yǎng)復合型大數(shù)據(jù)法學人才。以往的法律實證研究注重研究者的專業(yè)性和個體性,表現(xiàn)為研究者獨自收集資料、分析問題、撰寫文章,個人的冥思與獨創(chuàng)發(fā)揮著主要作用。在小數(shù)據(jù)研究中,這種模式能基本勝任。但大數(shù)據(jù)法律研究時常所處理的是海量雜亂數(shù)據(jù),這“意味著人類的記錄范圍、測量范圍和分析范圍在不斷擴大,知識的邊界在不斷延伸”。大數(shù)據(jù)時代的到來,“提供了人文社會科學學者大規(guī)模協(xié)作的可能”,也使之成為一種必要。在大數(shù)據(jù)法律研究及相關人工智能應用研究中,無論是數(shù)據(jù)的收集、整理,還是其分析、運用,都需要研究者具有多學科的知識與經(jīng)驗,如數(shù)據(jù)挖掘就涉及數(shù)據(jù)庫技術、機器學習、模式識別、知識庫工程、神經(jīng)網(wǎng)絡、數(shù)理統(tǒng)計、信息的可視化等眾多領域,知識結構單一的研究者甚至研究團隊,往往難以應對。為了更好地開展大數(shù)據(jù)法律研究,法學研究者需要通過加強團隊建設,特別是加強與計算機科學、軟件科學、統(tǒng)計學等相關學科的專業(yè)人士以及大數(shù)據(jù)、人工智能科技公司之間的合作,以更好地應對大數(shù)據(jù)法律研究帶來的機遇與挑戰(zhàn)。同時,大數(shù)據(jù)法律研究者自身更需要突破知識儲備、學術理念、價值方面的障礙,學習、掌握和應用統(tǒng)計學、數(shù)據(jù)科學的知識與研究方法。就此而言,面向未來的大數(shù)據(jù)法律研究復合型人才培養(yǎng)極為重要。目前,國內(nèi)一些高校已經(jīng)相繼開設了大數(shù)據(jù)課程。未來,具備資源優(yōu)勢和技術條件的院??梢灾贫ā按髷?shù)據(jù)——法學復合型人才培養(yǎng)計劃”,系統(tǒng)培養(yǎng)既懂技術又懂法律的復合型人才,為大數(shù)據(jù)法律研究與實踐儲備更多生力軍。
第四,長期以來,基于小數(shù)據(jù)的法律實證研究一直是主流研究方式,有其重大學術價值。大數(shù)據(jù)研究在數(shù)據(jù)不足、方法把握不夠的情況下,如何確保研究的科學性呢?對此,將小數(shù)據(jù)研究和大數(shù)據(jù)研究相結合應該是重要思路。具體而言,一是要在同一研究中就同一問題既應用大數(shù)據(jù)研究,也開展小數(shù)據(jù)研究,共同驗證研究結論;二是在大數(shù)據(jù)研究中適當使用小數(shù)據(jù)研究的精細化思路與方法,把大數(shù)據(jù)研究細致化,從而提升大數(shù)據(jù)法律研究的科學性。
總之,身處大數(shù)據(jù)時代,我們正無時不刻不受到大數(shù)據(jù)廣泛而深刻的影響。這不僅為大數(shù)據(jù)法律研究的發(fā)展提供了空前機遇,也是傳統(tǒng)法律實證研究乃至法學研究范式升級轉(zhuǎn)型的一個重要契機。立足眼下,更為要緊的工作可能是正視并努力突破大數(shù)據(jù)法律研究所面臨的困境與羈絆。要正確理解法律大數(shù)據(jù),科學、有效地開展大數(shù)據(jù)法律研究,開發(fā)大數(shù)據(jù)法律研究獨特的技術與方法,提升數(shù)據(jù)獲取與分析技術,注重培養(yǎng)復合型的研究人才。
作者左衛(wèi)民,四川大學法學院教授。
受惠于互聯(lián)網(wǎng)與大數(shù)據(jù)技術的迅猛發(fā)展,數(shù)據(jù)正以前所未有的速度巨量生成,海量的數(shù)據(jù)資源由此產(chǎn)生。大數(shù)據(jù)資源日漸成為國家與社會的基礎性戰(zhàn)略資源,推動世界大步邁向大數(shù)據(jù)時代。因應于此,法律機關、尤其是司法機關大力推進部門信息的電子化、數(shù)字化、公開化,使得法律大數(shù)據(jù)逐漸興起并進入公眾視野。
法律大數(shù)據(jù)的出現(xiàn),使得基于法律大數(shù)據(jù)的司法實踐與新型實證研究成為可能,并可能帶來法學研究方式的革命性變化。這種可能性源于大數(shù)據(jù)所具有的獨特優(yōu)勢:(1)數(shù)據(jù)的“全樣本性”。大數(shù)據(jù)通常是特定領域的全面數(shù)據(jù),具有數(shù)量巨大與內(nèi)容全面之特性?;谌珮颖緮?shù)據(jù)的實證研究,能夠顯著減少傳統(tǒng)抽樣方法可能導致的誤差,增強對研究對象的整體把握,發(fā)現(xiàn)傳統(tǒng)抽樣數(shù)據(jù)中難以或根本無法獲取的信息,帶來研究視角、研究素材、研究方法的根本性轉(zhuǎn)變。(2)數(shù)據(jù)產(chǎn)生、收集、分析的快捷性。“數(shù)據(jù)分析的速度越來越快,經(jīng)常在數(shù)據(jù)剛剛敲進去的時候就可以看到實時的分析結果”,這有助于研究者及時有效地掌握相關法律實踐狀況的全貌,從而克服傳統(tǒng)實證研究方法耗時、滯后的缺陷。(3)數(shù)據(jù)收集與分析技術的客觀性、科學性。
與具有親歷性的傳統(tǒng)手工作坊式實證研究“大多是自己收集、整理數(shù)據(jù)”“存在因為研究動機需要而選擇性收集、運用數(shù)據(jù)”不同,海量材料與數(shù)據(jù)遠非“人工作坊時代”研究者所能親自、逐一地審閱、統(tǒng)計和分析。大數(shù)據(jù)的收集和分析往往直接依托于數(shù)據(jù)技術自動處理、完成。在開源條件下,研究過程具有相當?shù)耐该鞫龋芯拷Y論可復盤檢驗,數(shù)據(jù)收集、分析的客觀性、科學性明顯增強。特別是,利用不同渠道收集的數(shù)據(jù)集產(chǎn)生了海量數(shù)據(jù),當這些數(shù)據(jù)聚合到一起,可以對其進行挖掘,并開展更深層次的分析,該深度分析能揭示出各種模式、相關關系,并進行有統(tǒng)計意義的各種預測。這不僅能夠開展歷時性與變遷性的研究,也能夠進行預測性研究與趨勢分析,最終促進研究科學水準的提升。
在國外,法律大數(shù)據(jù)已廣泛滲透到公權力與私權利領域的法律實踐。在公權力領域,法律大數(shù)據(jù)在兩個方面得到較多利用:一是在警務活動中。美國、澳大利亞等國家早已開始利用法律大數(shù)據(jù)開展警務預測。在美國,法律大數(shù)據(jù)被充分運用于犯罪趨勢分析、發(fā)案情況預測、警力分配以及調(diào)查工作重心的確定等。二是在審判活動中。法律大數(shù)據(jù)已大量應用于司法管理活動和程序性司法決策。例如,法官通過對法律大數(shù)據(jù)進行分析、評估,建立“何種情況下將影響嫌疑人到庭接受審判,何種情況下容易誘發(fā)新的犯罪”的保釋風險預測模型,以此決定嫌疑人能否被保釋;法官利用法律大數(shù)據(jù)對罪犯是否符合假釋條件進行評估,以此作為判斷罪犯能否被假釋的重要參考。在私權利領域,律師(律所)和當事人也高度重視對法律大數(shù)據(jù)的利用。例如,律師(律所)利用法律大數(shù)據(jù)進行律所管理、成本控制以及訴訟(律師)費用的評估、預測,律師、當事人利用大數(shù)據(jù)挑選對自己有利的陪審團、進行訴訟結果預測。在大數(shù)據(jù)法律研究方面,國外學者除開始利用大數(shù)據(jù)對具體的法律問題展開研究外,對大數(shù)據(jù)法律研究與法律實踐的理論與方法問題(例如,如何確保數(shù)據(jù)本身的可靠性、公開性,如何克服算法的非透明性、非歸責性以及“數(shù)據(jù)歧視”,大數(shù)據(jù)運用是否與美國聯(lián)邦憲法第四修正案產(chǎn)生沖突及如何協(xié)調(diào))尤為關注。
目前,中國利用大數(shù)據(jù)開展的法律實踐方興未艾。例如:基于司法公開而大力推進的裁判文書上網(wǎng)工作;依托大數(shù)據(jù)技術建立犯罪信息判斷和趨勢預測;運用大數(shù)據(jù)建設“檢察大數(shù)據(jù)標準體系、應用體系、管理體系、科技支撐體系”;利用大數(shù)據(jù)建立案件權重系數(shù)和評價指標體系,確定法官工作量,并進行科學的員額分配、案件分流;基于大數(shù)據(jù)開展的多種法律人工智能實踐,嘗試如類案推薦、量刑輔助與偏離預警等應用。其中,裁判文書大規(guī)模上網(wǎng),使得中國第一次有了全國性、公開的、細節(jié)化的法律數(shù)據(jù)。但總體而言,目前國內(nèi)對于法律大數(shù)據(jù)的實踐性運用還相對有限,具體運用并不普遍,在一定程度上呈現(xiàn)出“話語熱、實踐冷”的現(xiàn)象:一方面,應用主體范圍有限,主要集中在少數(shù)司法機關、法律數(shù)據(jù)公司;另一方面,應用領域相對較窄、實際運用較少,主要集中在類案檢索、法律文書草擬、文書智能糾錯等輔助辦案方面。
近年來,國內(nèi)也出現(xiàn)直接利用大量數(shù)據(jù)展開法學研究的探索,并已經(jīng)注意到法律大數(shù)據(jù)所面臨的倫理規(guī)范等問題。其中,有學者就如何開展大數(shù)據(jù)法律研究,提出了有啟發(fā)性的見解。不過,國內(nèi)的大數(shù)據(jù)法律研究整體上還處于探索階段,一些研究缺乏對法律大數(shù)據(jù)的基本認識,研究方法和過程其實建立在某些誤識上。因此,檢視大數(shù)據(jù)法律研究現(xiàn)狀,澄清若干誤識,對于大數(shù)據(jù)法律研究的健康開展具有基礎性意義。
(一)大數(shù)據(jù)還是大量數(shù)據(jù)
大數(shù)據(jù)具備“4V”(Volume、Velocity、Variety、Value)特征,是關于某一領域(行業(yè))全樣本、能夠快速流轉(zhuǎn)、多樣化且富價值的數(shù)據(jù)。其中,“全樣本”是其最顯著的特征,“全樣本數(shù)據(jù)”意指相關的所有數(shù)據(jù)。然而,目前國內(nèi)的法律大數(shù)據(jù)基本上只是部分的、非完整的數(shù)據(jù),遠非“相關的所有數(shù)據(jù)”,稱其為“大量數(shù)據(jù)”或更合適?;谶@些大量數(shù)據(jù)展開的研究,似乎很難視為嚴格意義上的大數(shù)據(jù)法律研究。
從某種意義上講,中國的法律大數(shù)據(jù)肇始于裁判文書統(tǒng)一集中上網(wǎng);在裁判文書上網(wǎng)之前,中國并沒有法律大數(shù)據(jù)研究,法律實證研究基本上是基于“小數(shù)據(jù)”,即研究者自己在局部范圍或特定領域所收集的數(shù)據(jù),而展開的“手工作坊式”研究。裁判文書網(wǎng)的誕生與發(fā)展,使得豐富的全國性數(shù)據(jù)第一次制度性涌現(xiàn),其與既有實證研究所使用的數(shù)據(jù)在數(shù)量級、廣泛性上大不相同。然而,裁判文書網(wǎng)已經(jīng)公布的裁判文書數(shù)據(jù)整體上并不完全具備全樣本特征:公布文書數(shù)量與實際結案數(shù)量相差較大,數(shù)據(jù)缺失問題相當嚴重。根據(jù)全國法院2014年和2015年的裁判文書上網(wǎng)統(tǒng)計顯示:按省份看,上網(wǎng)裁判文書占實際結案文書比重最高的達78.14%(陜西),最低的僅為15.17%(西藏);最高人民法院在這兩年的上網(wǎng)裁判文書僅占其實結案件量的46.13%,這一比重與全國的總體情況大體持平。截至2017年7月11日,四川省的法院在2012-2016年間的裁判文書上網(wǎng)1134249份,而根據(jù)四川省高級人民法院工作報告,2012-2016年全省共審結案件3865125件,上網(wǎng)量不足審結量的1/3。此外,上網(wǎng)裁判文書所涉及的案件類型并不全面,特別是一些重大職務犯罪類案件,其裁判文書往往并不上網(wǎng)。
概括起來,刑事案件的公開比率優(yōu)于民事案件,一般刑事案件的公開比率優(yōu)于敏感刑事案件。裁判文書上網(wǎng)的數(shù)量、地域、案件類型等方面的局限,使得相關數(shù)據(jù)往往并非全數(shù)據(jù),遠離標準的大數(shù)據(jù),這容易導致一些基于裁判文書的實證研究存在支撐證據(jù)不足,甚至觀點可能錯誤的問題。此外,部分地區(qū)法院在公開裁判文書時還對文書內(nèi)容進行了刪減,其刪減往往并非對當事人身份信息的屏蔽處理,而是對文書特定段落的刪除。這也會使得某些依靠從裁判文書網(wǎng)獲取的文書對特定問題的分析,存在不同程度的數(shù)據(jù)偏差。因此,盡管特定領域、特定區(qū)域的分類數(shù)據(jù)可能較為齊全,但從整體上看中國當下的法律大數(shù)據(jù),雖然數(shù)據(jù)量可能較多,許多領域均可能有20-70%左右的全國性或全局性數(shù)據(jù),但其實仍多是大量數(shù)據(jù)。
如何認識大量數(shù)據(jù)的學術研究價值?一方面,完美的法律大數(shù)據(jù)往往難以強求。作為官方化的數(shù)據(jù),公開與不公開往往并存,法律、政治、傳統(tǒng)的各種因素都會影響法律和司法數(shù)據(jù)的公開程度。歐洲國家地方法院裁判文書的公開度往往不如中國,美國法院刑事審判中同樣少有關于裁判心證的公開信息。無論中外,法律數(shù)據(jù)都均非豐富、完整,難以完全反映法律和司法實踐。由此,有缺失的大量數(shù)據(jù)往往可能是“現(xiàn)實中的大數(shù)據(jù)”。另一方面,大量數(shù)據(jù)不僅在數(shù)據(jù)量、豐富性方面遠超小數(shù)據(jù),而且經(jīng)過清洗后可以具有相當?shù)娜执硇?。在求全不得的條件下,如果能夠正確清洗數(shù)據(jù),正確把握數(shù)據(jù)缺失的程度、特別是有無系統(tǒng)性缺失,大量數(shù)據(jù)就具有不可替代的學術研究價值。
(二)法律數(shù)據(jù)的官方性、結構化
相比于商業(yè)、社會領域的大數(shù)據(jù),法律大數(shù)據(jù)具有自身的獨特性:商業(yè)、社會領域的大數(shù)據(jù)往往是非官方的機構收集并使用的,而法律領域大數(shù)據(jù)則具有“官方化”的特征;這種差異深刻影響數(shù)據(jù)的生成和使用。官方化特征不僅使得法律數(shù)據(jù)的公開程度受到影響,也影響到法律數(shù)據(jù)的內(nèi)容、類型及格式?;诜蓹C關的政策考慮,相關法律數(shù)據(jù)的內(nèi)容多表現(xiàn)出格式化、預設性與法律化特征,據(jù)此向社會公開的法律數(shù)據(jù)其實是按照司法機關的管理目標所生產(chǎn)的內(nèi)容,而非公眾所欲知曉的有關法律實踐的充分、真實數(shù)據(jù)。這與商業(yè)、社會領域的大數(shù)據(jù)頗不相同,后者常常是更為自然的非結構性數(shù)據(jù)。
比較典型的結構化數(shù)據(jù),主要是來源于司法機關工作報告與法律統(tǒng)計年鑒的數(shù)據(jù)。此類數(shù)據(jù)都經(jīng)過“精細加工”,數(shù)據(jù)發(fā)布主體自身的價值偏好也潛藏其中。目前,“公開的司法統(tǒng)計數(shù)據(jù)不完整,許多應當公開的數(shù)據(jù)并未公開,公開比例也難以令人滿意”,諸如刑事案件律師辯護率、民事案件律師代理率等數(shù)據(jù)難以獲得;數(shù)據(jù)的統(tǒng)計口徑往往也不一致,甚至同一主題在不同年份的統(tǒng)計口徑也會出現(xiàn)變化,以致數(shù)據(jù)的連貫性較差。這些結構化或半結構化特征明顯的大量數(shù)據(jù),對司法管理具有一定的參考意義,也有相當?shù)难芯抠Y料價值,但由于其生產(chǎn)目的的特定性,整體上并不充分和全面,尤其是中觀、微觀層面數(shù)據(jù)的缺失,使得它并不完全具備大數(shù)據(jù)的特征。對于此類數(shù)據(jù),或許視作“重要和宏觀的司法數(shù)據(jù)”更恰當。而裁判文書的結構性則要弱一些,或可稱為半結構化的數(shù)據(jù)。裁判文書的事實認定與法律適用的表述思路和風格,是由眾多風格各異的法律實踐者個人或集體完成的,但其基本寫作邏輯和格式仍然受到制度與實踐層面的嚴格規(guī)范,大體上還是半結構化的。
真正豐富的法律大數(shù)據(jù)應兼具大數(shù)據(jù)的自然特征與法律特征,主要由各種法律主體參與生產(chǎn)、制作并發(fā)布,具有全樣本、即時性、多樣化特征?,F(xiàn)階段中國法律大數(shù)據(jù)整體上是以裁判文書網(wǎng)為主要來源的官方化、結構化或半結構化的大量數(shù)據(jù),實質(zhì)上只是法律領域中的有限數(shù)據(jù),也是角度特定的數(shù)據(jù)。
(三)數(shù)據(jù)在研究上的應用:方法和目的
作為實證研究的一種新形式,大數(shù)據(jù)法律研究應當遵從實證研究的一般范式,即利用大數(shù)據(jù)分析、發(fā)現(xiàn)經(jīng)驗現(xiàn)象,并基于經(jīng)驗現(xiàn)象提出、證實或證偽假設,最終發(fā)展和創(chuàng)新理論。同時,大數(shù)據(jù)與小數(shù)據(jù)的分析方式在研究模式方面有著共性:都應用數(shù)理統(tǒng)計的一般規(guī)律,采用統(tǒng)計學的許多方法,尤其是回歸分析。當然,實踐中“大小數(shù)據(jù)”研究的界限時常有所模糊。一些小數(shù)據(jù)并不小,特別是一些區(qū)域性數(shù)據(jù)研究涉及的樣本可能高達十幾萬甚至幾十萬個,其研究方式可能與大數(shù)據(jù)研究并無二致,甚至有的小數(shù)據(jù)研究已經(jīng)在使用復雜的機器學習。
盡管如此,大數(shù)據(jù)法律研究有其獨特性,與小數(shù)據(jù)研究存在諸多不同:(1)研究者的親歷性不同。由于小數(shù)據(jù)的有限性,研究者一般親自、逐一收集、審閱和分析每一個研究樣本,具有很強的親歷性。然而,面對全國性的裁判文書或者某個領域的裁判文書時,研究者便無力如此操作了。對于此類研究,如果沒有好的數(shù)據(jù)收集、分析方式與技術,研究根本不可能有效地開展。因此,小數(shù)據(jù)研究中的判斷一般是親歷性、實感化的判斷,大數(shù)據(jù)研究中的判斷往往依賴計算機軟件,是一種間接性的判斷,實感性較弱。(2)數(shù)據(jù)量的差異使得大數(shù)據(jù)研究更依賴諸如機器學習等新方式。面對海量數(shù)據(jù),應用計算機軟件和機器學習在所難免。巨大的數(shù)據(jù)量使得精細梳理變量間關系的研究受到挑戰(zhàn):大數(shù)據(jù)本身既可能粗糙,也可能信息過載,干擾因素與各種相關變量較多,研究者往往難以有效把握。這或許也是很多實證研究者依然致力于小數(shù)據(jù)研究的重要原因。
就當前的研究現(xiàn)狀來看,雖然中國的大數(shù)據(jù)法律研究已經(jīng)開始使用爬蟲軟件等抓取數(shù)據(jù),但內(nèi)容分析仍以描述性的數(shù)據(jù)分析為主,很少有研究者能夠使用統(tǒng)計軟件與統(tǒng)計學分析方法對數(shù)據(jù)資料進行精確的定量分析。對于如何整理與分析大數(shù)據(jù),法學研究者大多“還不能科學、熟練地運用數(shù)理統(tǒng)計等分析手段與方法對問題展開統(tǒng)計學意義上的定量分析,更遑論在研究中進行數(shù)理模型的建構,從而在定量研究的方法上與統(tǒng)計學、社會學、經(jīng)濟學等其他學科展開對話”。如果不得不采取數(shù)據(jù)科學方法,研究者往往也只能依靠統(tǒng)計學家和數(shù)據(jù)科學家進行數(shù)據(jù)收集、挖掘、統(tǒng)計與分析。但技術專家經(jīng)常不能把握法學研究者的真正意圖,對基本法律問題也缺乏相應判斷,這無疑增加法學研究人員與統(tǒng)計學家、數(shù)據(jù)科學家之間的溝通成本。或許不得不承認,當前“對大數(shù)據(jù)的收集、研究和應用還處在一個比較粗淺的層面上,司法大數(shù)據(jù)可能具有的超凡價值遠遠沒有得到挖掘”。
對于經(jīng)驗性法律現(xiàn)象,如律師辯護率、刑民事案件二審的改判率等,基于法律大數(shù)據(jù)的描述性分析可能是適當?shù)?。然而,法律實證研究畢竟是一種可量化的社會科學研究,需要歸納出法律運作過程的規(guī)律,并對其背后的因果關系進行深度闡釋,或至少指出需進一步探究的相關性。一旦需要進行更多的因果關系或相關性研究,描述性分析則明顯力有不逮。例如,通過大數(shù)據(jù)來分析家庭經(jīng)濟收入、父母受教育程度、父母情感關系、同輩朋友中的犯罪情況、未成年人的學習情況等,是否對未成年人犯罪具有直接影響以及影響的強弱時,傳統(tǒng)的描述性統(tǒng)計分析可能就難以勝任。更加深入的法律大數(shù)據(jù)研究,還涉及機器學習與算法應用,尤其在對法律大數(shù)據(jù)進行應用研究時更是如此。例如,對于通過數(shù)據(jù)關聯(lián)分析在大量散亂的數(shù)據(jù)中如何發(fā)現(xiàn)數(shù)據(jù)之間的相關性,并將這些數(shù)據(jù)形成一個數(shù)據(jù)集,從而描繪出某個事物或事件的發(fā)展規(guī)律或趨勢,傳統(tǒng)的統(tǒng)計學方法往往力不從心,需要通過機器學習實現(xiàn)研究目標。Jon Kleinberg等人利用決策樹、迭代算法等機器學習算法,分析了美國15萬余件重罪案件的法官假釋決定,認為機器學習算法的預測要優(yōu)于人類法官的判斷。
實際上,大數(shù)據(jù)法律研究是一項綜合性、系統(tǒng)性工程,研究者掌握與運用相關研究方法的能力在很大程度上決定了研究的深度與層次。法律大數(shù)據(jù)研究的核心在于對海量數(shù)據(jù)的價值挖掘、處理,這就涉及上述數(shù)據(jù)的獲取、清洗與使用。以典型的裁判文書大數(shù)據(jù)分析為例,由于目前上載的裁判文書達到4000萬以上的量級,傳統(tǒng)人工下載的方式遠遠無法滿足研究的需要。這就必須借助爬蟲軟件自動從互聯(lián)網(wǎng)上下載海量文書。然而,文書的獲取只是大數(shù)據(jù)研究的第一步。由于爬蟲軟件抓取的文書是典型的無標簽非結構化數(shù)據(jù),其中包含重復文書、空白文書等“臟數(shù)據(jù)”,此時就必須借助數(shù)據(jù)清洗手段處理這些文書,添加案號、案由、審級等常規(guī)標簽。在數(shù)據(jù)清洗的基礎之上,才可能進行數(shù)據(jù)挖掘。由于人工統(tǒng)計無法完成數(shù)據(jù)挖掘的任務,因而需要運用正則表達式等數(shù)據(jù)挖掘方法。可見,大數(shù)據(jù)本身為法學實證研究設定了先天的技術門檻。
舍恩伯格等認為,“大數(shù)據(jù)時代絕對不是一個理論消亡的時代,相反地,理論貫穿于大數(shù)據(jù)分析的方方面面”,“大數(shù)據(jù)不會叫囂‘理論已死’”,反而會“從根本上改變我們理解世界的方式”。目前有關大數(shù)據(jù)的法律研究,在研究取向上偏重于實踐型、應用型,而非學理性、抽象性,側(cè)重數(shù)據(jù)的調(diào)查與描述,過度沉迷于讓數(shù)據(jù)“自己說話”甚至“自己思考”,疏于開展深度的理論剖析與建構。很多冠以“大數(shù)據(jù)”的實證研究不過是運用大數(shù)據(jù)或大量數(shù)據(jù)對某個法律現(xiàn)象或問題的簡單描述,各種法律數(shù)據(jù)的簡單歸類統(tǒng)計,以及在此基礎上提出問題與解決對策。對大數(shù)據(jù)所呈現(xiàn)的普遍現(xiàn)象進行深度剖析與理論解讀的研究還較為缺乏,更遑論相關理論建構。
(四)作為方法的大數(shù)據(jù)法律研究
基于大數(shù)據(jù)的法律研究對法律研究方法到底意味著什么?這是否一場新的研究范式革命?法學界目前更多只是將之看作一種實踐現(xiàn)象。大數(shù)據(jù)法律研究的一些基本理論問題,如它的內(nèi)涵、特征、優(yōu)勢與局限,大數(shù)據(jù)法律研究與社科法學、實證法律研究之關聯(lián),如何適當運用、科學展開等,至今尚未得到充分討論。如果說基于小數(shù)據(jù)法律實證研究的理論圖景已日漸清晰,那么基于大數(shù)據(jù)法律實證研究的理論問題似乎未昭未揭。這可能會使研究者陷入“過分關注技術分析,忽視創(chuàng)新思維和思辨分析”的窠臼中。有論者在談到大數(shù)據(jù)對社會學研究的影響時指出,“‘大數(shù)據(jù)’概念的廣泛應用和巨大影響,對社會學研究的沖擊更為直接。這種沖擊涉及數(shù)據(jù)來源、研究方法、社會測量等諸多重要領域”。事實上,這種沖擊和影響甚至已經(jīng)開始波及法學研究。從研究對象看,大數(shù)據(jù)法律研究擴展了法學研究的問題域,使法學研究不再拘泥于傳統(tǒng)的研究對象和素材,從而拓展了法學研究的領域和格局。從研究范式看,大數(shù)據(jù)法律研究可能推動實證研究的跨越式發(fā)展,特別是機器學習方式的引入,會使法學研究從法教義學、社科法學和實證法律研究等范式轉(zhuǎn)向數(shù)據(jù)科學式的法學研究,形成“數(shù)據(jù)驅(qū)動+理論假設驅(qū)動”的范式革命,最終重構傳統(tǒng)法律實證研究。就此而言,或許可以將其視為法律實證研究的新階段。
大數(shù)據(jù)法律研究應當具有什么樣的問題意識?當前,一些大數(shù)據(jù)法律研究缺乏必要的問題意識,主要是描述式研究,淪為“調(diào)查報告式”的數(shù)據(jù)展示。針對法律實證研究,曾有論者提出“受眾是誰”的問題,大數(shù)據(jù)法律研究同樣應重視此問題。從某種程度上講,“受眾”不僅是指知識生產(chǎn)所面向的市場,也意味著知識生產(chǎn)者與消費者之間的互動。一方面,大數(shù)據(jù)法律研究應該面向司法實踐與司法改革,從司法機關與公眾真正關心、急欲解決的現(xiàn)實問題中尋找研究靈感,從而使大數(shù)據(jù)法律研究具備較強的實踐性。例如,最高人民法院和最高人民檢察院正圍繞“智慧法院”“智慧檢察”,深入推進法院與檢察院辦案、辦公的陽光化、網(wǎng)絡化、智能化,人工智能開始運用于司法改革推進和司法建設之中,而司法領域人工智能的運用顯然無法離開法律大數(shù)據(jù)的支撐。因此,大數(shù)據(jù)法律研究應該回應“智慧司法”“智慧檢察”的實踐需要,并藉此獲得更大的致用空間,在理論與實踐的互動過程中形成問題意識,推進大數(shù)據(jù)法律研究的發(fā)展。另一方面,大數(shù)據(jù)法律研究也應該直面一些傳統(tǒng)的法學理論命題,借助法律大數(shù)據(jù)分析工具對其進行檢驗或創(chuàng)新發(fā)展。當然,基于大數(shù)據(jù)發(fā)現(xiàn)新的法律現(xiàn)象、提出新的理論命題,并利用大數(shù)據(jù)分析技術進行論證,亦是大數(shù)據(jù)法律研究的應有之義。
對大數(shù)據(jù)法律研究規(guī)范與倫理問題的討論亦很重要。大數(shù)據(jù)法律研究涉及海量數(shù)據(jù)的收集、整理和分析,這對數(shù)據(jù)收集、分析主體的專業(yè)水平,特別是研究規(guī)范提出了較高甚至是苛刻的要求。如果大數(shù)據(jù)研究人員的專業(yè)水平有限,對研究規(guī)范不夠重視,很有可能導致收集的數(shù)據(jù)失真、分析結果失準,不僅不能對法律現(xiàn)象進行客觀量化,甚至可能形成錯誤結論,以致謬以千里。在數(shù)據(jù)本身有限且運用相對簡單的條件下,其他主體可以對研究結論進行重復性或經(jīng)驗式驗證,但在大數(shù)據(jù)背景下,這種驗證無疑困難得多,成本也更為高昂。特別是,在當前數(shù)據(jù)公司與研究者普遍不愿公布數(shù)據(jù)來源、內(nèi)容、收集工具、分析標準的情況下,如果研究者不能對大數(shù)據(jù)法律研究抱持嚴謹態(tài)度并恪守必要的研究規(guī)范,甚或不遵守相關學術倫理,基于功利動機而突破學術底線,將導致相應的大數(shù)據(jù)法律研究存在研究標準不科學、研究結論荒謬甚至數(shù)據(jù)造假等問題。此外,大數(shù)據(jù)法律研究表面上是圍繞數(shù)據(jù)展開,但由于很多數(shù)據(jù)其實指涉或反映主體的行為、意識與習慣等,這使得大數(shù)據(jù)法律研究不可避免地牽涉“人”的問題,甚至可能會將作為研究對象的“人”置于相對危險的境地。這樣的倫理問題目前似乎并未引起研究者的注意,對此更應有意識地采取相應的技術處理策略。
(一)致力于獲取全面、多樣的法律數(shù)據(jù)
第一,盡力獲取全面化的法律數(shù)據(jù)。數(shù)據(jù)的官方化,是法律大數(shù)據(jù)不同于商業(yè)性、社會性數(shù)據(jù)的特殊之處,這就決定了法律大數(shù)據(jù)的獲取與應用水平在相當程度上取決于法律機構是否充分、及時公開其收集、掌握的法律信息。所以,法律機構基于共享理念推行數(shù)據(jù)公開機制是法律大數(shù)據(jù)獲取和應用的關鍵之一。前已述及,裁判文書網(wǎng)所收集、整理、統(tǒng)計的數(shù)據(jù)往往并不能稱作“法律大數(shù)據(jù)”,甚至有時數(shù)據(jù)質(zhì)量可能還不如抽樣調(diào)查中的“代表性數(shù)據(jù)”。雖然2016年最高人民法院修訂了《關于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》(法釋[2016]19號),但由于其約束力不強、操作性較弱,事實上并未實現(xiàn)“(除不予公布的)其他裁判文書一律在互聯(lián)網(wǎng)公布”的目標。為了提高司法的公開水平,促進法學實證研究的發(fā)展,法學界需要呼吁最高人民法院進一步健全裁判文書發(fā)布的責任機制,加強對裁判文書不上網(wǎng)的審查力度,大力推動并真正實現(xiàn)裁判文書網(wǎng)絡發(fā)布的“應上盡上”原則,促進裁判文書網(wǎng)不斷由大量數(shù)據(jù)平臺向大數(shù)據(jù)平臺轉(zhuǎn)變。
第二,努力擴展法律數(shù)據(jù)的來源。數(shù)據(jù)是大數(shù)據(jù)法律研究展開的基礎,“只有具備足夠的數(shù)據(jù)源才可以挖掘出數(shù)據(jù)背后的價值”。然而,在法律大數(shù)據(jù)的來源上,目前過度依賴官方尤其是法院的主動發(fā)布,內(nèi)容、渠道存在單一性、有限性等問題。中國法治和中國司法的整體樣貌不可能據(jù)此充分展現(xiàn),司法決策信息更不是裁判文書所能充分顯示的。當前,除了對外公布的法律裁判文書,法律決策過程中的關鍵行為,如形成決策的內(nèi)部討論,往往是高度非文字化、非數(shù)據(jù)化的?!耙环矫?,‘庭審筆錄不是一種公開的法律證明文書’,其亦未實現(xiàn)充分的數(shù)據(jù)化;另一方面,大量的程序過程如警察的偵查過程、檢察院的起訴過程、法院庭審前后的過程也沒有公開的、正式或非正式的文字記錄,更遑論在此基礎之上的數(shù)據(jù)化了?!睘榇耍紫纫貙挿纱髷?shù)據(jù)的領域。只有將檢察機關、公安機關、司法行政機關所收集和制作的、符合公開條件的數(shù)據(jù)全面納入公開范圍,才可能“推動形成有利于平臺互聯(lián)互通、信息共享共用、業(yè)務銜接聯(lián)動的體制機制”,進而實現(xiàn)公、檢、法、司的相關數(shù)據(jù)接駁、聯(lián)通共享,提高法律大數(shù)據(jù)的集成化水平。其次,要豐富法律大數(shù)據(jù)的類別與內(nèi)容。其他類型的訴訟文書(或材料),如庭前會議筆錄、庭審筆錄、案卷材料等,尚未成為法律大數(shù)據(jù)的來源。檢察機關雖然公布了部分訴訟文書,但存在數(shù)量少、不全面以及可獲得性較差等問題。一些相當重要的司法數(shù)據(jù),如檢察機關的批捕、公訴與抗訴等數(shù)據(jù),并未充分公開。隨著語音識別、文本抓取等人工智能技術在實踐中的運用得到普及,對更多訴訟活動進行電子記錄、數(shù)據(jù)提取,將一些“僵尸數(shù)據(jù)”轉(zhuǎn)化為可計量、可使用的統(tǒng)計數(shù)據(jù)已成為可能。因此,未來應將視野拓展到裁判文書和司法統(tǒng)計之外的信息,更加重視對起訴書、庭審筆錄等記錄訴訟活動與程序的結構化數(shù)據(jù)、非結構化數(shù)據(jù)的收集和整理,尤要思考如何將實踐中大量的非結構化數(shù)據(jù)、半結構化數(shù)據(jù)轉(zhuǎn)化為有價值、可運用的結構化數(shù)據(jù),確保大數(shù)據(jù)的有效性、有用性。另外,電子卷宗的推廣、證據(jù)標準判斷的數(shù)據(jù)化,也為更多地使用裁判文書以外的其他數(shù)據(jù)來源提供了重要機遇。這有助于我們獲得裁判文書網(wǎng)以外的豐富材料,進而助力開展更為多元的研究。只有當法官乃至所有法律行動者的行為模式與決策信息充分數(shù)據(jù)化時,法律大數(shù)據(jù)才能真正被稱為“大數(shù)據(jù)”。
第三,重視和利用好當下的大量數(shù)據(jù),包括區(qū)域性的全樣本數(shù)據(jù)。受制于各種客觀條件,大量數(shù)據(jù)而非大數(shù)據(jù)可能是研究者在很長一段時間內(nèi)所面臨的窘境。但大量數(shù)據(jù)也是法學研究的重要材料,值得高度重視與充分利用。為此,一方面,要避免數(shù)據(jù)樣本帶來的數(shù)據(jù)偏誤,特別是系統(tǒng)性偏差。了解現(xiàn)有數(shù)據(jù)公布的偏差情況,是利用好已有的數(shù)據(jù)材料,尤其是裁判文書網(wǎng)所公布的裁判文書的前提所在。例如,由于不同案件公開的比例差異,在進行裁判文書的數(shù)據(jù)挖掘時,刑事類的分析所包含的數(shù)據(jù)偏誤就天然小于民事類;一般刑事案件的分析就優(yōu)于貪腐類犯罪;離婚糾紛由于大量采用調(diào)解的方式結案,而調(diào)解文書通常不予公開,這就決定了有關婚姻類的大數(shù)據(jù)挖掘報告需要謹慎對待?;跀?shù)據(jù)本身的局限性,在利用裁判文書網(wǎng)進行研究時,可以適當縮小研究范圍,并限定研究對象,確保在有限的數(shù)據(jù)條件下盡可能地收集、獲取某領域或某類別相對完整、具有一定代表性的真實數(shù)據(jù)。此外,還可運用諸如“貝葉斯方法”和“大數(shù)定律”等數(shù)理統(tǒng)計方法對現(xiàn)有數(shù)據(jù)進行推斷,從而正確識別并驗證數(shù)據(jù)的代表性。另一方面,重視區(qū)域性的全樣本法律大數(shù)據(jù)。我國疆域遼闊,不同地域之間的人文、地理環(huán)境差異巨大,收集全國范圍內(nèi)的全樣本(或近似于全樣本)數(shù)據(jù)無疑具有相當難度,如果轉(zhuǎn)而收集若干具有代表性的區(qū)域性全樣本數(shù)據(jù),則可以提高數(shù)據(jù)收集的成功率。
(二)探索并深入展開大數(shù)據(jù)法律研究的科學方式
第一,探索新型、專門的大數(shù)據(jù)獲取、分析技術,并充分運用于大數(shù)據(jù)法律研究。“基于大數(shù)據(jù)技術而獲取的數(shù)據(jù),已經(jīng)不同于社會科學研究中普遍使用的隨機數(shù)據(jù)”,因而,“在統(tǒng)計推斷等方面需要因應調(diào)整”。在大數(shù)據(jù)挖掘、整理、分析方面,目前已經(jīng)有較為成熟的統(tǒng)計方式和數(shù)據(jù)科學方式,而與統(tǒng)計學相關但又頗為不同的機器學習方法也已崛起并運用于大數(shù)據(jù)分析之中。如何甄別大數(shù)據(jù)的有效性、真實性,如何分析、判斷數(shù)據(jù)之間的相關性與因果關系,還應有更多的方法與技術。在目前的大數(shù)據(jù)法律研究領域,數(shù)據(jù)挖掘依然主要通過正則表達式的方式。該方式在處理高度規(guī)整的文書表達時具有很強的準確性,如從海量文書中自動提取辯護人的數(shù)量、身份等表述高度一致的數(shù)據(jù)。然而,正則表達式在面臨高度多元化的表達時,由于無法窮盡表述,就多少顯得力不從心。例如,“自首”也許在文書中并不會以“自首”的關鍵詞出現(xiàn),而是以“家屬扭送”等諸多樣態(tài)的語詞呈現(xiàn),此時就需要用自然語義識別技術(NLP)。這類技術在法學領域才剛剛起步,主要出現(xiàn)在大數(shù)據(jù)與人工智能的司法實踐中,還較少被應用于法律大數(shù)據(jù)的研究中。
專門的數(shù)據(jù)分析機構具有得天獨厚的技術與人才優(yōu)勢,法律研究者和司法部門必須思考如何更好地借助專門數(shù)據(jù)分析機構和人工智能科技公司的優(yōu)勢,充分挖掘、分析與利用數(shù)據(jù)。中國電子信息產(chǎn)業(yè)發(fā)展研究院在2017年發(fā)布的《中國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展水平評估報告》中指出,“我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展將迎來‘黃金期’,產(chǎn)業(yè)聚集將進一步特色化發(fā)展,技術融合創(chuàng)新將更加深入”。法律研究者也應搭乘大數(shù)據(jù)發(fā)展的“快車”,充分發(fā)揮專門的大數(shù)據(jù)獲取、分析技術的作用。這些技術往往既非傳統(tǒng)法律實證研究的方法,也不全是當下分析小數(shù)據(jù)所運用的統(tǒng)計方法,而是數(shù)學與計算機內(nèi)容交叉、不斷發(fā)展進化的、以機器學習為主的新型方法。當然,研究者也需要注重對技術的深度學習與直接使用,努力做到自己掌握、使用現(xiàn)有技術工具進行數(shù)據(jù)收集、挖掘與分析。
第二,充分利用數(shù)據(jù)進行深度分析。簡單的描述性統(tǒng)計分析方法在面對海量數(shù)據(jù)時顯得力不從心,特別是當大數(shù)據(jù)獲取的信息本身就“漫無邊際”“支離破碎”而“根本不可能直接用于任何量化分析時”更是如此。為了提升大數(shù)據(jù)的利用水平與分析效能,需要將小數(shù)據(jù)社科研究中已普遍運用和相對成熟的數(shù)據(jù)分析方法,如列聯(lián)表分析、相關性分析、回歸分析與統(tǒng)計學中處理高維數(shù)據(jù)的方法等,運用到大數(shù)據(jù)分析中,熟練運用SPSS、SAS等統(tǒng)計分析軟件深度挖掘隱藏在法律大數(shù)據(jù)之中的寶藏?!爸挥型ㄟ^對數(shù)據(jù)的大量輸入并加上復雜運算,讓數(shù)據(jù)不斷產(chǎn)生又不斷拆分、整合,融合生成新的產(chǎn)品,然后輸出、使用,才能形成‘數(shù)據(jù)生產(chǎn)信息,信息改善決策’,這正是大數(shù)據(jù)發(fā)揮作用的基本原理?!笨紤]到大數(shù)據(jù)分析的重要性,必須思考如何在中短期內(nèi)提升大數(shù)據(jù)深度分析水平。當然,大數(shù)據(jù)法律研究在多大程度上真正需要運用以及如何運用統(tǒng)計學之外的其他分析方法,還有待進一步思考與探索。此外,面對法律大數(shù)據(jù)在數(shù)量、內(nèi)容上的急遽增加,特別是面對“來源更加廣泛,數(shù)據(jù)粒度更小,記錄單元更加碎片化,結構更加多元化”的大數(shù)據(jù),現(xiàn)有的分析工具和統(tǒng)計手段可能無法滿足處理需求,此時就要借助人工智能。通過將人工智能與法律大數(shù)據(jù)結合,對巨量數(shù)據(jù)進行智能篩選與算法分析,從而提升海量數(shù)據(jù)的分析效能。
隨著數(shù)據(jù)來源以驚人的速度擴展,人們會逐漸加深對大數(shù)據(jù)的依賴,也需要保持對大數(shù)據(jù)及其相關技術的超脫。一方面,大數(shù)據(jù)的分析手段如人工智能的算法本身就面臨諸多“技術陷阱”,甚至被一些研究者認為是在黑箱中運作,因此必須警惕其潛在風險。另一方面,特別“要防止為技術所裹挾,避免成為簡單的技術主義者”。只有如此,才能保持“人文社會科學工作者的思想高度、理論品格和價值定位”,進而產(chǎn)出更有溫度的優(yōu)秀成果。
第三,推動研究的團隊化與多學科的交叉融合,并致力于培養(yǎng)復合型大數(shù)據(jù)法學人才。以往的法律實證研究注重研究者的專業(yè)性和個體性,表現(xiàn)為研究者獨自收集資料、分析問題、撰寫文章,個人的冥思與獨創(chuàng)發(fā)揮著主要作用。在小數(shù)據(jù)研究中,這種模式能基本勝任。但大數(shù)據(jù)法律研究時常所處理的是海量雜亂數(shù)據(jù),這“意味著人類的記錄范圍、測量范圍和分析范圍在不斷擴大,知識的邊界在不斷延伸”。大數(shù)據(jù)時代的到來,“提供了人文社會科學學者大規(guī)模協(xié)作的可能”,也使之成為一種必要。在大數(shù)據(jù)法律研究及相關人工智能應用研究中,無論是數(shù)據(jù)的收集、整理,還是其分析、運用,都需要研究者具有多學科的知識與經(jīng)驗,如數(shù)據(jù)挖掘就涉及數(shù)據(jù)庫技術、機器學習、模式識別、知識庫工程、神經(jīng)網(wǎng)絡、數(shù)理統(tǒng)計、信息的可視化等眾多領域,知識結構單一的研究者甚至研究團隊,往往難以應對。為了更好地開展大數(shù)據(jù)法律研究,法學研究者需要通過加強團隊建設,特別是加強與計算機科學、軟件科學、統(tǒng)計學等相關學科的專業(yè)人士以及大數(shù)據(jù)、人工智能科技公司之間的合作,以更好地應對大數(shù)據(jù)法律研究帶來的機遇與挑戰(zhàn)。同時,大數(shù)據(jù)法律研究者自身更需要突破知識儲備、學術理念、價值方面的障礙,學習、掌握和應用統(tǒng)計學、數(shù)據(jù)科學的知識與研究方法。就此而言,面向未來的大數(shù)據(jù)法律研究復合型人才培養(yǎng)極為重要。目前,國內(nèi)一些高校已經(jīng)相繼開設了大數(shù)據(jù)課程。未來,具備資源優(yōu)勢和技術條件的院??梢灾贫ā按髷?shù)據(jù)——法學復合型人才培養(yǎng)計劃”,系統(tǒng)培養(yǎng)既懂技術又懂法律的復合型人才,為大數(shù)據(jù)法律研究與實踐儲備更多生力軍。
第四,長期以來,基于小數(shù)據(jù)的法律實證研究一直是主流研究方式,有其重大學術價值。大數(shù)據(jù)研究在數(shù)據(jù)不足、方法把握不夠的情況下,如何確保研究的科學性呢?對此,將小數(shù)據(jù)研究和大數(shù)據(jù)研究相結合應該是重要思路。具體而言,一是要在同一研究中就同一問題既應用大數(shù)據(jù)研究,也開展小數(shù)據(jù)研究,共同驗證研究結論;二是在大數(shù)據(jù)研究中適當使用小數(shù)據(jù)研究的精細化思路與方法,把大數(shù)據(jù)研究細致化,從而提升大數(shù)據(jù)法律研究的科學性。
總之,身處大數(shù)據(jù)時代,我們正無時不刻不受到大數(shù)據(jù)廣泛而深刻的影響。這不僅為大數(shù)據(jù)法律研究的發(fā)展提供了空前機遇,也是傳統(tǒng)法律實證研究乃至法學研究范式升級轉(zhuǎn)型的一個重要契機。立足眼下,更為要緊的工作可能是正視并努力突破大數(shù)據(jù)法律研究所面臨的困境與羈絆。要正確理解法律大數(shù)據(jù),科學、有效地開展大數(shù)據(jù)法律研究,開發(fā)大數(shù)據(jù)法律研究獨特的技術與方法,提升數(shù)據(jù)獲取與分析技術,注重培養(yǎng)復合型的研究人才。