本文介紹了幾篇關(guān)于大型語言模型和大型視覺語言模型中幻覺問題的論文。其中包括評估大型模型的事實一致性、在大型視覺語言模型中評估目標(biāo)幻覺、HaluEval:一個大規(guī)模的幻覺評估基準(zhǔn)以及基于推理任務(wù)的大型語言模型產(chǎn)生幻覺的來源。這些論文提出了一些新的方法和評估標(biāo)準(zhǔn),可以更好地評估和解決大型語言模型中的幻覺問題。
建立一個新的用于比較模型對“真實一致的”和“真實不一致的”摘要之分的基準(zhǔn)數(shù)據(jù)集。此論文的基準(zhǔn)數(shù)據(jù)集被稱為FIB,包含了人工編寫的真實一致摘要和手動注釋的真實不一致摘要。FIB數(shù)據(jù)集包括三個部分:文章內(nèi)容、真實一致摘要和真實不一致摘要。
利用大型語言模型,評估其生成結(jié)果的真實一致性。此論文采用GPT-2和T5這兩種廣泛使用的大型語言模型,分別用于產(chǎn)生文章的摘要。
對大型語言模型進(jìn)行測試。通過對FIB數(shù)據(jù)集進(jìn)行測試,比較大型語言模型生成摘要的真實一致性。作者在測試過程中考慮了摘要的準(zhǔn)確性和一致性等因素,以判斷摘要的真實一致性,并對結(jié)果進(jìn)行評估和分析。
分析大型語言模型的表現(xiàn)。此論文利用BLEU、ROUGE和BERTScores等指標(biāo)來比較大型語言模型的性能,并根據(jù)不同條件下的實驗結(jié)果對大型語言模型進(jìn)行評估和分析。通過實驗發(fā)現(xiàn),大型語言模型在處理真實一致的摘要上表現(xiàn)更優(yōu),但如果輸入文本中出現(xiàn)真實不一致的內(nèi)容,大型語言模型可能會更加傾向于生成真實不一致的摘要。
GitHub鏈接:https://github.com/r-three/fib
論文鏈接:https://arxiv.org/abs/2211.08412.pdf
文章研究的背景是針對大型視覺語言模型中的目標(biāo)幻覺問題。這是指模型根據(jù)生成的文本描述生成不一致于目標(biāo)圖像的物體的問題。
過去的方法已經(jīng)提出了大量的視覺語言模型,但都未對目標(biāo)幻覺問題進(jìn)行系統(tǒng)研究。此論文提出了一種系統(tǒng)的研究方法,主要是通過評估來發(fā)現(xiàn)和解決模型中的幻覺問題。通過設(shè)計新的評估方法,可以發(fā)現(xiàn)具體哪些目標(biāo)容易出現(xiàn)幻覺,并且可以更加穩(wěn)定和靈活地評估幻覺問題。
文章提出了一種基于投票的查詢方法(POPE)來評估大型視覺語言模型中的目標(biāo)幻覺。具體方法是首先生成一組幻覺候選物體,然后分別用其他模型投票來對每個候選物進(jìn)行評估,最終確定是否出現(xiàn)幻覺。
該方法在多個代表性的大型視覺語言模型上進(jìn)行了實驗,得到的結(jié)果表明這些模型大多數(shù)都存在嚴(yán)重的幻覺問題,并且新的評估方法可以更好地評估幻覺問題。這說明此論文提出的方法可以有效地解決大型視覺語言模型中的目標(biāo)幻覺問題。
GitHub鏈接:https://github.com/RUCAIBox/POPE
論文鏈接:https://arxiv.org/abs/2305.10355.pdf
此論文采用了ChatGPT模型生成大量的帶幻覺信息的數(shù)據(jù)集,并使用人工標(biāo)注這些數(shù)據(jù)集,對大型語言模型(LLMs)識別幻覺的表現(xiàn)進(jìn)行評測。
此論文提出了一個基于ChatGPT模型的兩步框架(抽樣-過濾法)生成幻覺數(shù)據(jù)集。第一步是采用一次性或?qū)υ捠降姆绞浇oChatGPT模型下發(fā)幻覺指令,第二步是通過一個過濾算法來周期性地篩選生成的結(jié)果。
針對任務(wù)特定領(lǐng)域,此論文采用一種自動的方式生成幻覺樣本。該方法包括兩個步驟:多樣化幻覺抽樣和高質(zhì)量幻覺過濾。其中,多樣化幻覺抽樣又采用了一次性和對話式兩種不同的方式,使得每個問題都能生成多種幻覺答案。在這之后,此論文使用一種算法來對產(chǎn)生的結(jié)果進(jìn)行高質(zhì)量過濾選擇最真實,最有挑戰(zhàn)性的樣本。
此論文提出的HaluEval基準(zhǔn)系統(tǒng)包含大量數(shù)據(jù)集,采用了人工標(biāo)注和自動生成相結(jié)合的方法,能夠用來分析生成幻覺在特定的主題和任務(wù)關(guān)注點中有何特點,并能夠研究LLMs處理幻覺的能力與方法。
此論文采用了多個現(xiàn)有的強大的LLMs(比如ChatGPT,GPT-3)來對HaluEval進(jìn)行評估和分析。研究發(fā)現(xiàn),ChatGPT模型對于某些特定主題很有幻覺傾向,并且現(xiàn)有的LLMs在辨別幻覺信息時面臨著很大的挑戰(zhàn)。但是,在外部知識和推理步驟的加入下,LLMs對于幻覺信息的辨別能力得到了很大提升。
GitHub鏈接:https://github.com/RUCAIBox/HaluEval
論文鏈接:https://arxiv.org/abs/2305.11747.pdf
此論文研究了當(dāng)前大型語言模型在自然語言推理(NLI)任務(wù)中產(chǎn)生幻覺的問題;
過去的研究方法普遍缺乏對大型語言模型推理能力的實證研究,存在著難以解釋的偏見和魯棒性問題,并且缺乏能夠獲得廣泛共識的結(jié)果。此論文基于大量受控實驗對大型語言模型進(jìn)行了行為研究,提出了兩個主要因素,解釋了推理幻覺的產(chǎn)生原因,并提出了一種基于行為研究的可解釋方法;
此論文提出了一種基于方向推理數(shù)據(jù)集的行為研究方法,結(jié)合多個大型語言模型進(jìn)行了實驗并分析了它們的推理行為,從而得出兩個主要因素,即模型對訓(xùn)練數(shù)據(jù)的記憶和語料庫的統(tǒng)計模式,用于解釋為什么大型語言模型會產(chǎn)生幻覺;
此論文通過行為研究發(fā)現(xiàn)了大型語言模型在方向推理任務(wù)上的表現(xiàn)問題,提出了兩個主要因素,這些因素解釋了大型語言模型產(chǎn)生假陽性幻覺的原因。此論文最后測試了幾個大型語言模型在推斷任務(wù)上的表現(xiàn),并展示了這些模型仍然使用非人類推理方法,在測試集上存在較大差距。
GitHub鏈接:https://github.com/Teddy-Li/LLM-NLI-Analysis
論文鏈接:https://arxiv.org/abs/2305.14552.pdf