亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著人工智能技術的飛速發展,大語言模型已在眾多領域得到了廣泛應用。然而,大語言模型可能 會生成不準確、有誤導性甚至有害的內容,這引發了人們對大語言模型可靠性的擔憂,采用對齊技術來確保 大語言模型的行為與人類價值觀一致已經成為一個亟待解決的問題。對近年來大語言模型對齊技術的研究進 展進行綜述。介紹了常用的指令數據收集方法和人類偏好數據集,概述了監督調整和對齊調整的相關研究, 討論了模型評估常用的數據集和方法,總結并展望了未來的研究方向。

近年來,大語言模型(如 OpenAI 的 Chat‐ GPT)[1] 的迅猛發展引發了人們對人工智能的濃 厚興趣和高度期望,同時也引發了人們的廣泛探 討。大語言模型不僅展現出卓越的自然語言處理 能力,還在數學、推理和編程等多個領域中接近 甚至超越普通人類的水平[2] 。這些成就主要得益于大語言模型在超大規模的文本語料庫上的預訓 練,這使它們積累了海量的世界知識,并能基于 這些知識生成連貫和流暢的文本輸出。盡管大語 言模型已在眾多領域得到了廣泛應用,但它們在 生成內容時仍可能存在不準確、有誤導性甚至包 含有害信息的風險,這引發了人們對大語言模型 可靠性的擔憂。 當前,研究人員正在積極探索如何確保大語 言模型的行為與人類價值觀一致。對齊是指通過 調整和優化大語言模型的決策過程,以確保其輸 出不僅準確無誤,而且遵循道德規范、沒有偏 見,并且能反映出社會普遍認可的價值觀和倫理 標準。對齊的目的在于創建一個既能理解和生成 人類語言的模型,又能在其決策中體現出對公 平、透明和責任的重視,減少可能產生的負面影 響,如傳播虛假信息或有害內容。然而在對大語 言模型進行對齊調整及后續評估過程中仍面臨著 以下挑戰。 (1)數據質量和多樣性問題 調整大語言模型需要大規模和高質量的指令 數據集,這可以確保模型在各種場景下都擁有良 好的表現。訓練數據的質量和多樣性會直接影響 大語言模型回復的準確性,但為模型調整階段收 集高質量的訓練數據十分困難且代價高昂。 (2)訓練策略問題 在大語言模型的對齊調整階段,為模型制定 合適的訓練策略至關重要。這一階段通常采用強 化學習算法來為模型注入人類偏好,但這類算法 常常會面臨穩定性和可靠性方面的挑戰,這可能 會導致模型在面對不同場景時的表現有所差異。 (3)缺乏評估標準和指標問題 由于大語言模型的多功能性和廣泛的應用領 域,目前大語言模型缺乏通用的評估標準和指 標。大語言模型在不同任務和應用中可能需要不 同的指標,例如,對于語言生成類任務,模型的 流暢性、多樣性和信息準確性可能是關鍵指標; 而對于文本分類任務,人們則更關注模型的準確 率、召回率等傳統性能指標,這進一步增加了模 型評估的復雜性。此外,大語言模型在不同應用 場景下可能呈現出截然不同的表現,這也給評估 工作帶來了挑戰。 研究人員為解決這些問題進行了大量研究。 對于數據質量和多樣性問題,研究人員提議利用 現有的自然語言處理(natural language process‐ ing,NLP)基準、人類標注和目前性能較先進的 大語言模型(如ChatGPT[1] 和GPT-4[3] )來生成大 規模和高質量的指令數據。對于訓練策略問題, 目前的解決方案主要涉及優化訓練方法,在注入 人類偏好時提高模型訓練的效率和穩定性。目前 研究人員已經提出了基于強化學習和獎勵模型的 訓練方法,如人類反饋強化學習(reinforcement learning from human feedback,RLHF)[4] ,這可 以有效地將人類偏好與大語言模型整合。還有研 究將人類偏好視為基于排名的訓練數據進一步增 強訓練的穩定性和性能。對于缺乏評估標準和指 標的問題,目前研究人員已提出了針對大語言模 型的評估基準和專門用于評估大語言模型的大 模型。

付費5元查看完整內容

相關內容

表格數據作為各個領域中廣泛存在的數據類型,由于其異質性和復雜的結構關系,帶來了獨特的挑戰。在表格數據分析中實現高預測性能和魯棒性,對眾多應用具有重要意義。受自然語言處理領域近期進展的影響,特別是Transformer架構的影響,表格數據建模的新方法不斷涌現。早期技術集中在從頭開始訓練Transformers,但往往遇到可擴展性問題。隨后,利用預訓練語言模型(如BERT)的方法得到了發展,這些方法需要較少的數據,并且表現出更好的性能。最近,隨著大型語言模型(如GPT和LLaMA)的出現,這一領域發生了進一步的革命,使得僅需最少微調便可實現更先進和多樣的應用。

盡管人們對此領域的興趣日益增長,但關于表格數據語言建模技術的全面綜述仍然缺乏。本文填補了這一空白,系統回顧了表格數據語言建模的發展,內容包括:(1) 不同表格數據結構和數據類型的分類;(2) 模型訓練中使用的關鍵數據集和評估任務的回顧;(3) 建模技術的總結,包括廣泛采用的數據處理方法、流行架構和訓練目標;(4) 從傳統的預訓練/預訓練語言模型到大型語言模型的演變;(5) 識別表格數據分析中語言建模的持續挑戰和潛在的未來研究方向。與本綜述相關的GitHub頁面可訪問://github.com/lanxiang1017/Language-Modeling-on-Tabular-Data-Survey.git。 關鍵詞: 語言建模, 表格數據, 預訓練語言模型, 大型語言模型

表格數據由具有一致特征集的行組成,是現實世界中最常見的數據類型之一,廣泛應用于不同領域[1, 2]。在某些關鍵領域[3-5],實現高預測性能和魯棒性可以帶來顯著的利益。然而,由于表格數據的復雜結構,進行有效分析具有一定挑戰性。例如,表格數據中的一個樣本可以是表格中的單行(1D表格數據),也可以是一組表格中的完整表格(2D表格數據)。此外,表格數據通常具有廣泛的異質特性[6],如數值型、分類型和文本元素等多種數據類型。同時,表格中的列與行之間往往存在復雜的關系。 在過去的幾十年中,自然語言處理(NLP)領域的語言建模取得了顯著的進展,特別是Transformer架構的出現。在表格建模的背景下,早期研究主要集中于使用NLP技術處理表格數據,如嵌入機制、預訓練方法和架構修改。這些工作主要涉及從頭開始為表格數據預訓練基于Transformer的模型,這需要大量的數據,在某些領域(如醫療[7, 8])中可能不切實際。雖然這些方法在某些場景中有效,但往往面臨可擴展性和效率方面的挑戰。同時,一些研究者利用預訓練語言模型(PLMs)(如BERT [9])對表格數據進行建模。這些基于PLM的模型需要較少的訓練數據,同時提供了更優越的預測性能。這表明,在特定任務的表格數據集上調整和重用預訓練語言模型的有效性[10]。

最近,大型語言模型(LLMs)的出現進一步改變了這一領域的格局。諸如GPT [11]和LLaMA [12]等模型展示了卓越的能力,在多種任務中實現了最先進的結果,且僅需少量微調。這些模型在少樣本和零樣本學習場景中表現出色,能夠在幾乎無需額外訓練數據的情況下執行復雜任務。這一發展為在表格數據中利用LLMs進行更高級和多樣化的應用開辟了新的途徑[13]。這一從從頭訓練模型或使用PLMs到采用LLMs的演變,標志著表格數據語言建模中的一個重大范式轉變。

盡管對從表格數據中提取廣泛知識的興趣日益濃厚,但研究社區中缺乏一個全面的綜述,能夠清晰地整理現有的表格數據語言建模方法,概述技術趨勢,識別挑戰,并提出未來的研究方向。為填補這一空白,本文通過對表格數據語言建模的系統回顧,提供了一次全面的綜述。本文旨在在這一范式轉變的關鍵時刻,對表格數據語言建模的發展進行全面的總結和分類,展示這一前景廣闊的研究領域的全貌。 總而言之,本綜述的主要貢獻有三點。首先,本文首次將表格數據分類為1D和2D數據格式。與現有綜述只關注用于傳統任務(如推理和數據生成)的1D表格數據[14, 15]或專注于更復雜任務(如信息檢索和表格理解)的2D表格數據[16, 17]不同,本文首次對兩種類型的表格數據的任務和數據集進行系統回顧。其次,本文回顧了表格數據語言建模技術的最新進展,并提供了詳盡的分類。第三,本文強調了表格數據語言建模中的各種研究挑戰和潛在的探索方向。

本文的結構如圖2所示。首先,我們在第2節介紹了表格數據的基礎,提供了四個主要部分的全面概述:數據結構(第2.1節)、數據類型(第2.2節)、下游任務(第2.3節)和數據集(第2.4節)。我們解釋了最近研究關注的兩種主要表格數據結構:1D和2D表格數據。同時,我們討論了表格領域中的不同數據類型。接下來,我們詳細描述了八大主要下游任務:表格問答(第2.3.1節)、表格檢索(第2.3.2節)、表格語義解析(第2.3.3節)、表格元數據預測(第2.3.4節)、表格內容填充(第2.3.5節)、表格預測(第2.3.6節)、表格事實核查(第2.3.7節)和表格生成(第2.3.8節)。隨后,我們概述了一些常用的數據集及其關鍵特性,這些數據集與不同的下游任務相關聯。

接下來,我們呈現了對近期研究的分類,總結了表格數據語言建模技術,并將其分為三個關鍵領域:輸入處理(第3.1節)、中間模塊(第3.2節)和訓練目標(第3.3節)。具體而言,輸入處理專注于將原始表格數據轉換為適合語言模型的格式。我們進一步將輸入處理技術分為具體的子類別:數據檢索(第3.1.1節)、表格序列化(第3.1.2節)和上下文整合(第3.1.3節)。在中間模塊中,我們討論了兩個組成部分:位置編碼(第3.2.1節)和注意力機制(第3.2.2節),這些組件經過修改以在表格領域中實現更好的預測性能。此外,我們討論了訓練目標,它在幫助語言模型學習語義信息方面起著關鍵作用。 隨后,我們分析了語言模型在表格領域的演變(第4節)。首先,我們描述了早期從頭預訓練和使用PLM的適應性及其優勢,特別是Transformer的引入(第4.1節)。然后,我們回顧了LLMs在表格數據建模中的最新進展,并強調了它們與以往方法的不同之處(第4.2節)。 最后,我們在第5節中指出了表格數據語言建模中的若干挑戰和未來的機遇,并在第6節總結了本文的內容。

付費5元查看完整內容

機器學習技術不斷發展,在許多領域都有廣泛的應用并展現出超出人類本身的能力。但機器學習方法利用不 當或決策存在偏差,反而會損害人們的利益,特別是在一些敏感安全需求高的領域,如金融、醫療等,人們越來越 重視機器學習的可信研究。目前,機器學習技術普遍存在一些缺點,如對代表性不足的群體存在偏見、缺乏用戶隱 私保護、缺乏模型可解釋性、容易受到威脅攻擊等。這些缺點降低了人們對機器學習方法的信任。盡管研究者已針 對這些不足進行了深入探索,但缺乏一個整體的框架與方法系統地提供機器學習的可信分析。因此本文針對機器學 習的公平性、可解釋性、魯棒性與隱私 4 個要素歸納總結了現階段主流的定義、指標、方法與評估,然后討論了各 要素之間的關系,并結合機器學習全生命周期構建了一個可信機器學習框架。最后,給出了一些目前可信機器學習 領域亟待解決的問題與面臨的挑戰。 機器學習是人工智能領域的一個重要分支,是 對通過學習經驗數據提高計算機系統或算法性能以 適應各種環境和任務的研究[1]。該方法作為當今發 展速度最快的技術之一,受到了學界和業界的廣泛 關注與認可,在各行各業都得到了廣泛的應用[2], 在圖像識別、自然語言處理、數據挖掘與預測等關 鍵任務上都展現出了超越人類的能力[3]。隨著機器 學習在大眾生活中的不斷滲入與廣泛應用,人們越 發依賴其做出的關鍵決策。但如果機器學習方法利 用不當或給出決策存在偏差,反而會損害人們的利益。因此機器學習的可信賴性越發受到人們的重 視,以公平性、可解釋性、魯棒性和隱私為要素的 機器學習可信特征越發成為熱門研究領域[4-5]。 機器學習的全生命周期可以分為預處理 (preprocessing) 、中間處理 (in-processing) 和后處理 (post-processing) 3 個階段[6]。預處理階段主要是對 訓練數據進行管理,如數據收集、數據預處理等; 中間處理階段主要是對模型或算法進行選擇、調整 和優化;后處理階段主要是對測試模型和數據的處 理,如模型泛化性驗證、模型輸出結果校準等。 在不同的階段,機器學習可信特征對應的問題 和方法也不盡相同。例如,公平性中消除偏差機制 在預處理階段表現為消除原始訓練數據中敏感特征 信息;在中間處理階段表現為在機器學習模型中添 加約束或正則項;在后處理階段表現為校準機器學 習算法輸出結果[7-9]。可解釋性大致可以分為事前 (ante-hoc) 可解釋性和事后 (post-hoc) 可解釋性[10]。 事后可解釋性在預處理階段表現為對模型輸入的解 釋,如數據提取邏輯解釋等;在中間處理階段表現 為對模型本身的解釋,如模型結構和參數信息解釋 等;在后處理階段表現為對模型輸出的解釋,如模 型診斷、特征評估等。隱私中隱私泄漏問題在預處 理階段表現為收集大量訓練數據導致的直接隱私泄 露;在中間處理階段表現為模型泛化能力欠缺導致 的間接隱私泄漏[11]。 目前,對機器學習可信特征 4 種要素的研究存 在很多能夠改進完善的空間,且缺乏一種統一的用 于評估機器學習模型可信度的標準和系統[4, 12]。本文 旨在歸納整理目前可信機器學習的研究現狀,明確 可信特征各要素的定義、分類與應用,構建一種統 一的可信機器學習階段評估模型,為后續可信機器 學習相關研究提供研究思路和方向。

付費5元查看完整內容

近年來,我們見證了大型語言模型(LLM)的快速發展。基于強大的LLM,多模態LLM(MLLM)將模態從文本擴展到更廣泛的領域,因其廣泛的應用場景而引起廣泛關注。由于LLM和MLLM依賴大量的模型參數和數據來實現突現能力,數據的重要性正受到越來越廣泛的關注和認可。追蹤和分析最近針對MLLM的數據導向工作,我們發現模型和數據的發展并不是兩條獨立的路徑,而是相互關聯的。一方面,更大量和更高質量的數據有助于MLLM的更好表現;另一方面,MLLM可以促進數據的發展。多模態數據和MLLM的共同發展需要明確以下幾點:1)在MLLM的哪個發展階段可以采用哪些以數據為中心的方法來增強哪些能力,2)通過利用哪些能力和扮演哪些角色,模型可以對多模態數據作出貢獻。為了促進MLLM社區的數據-模型共同發展,我們系統地回顧了現有與MLLM相關的工作,從數據-模型共同發展的視角進行分析。本調查相關的一個定期維護的項目可以在 //github.com/modelscope/data-juicer/blob/main/docs/awesome llm data.md 訪問。

近年來,大型語言模型(LLM)在廣泛的任務中展示了令人印象深刻的性能,并且相關技術取得了顯著的進展。由于人類的感官不僅限于文本模態,多模態LLM(MLLM)逐漸進入視野,例如能夠處理超越文本模態輸入或輸出的Gemini-1.5 [1] 和 Sora [2],以及能夠在輸入和輸出之間進行多模態交互的GPT-4o [3] 和 NExT-GPT [4]。在過去兩年中,MLLM受到廣泛關注。正如圖1所示,自2023年初以來,與MLLM相關的研究正在以越來越快的速度涌現。 MLLM的卓越性能源于LLM在參數數量擴大帶來的解決一系列任務的突現能力[5]。許多研究表明,擴大模型規模需要更加海量的數據來補充[6], [7], [8],例如擴展法則[9], [10]。具體而言,研究表明,多模態模型需要指數級更多的數據才能在下游任務中實現線性零樣本改進[11]。鑒于此,一系列工作將重點從僅僅關注模型架構和訓練技術轉移到數據中心方法,專注于高質量數據的策劃[12], [13], [14], [15], [16], [17],以提供進一步釋放大型模型潛力的數據基礎。從圖1可以看出,在現有關注MLLM的論文中,與數據中心方法密切相關的論文也表現出強勁的增長趨勢,并占據了重要的部分。 隨著與MLLM相關的大量技術工作不斷涌現,一些針對MLLM的綜述也逐漸出現[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]。這些綜述主要從模型中心的角度進行,而數據的重要性需要進一步強調。一項最近的綜述將數據中心的視角從單模態擴展到多模態,重點關注現有的數據中心方法,并根據所提出的數據管道階段進行組織[35]。實際上,數據和模型的發展是交織在一起的,而不是分開的。更大數量和更高質量的數據提高了模型性能,而從高質量數據中受益的良好訓練的模型可以進一步改進數據。這減少了人工成本,擴大了數據量,并通過使用需要標注的分割掩碼進行訓練的Segment Anything模型(SAM)[36]的訓練成功展示了這一點。隨著SAM在訓練中的熟練程度提高,它逐漸取代人在標注任務中的角色,從而形成一個改進模型和數據集的循環。這樣的漸進和良性循環促進了MLLM的發展,即受益于高質量數據集的MLLM可以幫助改進訓練數據,反過來進一步增強MLLM。 數據-模型共同發展范式很有前途,但尚未得到充分研究。根據我們的調查,目前還缺乏從數據-模型共同發展視角對MLLM的綜述。現有綜述尚未建立數據中心方法與MLLM能力之間的關系,也沒有清晰闡明MLLM的能力如何幫助構建數據集。實現MLLM數據-模型共同發展的關鍵在于闡明哪些數據方法可以增強每種特定的MLLM能力,以及了解模型可以扮演的角色,以改進多模態數據。因此,本綜述旨在通過綜合回顧回答以下研究問題,推進MLLM的數據-模型共同發展: * RQ1:在MLLM的生命周期中,哪些數據中心方法可以在哪個階段用于增強哪些MLLM能力? * RQ2:模型可以扮演哪些角色以促進不同的數據中心方法,并在每種情況下利用模型的哪些特定能力?

為了回答這兩個關鍵研究問題,我們首先提出一個基于MLLM數據-模型共同發展范式的新分類法。我們將先前的努力分為兩個主要類型:數據對模型的貢獻和模型對數據的互惠貢獻,建立其在MLLM能力中的深層連接。隨后,我們從數據-模型共同發展的視角對現有MLLM工作進行全面審查,揭示了推進數據-模型共同發展范式的巨大潛力,主要歸因于缺乏對數據和模型之間協同作用的專注。基于獲得的見解,我們描繪了若干進步的未來方向,以更好地利用數據和模型之間的互補,從基礎設施到各種自我增強程度的數據-模型共同發展。該綜述的主要貢獻有三點: * MLLM開發的新視角:我們提出了一種新分類法,強調多模態數據與MLLM之間的協同作用,旨在理解和挖掘數據和模型開發的互惠優勢。該分類法系統地基于開發MLLM所需的數據相關技術的層次結構進行組織,為研究人員和開發人員提供了推進MLLM的清晰視角。 * 從數據-模型共同發展視角對MLLM的最新綜述:我們系統地回顧了快速增長的MLLM工作,闡明1)哪些MLLM能力可以通過特定的數據中心方法增強,2)經過良好訓練的模型的能力如何反過來支持數據中心方法。據我們所知,這是第一篇從數據-模型共同發展視角對MLLM進行綜述的論文。 * MLLM未來的路線圖:我們提供了一個進步組織的路線圖,涵蓋若干先進和有前途的子方向,重點關注數據和MLLM之間的內部互動。通過這項工作,我們希望為學術研究人員和工業從業者在MLLM不斷發展的領域提供靈感和指導。

組織結構。本文余下部分的組織如下。第二節提供了背景,包括背景知識、分類法以及與現有相關綜述的定性比較。第三節介紹了擴展MLLM的數據中心方法。第四節總結了提高MLLM可用性的數據中心方法。第五節描述了模型直接幫助策劃MLLM數據集的能力。第六節整理了模型作為數據科學家輔助策劃MLLM數據集的應用。第七節列出了一些公開的MLLM數據集,并標明模型在數據策劃中的參與。第八節討論了MLLM未來發展的路線圖。

付費5元查看完整內容

隨著大語言模型的廣泛應用,針對大語言模型的評估工作變得至關重要。除了大語言模型在下游任務上的表現情況需要評估外,其存在的一些潛在風險更需要評估,例如大語言模型可能違背人類的價值觀并且被惡意輸入誘導引發安全問題等。本文通過分析傳統軟件、深度學習模型與大模型的共性與差異,借鑒傳統軟件測評和深度學習模型評估的指標體系,從大語言模型功能評估、性能評估、對齊評估和安全性評估幾個維度對現有工作進行總結,并對大模型的評測基準進行介紹。最后依據現有研究與潛在的機遇和挑戰,對大語言模型評估技術方向和發展前景進行了展望。

付費5元查看完整內容

智能規劃又叫自動規劃,主要研究在復雜環境下,如何通過自動化的方式生成可行的行動序列,以實現從初始狀態到達目標狀態。大語言模型是指使用大量文本數據訓練的深度學習生成式模型,可以生成自然語言文本或理解語言文本的含義。當前圍繞如何讓大語言模型在強大的常識性知識基礎上獲得生成式智能規劃能力已然成為當下研究的熱潮。本文從大語言模型的視角入手,首先對智能規劃的定義和發展進行概述、簡要介紹了傳統智能規劃的方法;其次基于大語言智能體與智能規劃的緊密關系,介紹了大語言模型的架構和典型的大模型智能體;再次重點圍繞大模型的智能規劃,梳理了規劃語言學習、思維鏈推理、反饋優化和流程自動化共4類規劃方法;最后結合當前的挑戰與困難,介紹大模型進行智能規劃的前沿研究展望。

付費5元查看完整內容

開放領域生成系統在會話人工智能領域(例如生成式搜索引擎)引起了廣泛關注。本文對這些系統,特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性,但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解,幫助改進歸因方法,以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段,因此我們維護了一個倉庫,以跟蹤正在進行的研究,網址為

//github.com/HITsz-TMG/awesome-llm-attributions。

自從由大型語言模型(LLMs)驅動的開放領域生成系統出現以來(Anil等人,2023;OpenAI,2022,2023),解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰(Rawte等人,2023;葉等人,2023;張等人,2023b)。社區通常將這種問題稱為“幻覺”問題,其中生成的內容呈現出扭曲或虛構的事實,缺乏可信的信息來源(Peskoff和Stewart,2023)。這在信息搜索和知識問答場景中尤為明顯,用戶依賴大型語言模型獲取專業知識(Malaviya等人,2023)。

幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的(Penedo等人,2023)。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞,而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后(Ouyang等人,2022),模型仍然可能出現外部幻覺(Bai等人,2022)。為了解決外部幻覺的問題,研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性(Thoppilan等人,2022;Menick等人,2022;Nakano等人,2021)。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從,還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而,歸因的基本挑戰圍繞著兩個基本要求(Liu等人,2023):

考慮到這些要求,我們可以將模型處理歸因的主要方式分為三種類型

  1. 直接模型驅動的歸因:大型模型本身為其回答提供歸因。然而,這種類型經常面臨挑戰,因為回答可能不僅是虛構的,而且歸因本身也可能是虛構的(Agrawal等人,2023)。雖然ChatGPT在大約50.6%的時間里提供正確或部分正確的答案,但建議的參考文獻僅在14%的時間內存在(Zuccon等人,2023)。
  2. 檢索后回答:這種方法根植于明確檢索信息然后讓模型基于這些檢索到的數據進行回答的思想。但檢索并不本質上等同于歸因(Gao等人,2023b)。當模型的內部知識和外部檢索的信息之間的邊界變得模糊時,可能會出現潛在的知識沖突問題(Xie等人,2023)。檢索也可以被用作一種專門的工具,允許模型獨立觸發它,類似于ChatGPT 1中的“使用必應進行瀏覽”。
  3. 生成后歸因:系統首先提供答案,然后使用問題和答案進行歸因搜索。如果需要,答案然后會進行修改并得到適當的歸因。現代搜索引擎,如Bing Chat 2,已經包含了這種歸因方式。然而,研究顯示,從四個生成式搜索引擎生成的內容中,只有51.5%完全得到了引用文獻的支持(Liu等人,2023)。這種歸因方式在高風險專業領域,如醫學和法律中尤其缺乏,研究發現有大量不完整的歸因(分別為35%和31%);而且,許多歸因來自不可靠的來源,51%的歸因被專家評估為不可靠(Malaviya等人,2023)。

超越對文本幻覺的一般討論(Zhang等人,2023b;葉等人,2023;Rawte等人,2023),我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外,我們也涉及了諸如偏見和過度引用的挑戰。我們相信,通過關注這些歸因問題,我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題,鼓勵對這一主題進行更深入的思考。

歸因是指一個實體(如文本模型)生成并提供證據的能力,這些證據通常以引用或參考文獻的形式出現,用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭,確保這些聲明可以從一個基礎語料庫中邏輯推斷出來,使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關(Brin 和 Page, 1998;Page 等人, 1999;Tay 等人, 2022),在這種任務中只有幾個網頁會被返回。然而,歸因的主要目的包括使用戶能夠驗證模型所做的聲明,促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺,以及建立一個結構化的框架來評估支持證據的完整性和相關性,與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人(2021)還提出了歸因于已識別來源(AIS)的評估框架,以評估特定陳述是否由所提供的證據支持。Bohnet 等人(2022)提出了歸因問答,模型在這里接受一個問題,并產生一對配對的回答,即答案字符串及其從特定語料庫,如段落中得到的支持證據。

直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因,一些研究發現生成的文本更加基于事實,并且在下游任務中的表現也有所提升。最近,研究人員發現,大型語言模型在回答特定領域的知識性問題時,不能清楚地提供知識來源或證據(Peskoff 和 Stewart, 2023; Zuccon 等人, 2023)。在大多數情況下,模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題,它提供的證據仍然可能存在錯誤。Weller 等人(2023)嘗試通過提出根據提示方法,將模型生成的文本基于其預訓練數據,發現這種方法可以影響模型的根據性,從而影響信息尋求任務的表現。Anonymous(2023)引入了一個中間規劃模塊,要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖,然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因,可以期望更具解釋性。

**檢索后回答 **

多篇研究論文已經調查了歸因的檢索后回答方法(Chen 等人,2017年;Lee 等人,2019年;Khattab 和 Zaharia,2020年)。SmartBook 框架(Reddy 等人,2023年)提出了一種方法,該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題,并從新聞文章中檢索相關信息。報告按時間線組織,每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題,MixAlign(張等人,2023a)提出了一個框架,該框架結合了自動問題知識對齊和用戶澄清,增強了檢索增強生成模型的性能,并減輕了語言模型的幻覺。此外,SearChain(徐等人,2023年)引入了一個新穎的框架,它將大型語言模型(LLMs)與信息檢索(IR)結合起來,提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法,通過生成全球推理鏈(CoQ)并利用 IR 來驗證答案和提供缺失的知識。

生成后歸因

為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因,一些研究致力于生成后的歸因,這些研究使用搜索引擎或文檔檢索系統,基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性,而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR(高等,2023a)自主識別任何文本生成模型輸出的歸因,并執行后期編輯以糾正不支持的內容,同時努力在最大程度上保留原始輸出。在霍等人(2023)的工作中,材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM,以驗證生成的回應與檢索到的材料之間的一致性,并進行必要的編輯以減少幻覺。陳等人(2023b)介紹了一個全自動化的管道,旨在驗證復雜的政治聲明,這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。

付費5元查看完整內容

摘要: 隨著人工智能的快速發展,從可行的算法中選擇滿足應用需求的算法已經成為各領域亟待解決的關鍵問題,即算法選擇問題。基于元學習的方法是解決算法選擇問題的重要途徑,被廣泛應用于算法選擇研究并取得了良好成果。方法通過構建問題特征到候選算法性能的映射模型來選擇合適的算法,主要包括提取元特征、計算候選算法性能、構建元數據集以及訓練元模型等步驟。首先,闡述基于元學習的算法選擇概念和框架,回顧簡述相關綜述工作;其次,從元特征、元算法和元模型性能指標三方面總結研究進展,對其中典型的方法進行介紹并比較不同類型方法的優缺點和適用范圍;然后,概述基于元學習的算法選擇在不同學習任務中的應用情況;繼而,使用140個分類數據集、9種候選分類算法和5種性能指標開展算法選擇實驗,對比不同算法選擇方法的性能;最后,分析目前存在的挑戰和問題,探討未來的發展方向。 //fcst.ceaj.org/CN/abstract/abstract3212.shtml

人工智能是數據處理與分析的重要技術,為人 們利用數據進行決策和研究提供了有力支撐。在人 工智能的不同領域中,研究人員提出了大量算法,然 而,不同算法在有限數量的問題上具備優越性能,不 存在一個適用于所有問題的可行算法,該現象被稱 為算法的性能互補性(performance complementarity) 現象[1] ,與“沒有免費午餐”(no free lunch)定理相印 證[2] 。算法的性能互補性現象普遍存在于不同領域, 如何為給定問題從大量可行算法中選擇滿足應用需 求的算法成為了各領域面臨的重要挑戰,即算法選 擇問題(algorithm selection problem)[3] 。算法選擇問 題通常采用人工選擇或自動選擇的方法解決。人工 選擇方法通過實驗試錯或依賴專家選擇合適的算 法,然而實驗試錯方法成本較高,專家選擇與專家的 經驗知識相關且靈活性較低[4] 。自動選擇方法通過 設計算法和模型,根據問題的特點自動選擇滿足應 用需求的算法,包括活躍測試(active test)方法、推薦 系統方法以及基于元學習(meta-learning)的方法[5-7] 。 其中基于元學習的方法研究基礎較為深厚,具備開 銷低和靈活度高等優點,成為了解決算法選擇問題 的主要方法[8-9] 。 本文對基于元學習的算法選擇進行綜述總結, 為研究人員了解相關領域的發展現狀提供參考。

付費5元查看完整內容

摘要: 近年來,由于大規模數據集的出現,圖像語義分割技術得到快速發展。但在實際場景中,并不容易獲取到大規模、高質量的圖像,圖像的標注也需要消耗大量的人力和時間成本。為了擺脫對樣本數量的依賴,小樣本語義分割技術逐漸成為研究熱點。當前小樣本語義分割的方法主要利用了元學習的思想,按照不同的模型結構可劃分為基于孿生神經網絡、基于原型網絡和基于注意力機制三大類。基于近年來小樣本語義分割的發展現狀,介紹了小樣本語義分割各類方法的發展及優缺點,以及小樣本語義分割任務中常用的數據集及實驗設計。在此基礎上,總結了小樣本語義分割技術的應用場景及未來的發展方向。

//cea.ceaj.org/CN/10.3778/j.issn.1002-8331.2205-0496

付費5元查看完整內容

//cea.ceaj.org/CN/abstract/abstract39198.shtml

近年來,深度學習技術被廣泛應用于各個領域,基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態,在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹,并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述;簡要分析傳統預訓練模型的特點及局限性,重點介紹基于深度學習的預訓練模型,并針對它們在下游任務的表現進行對比評估;梳理出具有啟發意義的新式預訓練模型,簡述這些模型的改進機制以及在下游任務中取得的性能提升;總結目前預訓練的模型所面臨的問題,并對后續發展趨勢進行展望。

付費5元查看完整內容

在大數據時代下,深度學習、強化學習以及分布式學習等理論和技術取得的突破性進展,為機器學習提供了數據和算法層面的強有力支撐,同時促進了機器學習的規模化和產業化發展.然而,盡管機器學習模型在現實應用中有著出色的表現,但其本身仍然面臨著諸多的安全威脅.機器學習在數據層、模型層以及應用層面臨的安全和隱私威脅呈現出多樣性、隱蔽性和動態演化的特點.機器學習的安全和隱私問題吸引了學術界和工業界的廣泛關注,一大批學者分別從攻擊和防御的角度對模型的安全和隱私問題進行了深入的研究,并且提出了一系列的攻防方法. 在本綜述中,我們回顧了機器學習的安全和隱私問題,并對現有的研究工作進行了系統的總結和科學的歸納,同時明確了當前研究的優勢和不足. 最后,我們探討了機器學習模型安全與隱私保護研究當前所面臨的挑戰以及未來潛在的研究方向,旨在為后續學者進一步推動機器學習模型安全與隱私保護研究的發展和應用提供指導.

//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6131&flag=1

付費5元查看完整內容
北京阿比特科技有限公司