亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人工智能(AI)正在幾乎每個領域產生深遠影響。其巨大成功的一個重要促成因素是可用于構建機器學習模型的豐富和高質量數據。最近,數據在人工智能中的作用被顯著放大,催生了以數據為中心的人工智能概念。研究人員和從業人員的關注焦點已逐漸從推進模型設計轉向提高數據的質量和數量。**本文討論了以數據為中心的人工智能的必要性,對三個一般的以數據為中心的目標(訓練數據開發、推理數據開發和數據維護)和代表性方法進行了整體看法。**從自動化和協作的角度組織了現有的文獻,討論了挑戰,并列出了各種任務的基準。我們相信這是第一個全面的綜述,提供了跨數據生命周期各個階段的任務譜的全局視圖。希望它能幫助讀者有效地掌握這一領域的概覽,并為他們提供系統地設計數據以構建人工智能系統的技術和進一步的研究思路。以數據為中心的人工智能資源的配套列表將在//github.com/daochenzha/data-centric-AI上定期更新。

過去的十年見證了人工智能(AI)的巨大進步,幾乎在每個領域都產生了深遠的影響,如自然語言處理[47]、計算機視覺[235]、推薦系統[284]、醫療保健[161]、生物學[248]、金融[175]等。這些巨大成功的一個關鍵促成因素是豐富和高質量的數據的可用性。許多重大的人工智能突破只有在我們獲得正確的訓練數據之后才會發生。例如,AlexNet[127]是第一批成功的卷積神經網絡之一,它是基于ImageNet數據集[59]設計的。AlphaFold[117]是人工智能在科學發現方面的一個突破,如果沒有注釋的蛋白質序列[163],將不可能實現。大型語言模型的最新進展依賴于大型文本數據進行訓練34,121,187,188。除了訓練數據外,精心設計的推理數據有助于對人工智能中眾多關鍵問題的初步識別,并解鎖新的模型能力。一個著名的例子是對抗樣本[129],它通過對輸入數據的專門修改來混淆神經網絡,這引起了人們對研究人工智能安全的興趣激增。另一個例子是prompt engineering[146],它僅通過調整輸入數據來從模型中探測知識,同時保持模型固定(圖1右側)來完成各種任務。與此同時,數據的價值在工業界得到了廣泛的認可。許多大型科技公司已經建立了基礎設施來組織、理解和調試構建AI系統的數據[7,15,230,233]。在構建訓練數據、推理數據和維護數據的基礎設施方面的所有努力,為今天人工智能的成就鋪平了道路。

最近,數據在人工智能中的作用被顯著放大,引發了新興的以數據為中心的人工智能概念 [108,109,183,250,268]。在傳統的以模型為中心的AI生命周期中,研究人員和開發人員主要關注于識別更有效的模型來提高AI性能,同時保持數據基本不變。然而,這種以模型為中心的范式忽略了潛在的質量問題和數據的不良缺陷,如缺失值、不正確的標簽和異常。作為對現有模型推進工作的補充,以數據為中心的人工智能強調數據的系統工程,以構建人工智能系統,將重點從模型轉移到數據。需要注意的是,"以數據為中心"與"數據驅動"有本質區別,后者只強調使用數據來指導人工智能開發,而后者通常仍以開發模型為中心,而不是工程數據。

已經有幾個倡議致力于以數據為中心的人工智能運動。一個值得注意的是Ng等人[170]發起的競賽,它要求參與者迭代數據集,只為了提高性能。Snorkel[190]構建了一個系統,可以使用啟發式功能實現自動數據注釋,而無需手動標記。由于許多好處,一些新興的AI公司將數據置于中心地位,例如提高準確性,更快的部署和標準化的工作流[169,189,240]。這些跨學術界和工業界的集體行動,證明了使用以數據為中心的方法構建人工智能系統的必要性。

**隨著以數據為中心的人工智能需求的不斷增長,各種方法被提出。一些相關的研究課題并不新鮮。**例如,數據增強[74]已被廣泛研究以提高數據多樣性。為了準備更簡潔的數據,特征選擇[138]早在幾十年前就被研究了。與此同時,最近出現了一些新的研究方向,如用于快速標記數據的數據編程[191],用于理解模型決策的算法求助[120],以及修改大型語言模型輸入以獲得理想預測的提示工程[146]。從另一個維度來看,一些工作致力于使數據處理更加自動化,如自動數據增強[56]和自動管道發現[68,132]。其他一些方法強調在創建數據時人機協作,以便模型可以與人類的意圖保持一致。例如,**ChatGPT和GPT-4的顯著成功[172]在很大程度上歸功于從人類反饋程序[48]中進行的強化學習,它要求人類對提示提供適當的響應,并將輸出進行排序作為獎勵[174]。**盡管上述方法是為了不同的目的而獨立開發的,但它們的共同目標是確保數據的質量、數量和可靠性,以便模型按照預期的方式運行。

在對數據為中心的人工智能的需求和所提出的眾多方法的驅動下,本文從整體上介紹了數據為中心的人工智能的技術進展,并總結了現有的研究方向。具體而言,本綜述圍繞以下研究問題展開: * RQ1: 讓AI以數據為中心的必要任務是什么? * RQ2: 為什么自動化對數據的開發和維護很重要? * RQ3: 在哪些情況下以及為什么人類參與在以數據為中心的AI中至關重要? * RQ4: 以數據為中心的人工智能目前的進展如何? 通過回答這些問題,我們做出了三個貢獻。首先,提供了一個全面的概述,幫助讀者從不同的角度有效地掌握以數據為中心的人工智能的概貌,包括定義、任務、算法、挑戰和基準。以目標驅動的分類法組織現有文獻。進一步確定每個方法中是否需要人工參與,并將方法標記為自動化水平或人工參與程度。最后,對現有研究進行了分析,并討論了未來可能的發展機遇

本調研的結構如下。第2節概述了與數據為中心的人工智能相關的概念和任務。詳細闡述了三個以數據為中心的通用人工智能目標的需求、代表性方法和挑戰,包括訓練數據開發(第3節)、推理數據開發(第4節)和數據維護(第5節)。第6節總結了各種任務的基準。第7節從全局的角度討論了以數據為中心的人工智能,并強調了潛在的未來方向。最后,我們在第8節總結了這個調研。

2. 以數據為中心的人工智能

本節將介紹以數據為中心的AI的背景。2.1節定義了相關概念。2.2節討論了為什么需要以數據為中心的人工智能。2.3節描繪了相關任務的大圖景,并提出了一個目標驅動的分類法來組織現有的文獻。第2.4節側重于以數據為中心的人工智能的自動化和人類參與。

人工智能(AI): AI是一個廣泛的跨學科領域,它試圖使計算機具有人類的智能來解決復雜的任務[252]。人工智能的一個主要技術是機器學習,它利用數據來訓練預測模型來完成一些任務。 * 數據: 數據是一個非常通用的概念,用于描述傳遞信息的值的集合。在人工智能的背景下,數據用于訓練機器學習模型或作為模型輸入進行預測。數據可以以各種格式出現,如表格數據、圖像、文本、音頻和視頻。 * 訓練數據: 訓練數據是用于機器學習模型訓練階段的數據。該模型利用訓練數據調整參數并進行預測。 * 推理數據: 推理數據是用于機器學習模型推理階段的數據。一方面,它可以在模型訓練后對模型的性能進行評估;另一方面,對推理數據進行調優可以幫助獲得所需的輸出,例如對語言模型的提示進行調優[146]。 * 數據維護: 數據維護是指維護數據質量和可靠性的過程,通常涉及高效的算法、工具和基礎設施,以理解和調試數據。數據維護在人工智能中起著至關重要的作用,因為它確保訓練和推理數據的準確性和一致性[107]。 * 以數據為中心的人工智能: 數據為中心的人工智能是指為人工智能系統開發、迭代和維護數據的框架[268]。以數據為中心的人工智能涉及構建有效的訓練數據、設計適當的推理數據和維護數據的任務和方法。 對以數據為中心的AI的需求

**過去,人工智能通常被視為一個以模型為中心的領域,其重點是在給定固定數據集的情況下推進模型設計。**然而,對固定數據集的過度依賴并不一定會導致現實世界應用中更好的模型行為,因為它忽視了數據的廣度、難度和對潛在問題的保真度[155]。此外,這些模型通常很難從一個問題轉移到另一個問題,因為它們是高度專業化的,并為特定的問題量身定制。此外,低估數據質量可能會觸發數據級聯[200],導致準確性下降和持續偏差[36]等負面影響。這可能會嚴重阻礙人工智能系統的適用性,特別是在高風險領域。 **因此,研究人員和從業人員的注意力逐漸轉向以數據為中心的人工智能,以追求數據卓越[9]。**以數據為中心的人工智能更強調提高數據的質量和數量,模型相對更固定。雖然這一過渡仍在進行中,但我們已經看到了一些表明其好處的成就。例如,大型語言模型的進步很大程度上依賴于大型數據集的使用[34,121,187,188]。與GPT-2[188]相比,GPT-3[34]只對神經架構進行了微小的修改,同時花費精力收集更大的高質量數據集進行訓練。ChatGPT[174]是GPT-3的一個非常成功的應用,它采用了與GPT-3類似的神經架構,并使用來自人工反饋過程[48]的強化學習來生成用于微調的高質量標記數據。一種被稱為prompt engineering[146]的新方法,通過只專注于調優數據輸入,已經取得了重大成功。以數據為中心的方法的好處也可以被從業人員驗證[169,189,240]。例如,計算機視覺公司Landing AI發現,通過采用以數據為中心的方法,精度得到了提高,開發時間縮短,以及方法更加一致和可擴展[169]。所有這些成就都展示了以數據為中心的人工智能的前景。

**值得注意的是,以數據為中心的人工智能并沒有削弱以模型為中心的人工智能的價值。**相反,這兩種范式在構建AI系統時相互交織。一方面,以模型為中心的方法可用于實現以數據為中心的AI目標。例如,我們可以利用生成模型,如GAN[86, 282]和擴散模型[101,124,194],來執行數據增強并生成更多高質量的數據。另一方面,以數據為中心的人工智能可以促進以模型為中心的人工智能目標的改進。例如,增強數據的可用性的增加可以激發模型設計的進一步進步。因此,在生產場景中,數據和模型往往在不斷變化的環境中交替演化[183]。

以數據為中心的人工智能任務

如果沒有在具體和具體的任務上取得進展,就無法實現以數據為中心的人工智能的雄心勃勃的運動。不幸的是,大多數現有文獻都集中在討論以數據為中心的人工智能的基礎和觀點,而沒有明確指定相關的任務[108,109,183,209]。為了解決這種模糊性,最近提出的DataPerf基準[155]定義了六個以數據為中心的AI任務: 訓練集創建、測試集創建、選擇算法、調試算法、切片算法和估值算法。然而,這種扁平的分類法只能部分覆蓋現有的以數據為中心的AI文獻。例如,一些關鍵任務,如數據標記[283],沒有包括在內。選擇算法只處理實例選擇,而不處理特征選擇[138]。創建測試集僅限于從一個補充集中選擇項,而不是生成一個新集[203]。因此,為了完全包含以數據為中心的人工智能文獻,有必要進行更細致的分類。為更全面地理解以數據為中心的人工智能,繪制了相關任務的藍圖,并提出了一個目標驅動的分類法來組織圖2中的現有文獻。本文將以數據為中心的人工智能分為三個目標: 訓練數據開發、推理數據開發和數據維護,其中每個目標都與幾個子目標相關聯,每個任務屬于子目標。我們在下面對這些目標進行高層次的概述。

訓練數據開發: 訓練數據開發的目標是收集和產生豐富且高質量的訓練數據,以支持機器學習模型的訓練。它由5個子目標組成,包括1)用于收集原始訓練數據的數據收集,2)用于添加信息標簽的數據標記,3)用于清洗和轉換數據的數據準備,4)用于減少數據大小并可能提高性能的數據縮減,以及5)用于增強數據多樣性而不收集更多數據的數據增強。

推理數據開發: 目標是創建新的評估集,可以為模型提供更細粒度的見解,或通過工程數據輸入觸發模型的特定能力。這方面的工作有三個子目標:1)分布內評估和2)分布外評估的目的是分別生成遵循或不同于訓練數據分布的樣本,而3)提示工程調整語言模型中的提示以獲得所需的預測。推理數據開發中的任務是相對開放的,因為它們通常被設計為評估或解鎖模型的各種功能。

數據維護: 在實際應用中,數據不是一次性創建的,而是需要持續維護的。數據維護的目的是保證動態環境中數據的質量和可靠性。它涉及3個基本的子目標:1)數據理解,旨在提供復雜數據的可視化和評估,使人類獲得有價值的見解;2)數據質量保證,制定定量測量和質量改進策略,以監測和修復數據;3)數據加速,旨在設計高效的算法,通過合理分配資源和高效處理查詢來提供所需的數據。數據維護在以數據為中心的AI框架中起著基礎性和支持性的作用,確保訓練和推理中的數據準確和可靠。

以數據為中心的人工智能的自動化和人類參與

以數據為中心的AI由一系列與不同數據生命周期階段相關的任務組成。為了跟上可用數據規模不斷增長的步伐,在一些以數據為中心的人工智能任務中,開發自動化算法以簡化過程是必不可少的。例如,人們對自動化數據增強[56,272]和特征轉換[122]的興趣越來越大。這些任務的自動化不僅可以提高效率,還可以提高精度[155]。此外,自動化可以促進結果的一致性,減少人為錯誤的機會。而對于其他一些任務,人工參與是至關重要的,以確保數據與我們的意圖一致。例如,人類通常在標記數據中發揮不可或缺的作用[283],這有助于機器學習算法學習做出所需的預測。是否需要人類的參與取決于我們的目標是否是使數據與人類的期望保持一致。本文將每篇論文分為自動化和協作,前者側重于過程自動化,后者涉及人工參與。面向自動化的方法通常具有不同的自動化目標。我們可以從現有的方法中識別出幾個自動化級別:

程序自動化: 使用程序自動處理數據。程序通常是基于一些啟發式和統計信息設計的。

基于學習的自動化: 帶優化的自動化策略學習,例如最小化目標函數。這一層次的方法通常更靈活、適應性更強,但需要額外的學習成本。

流程自動化: 跨多個任務集成和調優一系列策略,這可以幫助確定全局最優策略。但是,調優可能會導致更多的成本。

請注意,這種分類并不打算區分好方法和壞方法。例如,流程自動化方法可能并不一定比編程自動化解決方案更好,因為它在許多場景中可能過于復雜。本文旨在展示自動化是如何應用于不同的以數據為中心的目標的,并從全局的角度來理解文獻。從另一個角度來看,面向協作的方法通常需要人類以不同的形式參與。我們可以確定人類參與的幾個程度:

全面參與: 人類完全控制過程。這種方法幫助人類做決定。需要充分參與的方法通常可以很好地符合人類的意圖,但成本可能很高。 * 部分參與: 方法控制過程。然而,人類需要密集或持續地提供信息,例如通過提供大量反饋或頻繁交互。 * 最低參與度: 該方法完全控制整個過程,只在需要時咨詢人類。人類只有在被提示或要求這樣做時才會參與。當遇到大量數據和有限的人力預算時,屬于這種程度的方法通常是更可取的。

3. 結論

聚焦于人工智能中一個新興而重要的研究領域——以數據為中心的人工智能。通過展示如何仔細設計和維護數據,可以使人工智能解決方案在學術界和工業界更受歡迎,激發了對以數據為中心的人工智能的需求。接下來,提供了以數據為中心的人工智能的背景,包括其定義和目標驅動的分類法。然后,以提出的研究問題為指導,從自動化和協作的角度回顧了各種以數據為中心的人工智能技術,用于不同的目的。此外,收集了來自不同領域的數據基準,并在元級別上進行了分析。最后,從全局的角度討論了以數據為中心的人工智能,并分享了我們對數據和模型之間模糊邊界的看法。同時提出了該領域潛在的未來發展方向。總而言之,我們相信數據將在構建人工智能系統中發揮越來越重要的作用。與此同時,仍有許多挑戰需要解決。我們希望我們的調研可以激發我們社區的合作倡議,推動這一領域的發展。

付費5元查看完整內容

相關內容

這份美國國家標準技術研究所的“NIST AI”報告旨在成為開發對抗性機器學習(AML)的分類學和術語的一個步驟,這反過來可能有助于確保人工智能(AI)的應用安全,防止AI系統受到對抗性操縱。人工智能系統的組成部分至少包括數據、模型、訓練、測試和部署機器學習(ML)模型的過程以及使用它們所需的基礎設施。除了大多數操作系統所面臨的經典安全和隱私威脅外,ML的數據驅動方法在ML操作的不同階段引入了額外的安全和隱私挑戰。這些安全和隱私挑戰包括對訓練數據進行惡意操縱的可能性,對模型漏洞進行惡意利用以對ML分類和回歸的性能產生不利影響,甚至惡意操縱、修改或僅僅與模型進行互動以滲出數據中代表的人或模型本身的敏感信息。這種攻擊已經在現實世界的條件下被證明,其復雜性和潛在的影響一直在穩步增加。AML關注的是研究攻擊者的能力和他們的目標,以及在ML生命周期的開發、培訓和部署階段利用ML的漏洞的攻擊方法的設計。AML還關注設計能夠抵御這些安全和隱私挑戰的ML算法。當攻擊是出于惡意的時候,ML的穩健性指的是旨在管理這種攻擊的后果的緩解措施。

本報告采用了NIST人工智能風險管理框架[170]中關于ML系統的安全性、復原力和穩健性的概念。安全性、復原力和穩健性是通過風險來衡量的,風險是衡量一個實體(如系統)受到潛在情況或事件(如攻擊)威脅的程度,以及一旦發生這種事件的結果的嚴重程度。然而,本報告并沒有對風險容忍度(組織或社會可接受的風險水平)提出建議,因為它是高度背景性的,并且是針對具體應用/案例的。這種一般的風險概念為評估和管理人工智能系統組件的安全性、復原力和穩健性提供了一種有用的方法。對這些可能性的量化超出了本文的范圍。相應地,AML的分類法是針對AML風險評估的以下四個方面來定義的:(i)學習方法和發動攻擊時的ML生命周期過程的階段,(ii)攻擊者的目標和目的,(iii)攻擊者的能力,(iv)和攻擊者對學習過程及其他的知識。

針對ML的有效攻擊范圍很廣,發展迅速,涵蓋了ML生命周期的所有階段--從設計和實施到培訓、測試,最后到在現實世界的部署。這些攻擊的性質和力量是不同的,不僅可以利用ML模型的漏洞,還可以利用部署AI系統的基礎設施的弱點。盡管人工智能系統組件也可能受到各種非故意因素的不利影響,如設計和實施缺陷以及數據或算法偏差,但這些因素不是故意攻擊。即使這些因素可能被對手利用,但它們不屬于對抗性機器學習文獻或本報告的范圍。

本文件定義了攻擊的分類法,并介紹了對抗性機器學習領域的術語。該分類法建立在對對抗性機器學習文獻的調查基礎上,并按概念層次排列,包括關鍵類型的ML方法和攻擊的生命周期階段,攻擊者的目標和目的,以及攻擊者的能力和學習過程的知識。報告還提供了相應的緩解和管理攻擊后果的方法,并指出了在人工智能系統的生命周期中需要考慮的相關公開挑戰。報告中使用的術語與對抗性機器學習方面的文獻一致,并輔以詞匯表,定義了與人工智能系統安全相關的關鍵術語,以幫助非專業的讀者。綜上所述,分類法和術語旨在為評估和管理人工智能系統安全的其他標準和未來實踐指南提供參考,為快速發展的對抗性機器學習領域建立共同語言和理解。與分類法一樣,術語和定義并不打算詳盡無遺,而是為了幫助理解對抗性機器學習文獻中出現的關鍵概念。

本文件的主要讀者包括負責設計、開發、部署、評估和管理AI系統的個人和團體。

關鍵詞:人工智能;機器學習;攻擊分類法;規避;數據中毒;隱私泄露;攻擊緩解;數據模式;木馬攻擊,后門攻擊;聊天機器人。

圖1:對人工智能系統的攻擊分類。

付費5元查看完整內容

推理是人類智能的一個基本方面,在解決問題、決策和批判性思考等活動中起著至關重要的作用。近年來,大型語言模型(LLMs)在自然語言處理方面取得了重大進展,有人觀察到這些模型在足夠大的時候可能會表現出推理能力。然而,目前還不清楚LLMs的推理能力到何種程度。

本文對LLM推理的知識現狀進行了全面的概述,包括改進和誘導這些模型推理的技術、評估推理能力的方法和基準、該領域以前研究的發現和影響,以及對未來方向的建議。我們的目標是對這一主題提供詳細和最新的回顧,并激發有意義的討論和未來的工作。

//www.zhuanzhi.ai/paper/10caab0b58fcf5f8ddf7943e1a6060d5

1. 引言

推理是一種認知過程,包括使用證據、論據和邏輯來得出結論或做出判斷。它在許多智力活動中起著核心作用,如解決問題、決策和批判性思考。對推理的研究在心理學(Wason and Johnson-Laird, 1972)、哲學(Passmore, 1961)和計算機科學(Huth and Ryan, 2004)等領域很重要,因為它可以幫助個人做出決定、解決問題和批判性地思考。

**最近,大型語言模型(LLMs) (Brown et al., 2020; Chowdhery et al., 2022; Chung et al., 2022; Shoeybi et al., 2019, inter alia)在自然語言處理及相關領域取得了重大進展。**研究表明,當這些模型足夠大時,它們會表現出緊急行為,包括"推理"的能力(Wei等人,2022a)。例如,通過為模型提供"思維鏈",即推理范例,或簡單的提示" Let 's think step by step ",這些模型能夠以明確的推理步驟回答問題(Wei et al., 2022b;Kojima et al., 2022),例如,“所有鯨魚都是哺乳動物,所有哺乳動物都有腎臟;因此,所有的鯨魚都有腎臟。”這引發了社區的極大興趣,因為推理能力是人類智能的一個標志,而在當前的人工智能系統中,推理能力經常被認為是缺失的(Marcus, 2020; Russin et al., 2020; Mitchell, 2021; Bommasani et al., 2021)。

然而,盡管LLM在某些推理任務上表現強勁,但目前尚不清楚LLM是否真的在推理,以及它們在多大程度上能夠推理。例如,Kojima等人(2022)聲稱“LLMs是不錯的零次推理器(第1頁)”,而Valmeekam等人(2022)得出結論,“LLMs在對人類來說沒有問題的常見規劃/推理任務上仍然遠遠沒有達到可接受的性能(第2頁)。”Wei等人(2022b)也指出了這一局限性:“我們認為,盡管思維鏈模擬了人類推理的思維過程,但這并沒有回答神經網絡是否實際上是推理(第9頁)。

本文旨在對這一快速發展的主題的知識現狀進行全面概述。專注于改善LLM中推理的技術(§3);LLMs中衡量推理的方法和基準(§4);這一領域的發現和意義(§5);以及對該領域現狀的反思和討論(§6)。

2. 什么是推理?

推理是用邏輯和系統的方式思考某事的過程,利用證據和過去的經驗來得出結論或做出決定(Wason and Johnson-Laird, 1972; Wason, 1968; Galotti, 1989; Fagin et al., 2004; McHugh and Way, 2018)。推理包括根據現有信息進行推理、評估論點和得出邏輯結論。“推理”雖然是文學和日常生活中常用的術語,但它也是一個抽象的概念,可以指代很多事物。為了幫助讀者更好地理解這個概念,我們總結了幾種常見的推理類型:

演繹推理。演繹推理是一種基于前提的真實性而得出結論的推理。在演繹推理中,結論必須從前提中得出,這意味著如果前提為真,結論也必須為真。前提:所有哺乳動物都有腎臟。前提:所有鯨魚都是哺乳動物。結論:所有鯨魚都有腎臟。

歸納推理。歸納推理是一種基于觀察或證據得出結論的推理。根據現有的證據,這個結論很可能是正確的,但不一定是肯定的。觀察:我們每次看到有翅膀的生物,它就是鳥。觀察:我們看到一個有翅膀的生物。結論:這個生物很可能是一只鳥。

溯因推理。溯因推理是一種推理,它是在對一組給定的觀察做出最佳解釋的基礎上得出結論的。根據現有的證據,這一結論是最可能的解釋,但不一定是肯定的。觀察:汽車無法啟動,引擎下有一灘液體。結論: 最可能的解釋是汽車的散熱器有一個泄漏

3. 大語言模型中的推理

推理,尤其是多步推理,通常被視為語言模型和其他NLP模型的弱點(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。最近的研究表明,在一定規模的語言模型中可能會出現推理能力,例如具有超過1000億個參數的模型(Wei et al., 2022a,b;Cobbe等人,2021)。在本文中,我們遵循Wei等人(2022a)的觀點,將推理視為一種在小規模模型中很少出現的能力,因此關注于適用于改進或引出大規模模型中的“推理”的技術。

3.1 全監督微調

在討論大型語言模型中的推理之前,值得一提的是,有研究正在通過對特定數據集的全監督微調來激發/改進小型語言模型中的推理。例如,Rajani等人(2019)對預訓練的GPT模型進行微調(Radford等人,2018),以生成用構建的CoS-E數據集解釋模型預測的理由,并發現經過解釋訓練的模型在常識性問答任務上表現更好(Talmor等人,2019)。Talmor等人(2020)訓練RoBERTa (Liu等人,2019)基于隱式預訓練知識和顯式自由文本語句進行推理/推理。Hendrycks等人(2021)對預訓練語言模型進行微調,通過生成完整的分步解決方案來解決競賽數學問題,盡管準確性相對較低。Nye等人(2021)在產生最終答案之前,通過生成" scratchpad ",即中間計算,訓練語言模型進行程序合成/執行的多步驟推理。全監督微調有兩個主要限制。首先,它需要一個包含顯式推理的數據集,這可能很難和耗時創建。此外,模型僅在特定數據集上進行訓練,這將限制其應用于特定領域,并可能導致模型依賴于訓練數據中的工件而不是實際推理來進行預測。

3.2 提示與上下文學習

大型語言模型,如GPT-3 (Brown et al., 2020)和PaLM (Chowdhery et al., 2022),通過上下文學習在各種任務中表現出顯著的少樣本性能。這些模型可以通過一個問題和一些輸入、輸出的范例來提示,以潛在地通過“推理”(隱式或顯式)解決問題。然而,研究表明,這些模型在需要多個步驟推理來解決的任務方面仍然不理想(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。這可能是由于缺乏對這些模型的全部能力的探索,正如最近的研究所表明的那樣。

3.3 混合法

雖然"提示"技術可以幫助引出或更好地利用大型語言模型中的推理來解決推理任務,但它們實際上并沒有提高LLM本身的推理能力,因為模型的參數保持不變。相比之下,“混合方法”旨在同時提高LLM的推理能力,并更好地利用這些模型來解決復雜問題。這種方法既包括增強LLM的推理能力,也包括使用提示等技術來有效利用這些能力。

4 度量大型語言模型的推理能力

文獻中一直關注使用推理任務的下游性能作為模型"推理"能力的主要衡量標準。然而,直接分析這些模型產生的原理的工作相對較少。本節總結了評估LLM推理能力的方法和基準。

4.1 下游任務性能

衡量LLM推理能力的一種方法是評估它們在需要推理的任務上的表現。有各種現有的基準可用于此目的,組織如下。

**數學推理。**算術推理是理解和應用數學概念和原理以解決涉及算術運算的問題的能力。這涉及到在解決數學問題時使用邏輯思維和數學原理來確定正確的行動方案。算術推理的代表性基準包括GSM8K (Cobbe et al., 2021), Math (Hendrycks et al., 2021), MathQA (Amini et al., 2019), SVAMP (Patel et al., 2021), ASDiv (Miao et al., 2020), AQuA (Ling et al., 2017), and MAWPS (Roy and Roth, 2015).。值得一提的是,Anil等人(2022)生成了奇偶校驗數據集和布爾變量賦值數據集,用于分析LLMs的長度泛化能力(§3.3.1)。

**常識推理。**常識推理是利用日常知識和理解對新情況作出判斷和預測。這是人類智能的一個基本方面,它使我們能夠在環境中導航,理解他人,并在信息不完整的情況下做出決定。可用于測試llm常識推理能力的基準包括CSQA (Talmor et al., 2019), StrategyQA (Geva et al., 2021), and ARC (Clark et al., 2018)。我們建議讀者參考Bhargava和Ng(2022)的調研,以了解該領域的更多工作。

**符號推理。**符號推理是一種根據形式規則對符號進行操作的推理形式。在符號推理中,我們使用抽象的符號來表示概念和關系,然后根據精確的規則對這些符號進行操作,從而得出結論或解決問題。

4.2 推理的形式化分析

盡管LLM在各種推理任務中表現出令人印象深刻的性能,但它們的預測在多大程度上是基于真正的推理還是簡單的啟發式,并不總是很清楚。這是因為大多數現有評估側重于它們對下游任務的準確性,而不是直接評估它們的推理步驟。雖然對LLMs生成的原理進行了一些誤差分析(Wei et al., 2022b; Kojima et al., 2022, inter alia),這種分析的深度往往有限。已經有一些努力來開發指標和基準,以便對LLM中的推理進行更正式的分析。Golovneva等人(2022)設計了ROSCOE,一套可解釋的、詳細的分步評估指標,涵蓋了語義對齊、邏輯推理、語義相似度和語言一致性等多個角度。Saparov和他(2022)創建了一個名為PrOntoQA的合成數據集,該數據集是根據真實或虛構的本體生成的。數據集中的每個示例都有一個唯一的證明,可以轉換為簡單的句子,然后再轉換回來,允許對每個推理步驟進行形式化分析。Han等人(2022)引入了一個名為FOLIO的數據集來測試LLM的一階邏輯推理能力。FOLIO包含一階邏輯推理問題,需要模型在給定一組前提的情況下確定結論的正確性。總之,大多數現有研究主要報告了模型在下游推理任務中的表現,沒有詳細檢查產生的基礎的質量。這留下了一個問題,即模型是否真的能夠以類似于人類推理的方式進行推理,或者它們是否能夠通過其他方法在任務上取得良好的性能。還需要進一步的研究來更正式地分析LLM的推理能力。

付費5元查看完整內容

Andrew Ng是機器學習的先驅、Landing AI的創始人兼首席執行官,也是谷歌Brain的前團隊負責人。最近,他在未來以數據為中心的人工智能虛擬會議上發表演講,討論了一些負責任的以數據為中心的人工智能開發的實用技巧。

本演講將深入探討適用于非結構化數據的以數據為中心的AI技巧

一個人工智能系統由兩部分組成:模型-算法或一些代碼-數據。對于大多數數據科學家(包括我自己)來說,機器學習研究人員的主導模式是下載一個固定的數據集,并在模型上進行迭代。這已經成為一種慣例,這是對這種以模型為中心的方法的成功的肯定。多虧了這種以模型為中心的AI開發模式,今天的“代碼”或模型基本上是一個已解決的問題。

這種對模型的強調將我們帶到了高性能模型架構被廣泛使用的地方。然而,系統工程數據集的方法是滯后的。今天,我發現使用工具、流程和原則來系統地設計數據來提高人工智能系統的性能要有用得多。就在過去的4-5個月里,以數據為中心的人工智能運動獲得了很大的發展勢頭,現在“以數據為中心的人工智能”這個術語出現在許多公司的主頁上,而在此之前它幾乎是不存在的。

付費5元查看完整內容

摘要

人在環路是通過整合人類的知識和經驗,以最小的代價訓練出準確的預測模型。借助基于機器的方法,人類可以為機器學習應用提供訓練數據,直接完成一些流水線中計算機難以完成的任務。在本文中,我們從數據的角度對現有的關于人在環路的研究進行了綜述,并將其分為三大類: (1) 通過數據處理提高模型性能的工作,(2) 通過干預模型訓練提高模型性能的工作,(3) 系統獨立的人在環路的設計。通過以上分類,我們總結了該領域的主要方法,以及它們的技術優勢/弱點,并在自然語言處理、計算機視覺等方面進行了簡單的分類和討論。此外,我們提供了一些開放的挑戰和機會。本綜述旨在為人在環路提供一個高層次的總結,并激發感興趣的讀者考慮設計有效的人在環路解決方案的方法。

//arxiv.org/abs/2108.00941

引言

深度學習是人工智能的前沿,旨在更接近其主要目標——人工智能。深度學習已經在廣泛的應用中取得了巨大的成功,如自然語言處理、語音識別、醫療應用、計算機視覺和智能交通系統[1,2,3,4]。深度學習的巨大成功歸功于更大的模型[5]。這些模型的規模包含了數億個參數。這些數以億計的參數允許模型有更多的自由度,足以令人驚嘆的描述能力。

但是,大量的參數需要大量的標簽[6]的訓練數據。通過數據標注提高模型性能有兩個關鍵的挑戰。一方面,數據增長速度遠遠落后于模型參數的增長速度,數據增長主要阻礙了模型的進一步發展。另一方面,新任務的出現遠遠超過了數據更新的速度,對所有樣本進行注釋非常費力。為了應對這一挑戰,許多研究人員通過生成樣本來構建新的數據集,從而加快了模型迭代,降低了數據標注的成本[7,8,9,10,11]。此外,許多研究人員使用預訓練方法和遷移學習來解決這一挑戰[12,13,14,15,16],如transformer[17,18]、BERT[19]和GPT[20]。這些工作取得了令人難以置信的成果。

然而,生成的數據僅用作初始化模型的基礎數據。為了獲得高精度的可用模型,往往需要對具體數據進行標注和更新。因此,一些基于弱監督的工作被提出[21,22,23,24]。一些研究人員提出使用少樣本來促使模型從更少的樣本中學習[25,26,27]。在學習框架中集成先驗知識是處理稀疏數據的有效手段,因為學習者不需要從數據本身[28]中歸納知識。越來越多的研究人員開始嘗試將訓練前的知識納入他們的學習框架[29,30,31,32]。作為代理,人類有著豐富的先驗知識。如果機器可以學習人類的智慧和知識,它將有助于處理稀疏數據。特別是在臨床診斷和訓練數據缺乏等醫學領域[33,34,35,36]。

一些研究人員提出了一種名為“人在環路”(human-in- loop, HITL)的方法來解決這一挑戰,該方法主要通過將人類知識納入建模過程[37]來解決這些問題。如圖1所示,human-in-the-loop(即“human-in-the-loop”和“machine learning”)是機器學習領域一個活躍的研究課題,近十年來發表了大量的論文。

如圖2所示,傳統的機器學習算法一般由[38]三部分組成。第一個是數據預處理,第二個是數據建模,最后一個是開發人員修改現有流程以提高性能。我們都知道,機器學習模型的性能和結果是不可預測的,這就導致了很大程度的不確定性,在人機交互的哪個部分能帶來最好的學習效果。不同的研究者關注的是人工干預的不同部分。本文根據機器學習的處理方法對這些方法進行分類,分為數據預處理階段和模型修改和訓練階段。此外,更多的研究集中在獨立系統的設計上,以幫助完成模型的改進。因此,在本文中,我們首先從數據處理的角度討論了提高模型性能的工作。接下來,我們討論了通過干預模式訓練提高模型性能的工作。最后,討論了獨立于系統的“人在環路”的設計。

付費5元查看完整內容

摘要

分布外泛化(OOD)對人類來說是一種很自然的能力,但對機器來說是一個挑戰。這是因為大多數學習算法強烈地依賴于源/目標數據的i.i.d.假設,而在實踐中,由于域轉移,這經常違背IID。領域泛化(DG)的目標是僅使用源數據進行模型學習,實現OOD泛化。自2011年首次引入DG以來,DG研究取得了很大進展。特別是,對這一主題的深入研究已經導致了廣泛的方法論,例如,那些基于領域對齊、元學習、數據增強或集成學習的方法,這只是舉幾個例子;并涵蓋了各種視覺應用,如物體識別、分割、動作識別和人的再識別。本文首次對近十年來計算機視覺DG的研究進展進行了綜述。具體來說,我們首先通過正式定義DG,并將其與領域適應和遷移學習等其他研究領域聯系起來,來覆蓋背景。其次,我們對現有的方法進行了全面的回顧,并根據它們的方法和動機進行了分類。最后,我們總結了本次綜述,并對未來的研究方向進行了展望和討論。

//www.zhuanzhi.ai/paper/c8472ef62b32f2b955bd2b239009bfc1

引言

如果一個圖像分類器在照片圖像上訓練,它會在草圖圖像上工作嗎?如果用城市圖像訓練的汽車檢測器在農村環境中測試會怎樣?是否有可能部署在雨天或雪天條件下使用晴天圖像訓練的語義分割模型?使用一名患者的心電圖數據訓練的健康狀態分類器能否用于診斷另一名患者的健康狀態?所有這些問題的答案取決于機器學習模型如何處理一個常見問題,即域轉移問題。該問題是指一組訓練(源)數據與一組測試(目標)數據[1],[2],[3],[4]之間的分布偏移。

大多數統計學習算法強烈依賴于過于簡化的假設,即源數據和目標數據是獨立的、同分布的(i.i.d),而忽略了實踐中常見的分布外(OOD)場景。這意味著它們在設計時并沒有考慮到域遷移問題。因此,只使用源數據訓練的學習代理在OOD目標域中通常會遭受顯著的性能下降。領域轉移問題嚴重阻礙了機器學習模型的大規模部署。人們可能會好奇,最近在深度神經網絡[5],[6],即所謂的深度學習[7]方面的進展是否能夠緩解這個問題。[2]和[8]的研究表明,即使在數據生成過程中只有很小的變化,深度學習模型在OOD數據集上的性能也會顯著下降。這突出表明,到目前為止,深度學習取得的成功很大程度上是由監督學習驅動的,這些監督學習使用的是像ImageNet[9]這樣的大規模注釋數據集,同樣也依賴于i.i.d.假設。

關于如何處理域轉移的問題在文獻中已經進行了廣泛的研究。繞過OOD數據問題的一個簡單解決方案是從目標領域收集一些數據,以適應源領域訓練的模型。事實上,這一域適應(DA)問題最近受到了廣泛關注,包括[10]、[11]、[12]、[13]、[14]、[15]、[16]。然而,DA依賴于一個強大的假設,即目標數據可以用于模型調整,但在實踐中并不總是成立。在許多應用中,很難獲得目標數據,甚至在部署模型之前無法知道目標數據。例如,在生物醫學應用中,不同患者的數據之間發生域轉移,提前收集每個新患者的數據是不切實際的;在交通場景語義分割中,采集所有不同場景和所有可能天氣條件下的數據是不可行的。

為了克服域漂移問題以及目標數據缺乏的問題,引入了域泛化問題[19]。具體來說,DG的目標是使用來自單個或多個相關但不同的源域的數據來學習模型,以使模型能夠很好地泛化到任何OOD目標域。近年來,DG因其在實際應用中的重要性而日益受到學術界的重視。

自2011年Blanchard等人[19]首次引入以來,已經開發了許多方法來解決OOD泛化問題。這包括基于對源域分布的方法,用于域不變表示學習[27],[28],在訓練期間通過元學習[29],[30],或使用圖像合成[31],[32]來增強數據,僅舉幾個例子。從應用的角度來看,現有的DG方法已經應用于手寫體數字識別[31]、[32]、物體識別[33]、[34]、語義分割[18]、[35]、人再識別[20]、[31]、人臉識別[36]、動作識別[27]、[37]等等。盡管作出了這些努力,但普遍承認DG仍然是一個公開的挑戰。事實上,在無法訪問目標領域數據的情況下,訓練一個可以在任何不可見的目標領域有效工作的一般化模型,可以說是機器學習中最困難的問題之一。

在這篇綜述論文中,我們旨在提供一個及時和全面的文獻綜述。綜述了近十年來所介紹的主要方法和應用,重點介紹了計算機視覺領域。并對未來的發展方向進行了討論。本文的其余部分組織如下。在§2中,我們介紹了背景知識,給出了問題的定義,并將DG與領域適應和遷移學習等幾個相關研究領域進行了比較。討論了對DG算法進行基準測試的常用數據集。在§3中,我們回顧了過去十年提出的現有DG方法,并提出了一個分類。在§4中,我們總結了這篇論文,并對未來工作的潛在研究方向進行了見解和討論。作為這一主題的第一份綜述論文,我們希望這一及時的綜述能夠為研究界提供清晰的思路和進一步發展的動力。

付費5元查看完整內容

近年來,自然語言處理的研究方法取得了一些突破。這些突破來源于兩個新的建模框架以及在計算和詞匯資源的可用性的改進。在這個研討會小冊子中,我們將回顧這些框架,以一種可以被視為現代自然語言處理開端的方法論開始:詞嵌入。我們將進一步討論將嵌入式集成到端到端可訓練方法中,即卷積神經網絡和遞歸神經網絡。這本小冊子的第二章將討論基于注意力的模型的影響,因為它們是最近大多數最先進的架構的基礎。因此,我們也將在本章中花很大一部分時間討論遷移學習方法在現代自然語言處理中的應用。最后一章將會是一個關于自然語言生成的說明性用例,用于評估最先進的模型的訓練前資源和基準任務/數據集。

//compstat-lmu.github.io/seminar_nlp_ss20/

在過去的幾十年里,人工智能技術的重要性和應用不斷得到關注。在當今時代,它已經與構成人類塑造環境的大部分環境密不可分。因此,商業、研究和開發、信息服務、工程、社會服務和醫學等無數部門已經不可逆轉地受到人工智能能力的影響。人工智能有三個主要領域組成了這項技術:語音識別、計算機視覺和自然語言處理(見Yeung (2020))。在這本書中,我們將仔細研究自然語言處理(NLP)的現代方法。

這本小冊子詳細介紹了用于自然語言處理的現代方法,如深度學習和遷移學習。此外,本研究亦會研究可用于訓練自然語言處理任務的資源,并會展示一個將自然語言處理應用于自然語言生成的用例。

為了分析和理解人類語言,自然語言處理程序需要從單詞和句子中提取信息。由于神經網絡和其他機器學習算法需要數字輸入來進行訓練,因此應用了使用密集向量表示單詞的詞嵌入。這些通常是通過有多個隱藏層的神經網絡學習的,深度神經網絡。為了解決容易的任務,可以應用簡單的結構神經網絡。為了克服這些簡單結構的局限性,采用了遞歸和卷積神經網絡。因此,遞歸神經網絡用于學習不需要預先定義最佳固定維數的序列的模型,卷積神經網絡用于句子分類。第二章簡要介紹了NLP中的深度學習。第三章將介紹現代自然語言處理的基礎和應用。在第四章和第五章中,將解釋和討論遞歸神經網絡和卷積神經網絡及其在自然語言處理中的應用。

遷移學習是每個任務或領域的學習模型的替代選擇。在這里,可以使用相關任務或領域的現有標記數據來訓練模型,并將其應用到感興趣的任務或領域。這種方法的優點是不需要在目標域中進行長時間的訓練,并且可以節省訓練模型的時間,同時仍然可以(在很大程度上)獲得更好的性能。遷移學習中使用的一個概念是注意力,它使解碼器能夠注意到整個輸入序列,或自注意,它允許一個Transformer 模型處理所有輸入單詞,并建模一個句子中所有單詞之間的關系,這使得快速建模一個句子中的長期依賴性成為可能。遷移學習的概念將在小冊子的第6章簡要介紹。第七章將通過ELMo、ULMFiT和GPT模型來描述遷移學習和LSTMs。第八章將詳細闡述注意力和自注意力的概念。第九章將遷移學習與自注意力相結合,介紹了BERT模型、GTP2模型和XLNet模型。

為NLP建模,需要資源。為了找到任務的最佳模型,可以使用基準測試。為了在基準實驗中比較不同的模型,需要諸如精確匹配、Fscore、困惑度或雙語評估替補學習或準確性等指標。小冊子的第十章簡要介紹了自然語言處理的資源及其使用方法。第11章將解釋不同的指標,深入了解基準數據集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到資源的預訓練模型和數據庫,如“帶代碼的論文”和“大壞的NLP數據庫”。

在小冊子的最后一章中,介紹了生成性NLP處理自然語言生成,從而在人類語言中生成可理解的文本。因此,不同的算法將被描述,聊天機器人和圖像字幕將被展示,以說明應用的可能性。

本文對自然語言處理中各種方法的介紹是接下來討論的基礎。小冊子的各個章節將介紹現代的NLP方法,并提供了一個更詳細的討論,以及各種示例的潛力和限制。

付費5元查看完整內容

摘要

文本分類是自然語言處理中最基本、最基本的任務。過去十年,由于深度學習取得了前所未有的成功,這一領域的研究激增。大量的方法、數據集和評價指標已經在文獻中提出,提高了全面和更新綜述的需要。本文通過回顧1961年到2020年的先進方法的現狀來填補這一空白,側重于從淺到深的模型學習。我們根據所涉及的文本和用于特征提取和分類的模型創建文本分類的分類法。然后我們詳細討論每一個類別,處理支持預測測試的技術發展和基準數據集。本綜述還提供了不同技術之間的綜合比較,以及確定各種評估指標的優缺點。最后,總結了本研究的關鍵意義、未來研究方向和面臨的挑戰。

介紹

在許多自然語言處理(NLP)應用中,文本分類(為文本指定預定義標簽的過程)是一個基本和重要的任務, 如情緒分析[1][2][3],主題標簽[4][5][6],問答[7][8][9]和對話行為分類。在信息爆炸的時代,手工對大量文本數據進行處理和分類是一項耗時且具有挑戰性的工作。此外,手工文本分類的準確性容易受到人為因素的影響,如疲勞、專業知識等。人們希望使用機器學習方法來自動化文本分類過程,以產生更可靠和較少主觀的結果。此外,通過定位所需信息,可以提高信息檢索效率,緩解信息超載的問題。 圖1給出了在淺層和深層分析的基礎上,文本分類所涉及的步驟流程圖。文本數據不同于數字、圖像或信號數據。它需要NLP技術來仔細處理。第一個重要的步驟是對模型的文本數據進行預處理。淺層學習模型通常需要通過人工方法獲得良好的樣本特征,然后用經典的機器學習算法對其進行分類。因此,特征提取在很大程度上制約了該方法的有效性。然而,與淺層模型不同,深度學習通過學習一組直接將特征映射到輸出的非線性轉換,將特征工程集成到模型擬合過程中。

主要文本分類方法的示意圖如圖2所示。從20世紀60年代到21世紀10年代,基于淺層學習的文本分類模型占據了主導地位。淺層學習意味著在樂此不疲的模型,如 Na??ve Bayes(NB)[10], K-近鄰(KNN)[11],和支持向量機(SVM)[12]。與早期基于規則的方法相比,該方法在準確性和穩定性方面具有明顯的優勢。然而,這些方法仍然需要進行特征工程,這是非常耗時和昂貴的。此外,它們往往忽略文本數據中自然的順序結構或上下文信息,使學習詞匯的語義信息變得困難。自2010年代以來,文本分類逐漸從淺層學習模式向深度學習模式轉變。與基于淺層學習的方法相比,深度學習方法避免了人工設計規則和特征,并自動提供文本挖掘的語義意義表示。因此,大部分文本分類研究工作都是基于DNNs的,這是一種計算復雜度很高的數據驅動方法。很少有人關注于用淺層學習模型來解決計算和數據的局限性。

在文獻中,Kowsari等[13]考慮了不同的文本特征提取、降維方法、文本分類的基本模型結構和評價方法。Minaee等人[14]回顧了最近基于深度學習的文本分類方法、基準數據集和評估指標。與現有的文本分類研究不同,我們利用近年來的研究成果對現有的模型進行了從淺到深的總結。淺層學習模型強調特征提取和分類器設計。一旦文本具有精心設計的特征,就可以通過訓練分類器來快速收斂。在不需要領域知識的情況下,DNNs可以自動進行特征提取和學習。然后給出了單標簽和多標簽任務的數據集和評價指標,并從數據、模型和性能的角度總結了未來的研究挑戰。此外,我們在4個表中總結了各種信息,包括經典淺層和深度學習模型的必要信息、DNNs的技術細節、主要數據集的主要信息,以及在不同應用下的最新方法的一般基準。總而言之,本研究的主要貢獻如下:

  • 我們在表1中介紹了文本分類的過程和發展,并總結了經典模式在出版年份方面的必要信息,包括地點、應用、引用和代碼鏈接。

  • 根據模型結構,從淺層學習模型到深度學習模型,對主要模型進行了全面的分析和研究。我們在表2中對經典或更具體的模型進行了總結,并主要從基本模型、度量和實驗數據集方面概述了設計差異。

  • 我們介紹了現有的數據集,并給出了主要的評價指標的制定,包括單標簽和多標簽文本分類任務。我們在表3中總結了基本數據集的必要信息,包括類別的數量,平均句子長度,每個數據集的大小,相關的論文和數據地址。

  • 我們在表5中總結了經典模型在基準數據集上的分類精度得分,并通過討論文本分類面臨的主要挑戰和本研究的關鍵意義來總結綜述結果。

付費5元查看完整內容
北京阿比特科技有限公司