18GAY国产小鲜肉可播放,黄色真人AV在线

自主系統很快將無處不在，從制造業自主性到農業領域的機器人，再從醫療保健助手到娛樂產業。這些系統的大多數都是用于決策、規劃和控制的模塊化子組件開發的，這些子組件可能是手工設計的或基于學習的。雖然這些現有方法在它們特別設計的情況下已被證明表現良好，但在肯定會在測試時出現的罕見、分布外情景中，它們的表現可能特別差。基于多任務訓練、來自多個領域的大型數據集的基礎模型的興起，使研究人員相信這些模型可能提供現有規劃器所缺失的“常識”推理。研究人員認為，這種常識推理將彌合算法開發與部署到分布外任務之間的差距，就像人類適應意外情景一樣。大型語言模型已經滲透到機器人和自主系統領域，研究人員正在爭先恐后地展示它們在部署中的潛在用例。雖然這一應用方向從經驗上看非常有希望，但基礎模型已知會產生幻覺，并生成可能聽起來合理但實際上卻很差的決策。我們認為有必要同時退一步，設計可以量化模型決策確定性的系統，并檢測何時可能產生幻覺。在這項工作中，我們討論了基礎模型用于決策任務的當前用例，提供了一個帶有示例的幻覺的一般定義，討論了現有的幻覺檢測和緩解方法，重點是決策問題，并探索了這一激動人心領域的進一步研究領域。

身為機器學習和機器人研究者的我們正處于一個激動人心的時代。在過去的十五年中，關于感知、決策制定、規劃和控制模型的效能和效率取得了巨大的進展（Soori等人，2023；Janai等人，2020）。廣義上說，這些問題的解決方法可以歸為兩大類：手工設計的基于模型的系統和基于數據驅動的學習模型（Formentin等人，2013）。開發者可能會有某些部署場景 in mind，他們可能手工編寫規則（Hayes-Roth，1985）或調整控制器（Borase等人，2021）進行測試，或者在基于學習的模型的情況下，收集訓練數據并設計某種獎勵函數，以依據這些數據將模型適配到一個目標上（Henderson等人，2018）。在實踐中，這些方法在它們專門設計和訓練的場景中工作得特別好，但在之前未見過的分布外情況下可能產生不希望的結果（Wen等人，2023）。設計者可能選擇添加更多規則，重新調整他們的控制器，對他們的模型進行微調以適應更具代表性的數據集，修正獎勵函數以處理邊緣情況，甚至在測試時添加一個探測器（可能基于規則或數據驅動）來識別分布外情況，然后再調用決策制定者（Singer和Cohen，2021；Schreiber等人，2023；Chakraborty等人，2023）。然而，即使有了這些改變，在部署過程中總會出現設計者之前沒有考慮過的其他情況，導致次優的性能或關鍵失敗。此外，對模型所做的修改可能在測試時產生意想不到的效果，如不希望的沖突規則（Ekenberg，2000）或早期學到的技能的災難性遺忘（Kemker等人，2018）。

非正式地說，傳統方法和數據驅動的方法缺乏人類在不熟悉的環境中適應所用的某種形式的常識（Fu等人，2023a）。更近期，研究人員正在探索使用大型（視覺）語言模型，即L(V)LMs，來填補這一知識差距（Cui等人，2024）。這些模型是通過收集和清理一個巨大的自然語言數據集，對該數據集進行預訓練以重構句子，對特定任務進行微調（例如，問答），并應用人在回路的增強學習來產生更合理的反應（Achiam等人，2023）來開發的。盡管這些模型是另一種嘗試在給定上下文條件下最大化生成文本可能性的數據驅動學習形式，研究人員已經表明，它們有能力概括到它們未經訓練的任務，并對其決策進行推理。因此，這些基礎模型正在被測試用于模擬決策制定（Huang等人，2024b）和真實世界的機器人學（Zeng等人，2023）任務中，以取代感知、規劃和控制模塊。即便如此，基礎模型并非沒有局限性。具體來說，這些模型傾向于產生幻覺，即生成聽起來合理但實際上不準確或會在世界中產生不希望效果的決策或推理。這一現象引發了一項新的研究方向，嘗試探測L(V)LMs何時產生幻覺，以便產生更可信賴和可靠的系統。在這些大型黑盒系統應用于安全關鍵情況之前，需要有方法探測和緩解幻覺。因此，這篇綜述收集并討論了當前基礎模型在決策制定任務中幻覺緩解技術，并提出了潛在的研究方向。現有的綜述主要集中于提出在問答（QA）（Ji等人，2023；Rawte等人，2023；Zhang等人，2023d；Ye等人，2023）或對象檢測任務（Li等人，2023c）中的幻覺檢測和緩解方法。還有其他工作提供了當前使用L(V)LMs在自動駕駛汽車（Yang等人，2023b）和機器人學（Zeng等人，2023；Zhang等人，2023a）中的用例示例。Wang等人（2023a）對多種基礎模型的可信度進行了深入分析，而Chen和Shu（2024）提供了LLMs內幻覺的分類，但兩者都排除了通用決策問題的應用。據我們所知，我們是第一個提出可以靈活調整以適應任何特定部署設置的幻覺的一般定義，包括常見的應用到QA或信息檢索，以及在規劃或控制中的最新發展。此外，沒有現有工作總結了決策制定和規劃任務中的幻覺檢測和緩解方法的最新技術。在本工作的剩余部分，我們將在第2節討論基礎模型在決策制定任務中的當前使用，第3節定義幻覺并提供示例，第4節和第5節分別識別當前的檢測方法和評估它們的地方，并在第6節探索可能的研究方向。

基礎模型做出決策

最初由Bommasani等人（2022）提出，“基礎模型”這一術語指的是“在廣泛數據上進行大規模訓練，以便它們可以適應廣泛的下游任務”的模型。這種方法與設計和在一小部分數據上訓練模型以部署到特定任務的工作形成對比（楊等人，2024）。關鍵區別在于，基礎模型經過一個在大規模數據集上的預訓練程序，該數據集包含來自多種可能部署領域的信息，通過這種方式，它們預期將學習更通用的特征和對應關系，這些在更廣泛的任務集上的測試時可能有用（周等人，2023；趙等人，2023）。現有的預訓練基礎模型的示例涵蓋了語言（Devlin等人，2019；Brown等人，2020；Touvron等人，2023a）、視覺（Caron等人，2021；Oquab等人，2024；Kirillov等人，2023）和多模態（Radford等人，2021；Achiam等人，2023）輸入。在本節中，我們簡要概述了基礎模型在機器人、自動駕駛汽車和其他決策系統中的現有用例。我們還簡潔地指出了這些工作中發現的幻覺，并在3.2節中留下更長的討論。讀者應參考楊等人（2023b）、曾等人（2023）和張等人（2023a）的作品，以更深入地回顧應用領域。

檢測與緩解策略

幻覺檢測和緩解方法可以根據算法可用的輸入被分類為三種類型（白盒、灰盒和黑盒）。通常情況下，在給定一些上下文后，基礎模型輸出預測的令牌序列、每個令牌對應的概率以及來自網絡中間層的生成的嵌入。白盒幻覺檢測方法假設可以訪問所有三種輸出類型，灰盒需要令牌概率，而黑盒只需要預測的令牌序列。因為不是所有基礎模型都提供對其隱藏狀態的訪問，甚至令牌的輸出概率分布（例如，ChatGPT的網絡界面），黑盒算法在測試時更加靈活。在本節中，我們按輸入類型聚集現有的檢測和緩解方法進行介紹。雖然這些工作中的許多在問答和對象檢測設置中顯示出希望，但它們中的許多在決策制定任務上需要進一步驗證，我們將指出這些方法的出現。本節的工作在表2中總結。

付費5元查看完整內容

相關內容

大模型

關注 213

大模型是基于海量多源數據打造的預訓練模型，是對原有算法模型的技術升級和產品迭代，用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習，以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

視覺Transformer ·

2024 年 5 月 5 日

[付費5元查看完整內容]《模型量化與視覺變換器硬件加速》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

視覺變換器（Vision Transformers，ViTs）最近引起了相當大的關注，作為卷積神經網絡（CNNs）的有希望替代品，在幾個與視覺相關的應用中顯現出來。然而，它們龐大的模型尺寸以及高計算和內存需求阻礙了部署，特別是在資源受限的設備上。這強調了針對ViTs的算法-硬件協同設計的必要性，旨在通過定制算法結構和底層硬件加速器來優化它們的性能，以彼此的優勢為依托。模型量化通過將高精度數值轉換為低精度，減少了ViTs的計算需求和內存需求，允許創建專門為這些量化算法優化的硬件，提高效率。本文提供了ViTs量化及其硬件加速的全面綜述。我們首先深入探討ViTs的獨特架構屬性及其運行特性。隨后，我們檢查模型量化的基本原理，接著是對ViTs最先進量化技術的比較分析。此外，我們探索了量化ViTs的硬件加速，強調了硬件友好算法設計的重要性。最后，本文將討論持續的挑戰和未來研究方向。我們在

//github.com/DD-DuDa/awesome-vit-quantization-acceleration 上持續維護相關的開源材料。

在計算機視覺領域，卷積神經網絡（CNNs）歷來是基石，已在眾多任務中展示出顯著的效果。然而，隨著變換器（Transformer）架構的出現，情況開始發生變化。變換器在自然語言處理（NLP）中取得了巨大成功之后，被適配用于計算機視覺，形成了視覺變換器（Vision Transformers，ViTs）。ViTs的關鍵特性是自注意力（self-attention），它允許模型通過學習圖像標記序列中元素之間的復雜關系，從而在上下文中分析視覺數據。這種把握更廣泛上下文及圖像內部依賴關系的能力，推動了基于變換器的視覺模型的迅速發展，并隨后將它們確立為多種任務的新基礎，包括圖像分類、對象檢測、圖像生成、自動駕駛和視覺問題回答，展示了它們在計算機視覺中的多功能性和變革性影響。盡管ViTs具備卓越的能力，但由于其本質上龐大的模型尺寸以及自注意力機制導致的計算和內存需求呈二次方增長，特別是在圖像分辨率提高時，這些因素顯著阻礙了其在計算和內存資源受限的設備上的部署，尤其是在如自動駕駛和虛擬現實等實時應用中，滿足低延遲需求和提供高質量用戶體驗至關重要。這強調了對模型壓縮技術如剪枝、量化、知識蒸餾和低秩分解等進步的迫切需要。此外，ViTs的迅速采用不僅歸功于算法創新和數據可用性，還歸功于處理器性能的提升。雖然CPU和GPU提供廣泛的計算多樣性，但它們固有的靈活性可能導致效率低下。鑒于ViTs的重復性但又獨特的操作特性，利用專門設計的硬件來優化數據重用，從而提高ViT部署的效率，存在明顯的機會。量化是一種將高精度映射為低精度的技術，已成功地促進了輕量級和計算效率高的模型的創建，增強了算法與硬件的交互。在算法方面，有多種專門為ViTs設計的技術，旨在在數據壓縮至較低位寬后保持應用的準確性。其中一些技術被設計得更符合硬件友好，考慮到現有的架構，如GPU的INT8/FP8 Tensorcore。在硬件方面，高級量化算法的優化推動了更高效處理器的設計，可能包括更有效的數據重用模塊，用于并行處理低位數據。算法和硬件的共同設計是現代硬件加速器開發中的常見方法，顯著提高了它們的性能。然而，近年來發布的大量相關工作使得初學者難以獲得全面的概述和清晰的比較結果。此外，一些在不考慮實際硬件的情況下模擬算法設計的方法，在部署時可能導致意外的精度低下。迫切需要一項全面的綜述，總結、分析并比較這些方法。本文力求填補這一空白，提供了關于ViTs量化及其硬件加速的廣泛回顧。具體而言，我們深入探討了ViTs量化的細微挑戰，從算法和硬件兩個角度出發，提供了不同量化方法的縱向比較，并在圖1中進行了說明。此外，我們展示了先進的硬件設計解決方案，并推測未來的趨勢和潛在機會。與近期的綜述相比——有些專注于各種高效技術但不考慮硬件，有些僅限于推理優化且算法細節有限，還有些提供了主要針對大型語言模型的模型壓縮的廣泛概覽——本文提供了詳細的描述和比較，以協同的方式處理算法與硬件的相互作用，從而提供了對ViTs量化領域更清晰、更有結構的洞見。本文的組織結構如下所述。第二部分深入探討了視覺變換器的架構，介紹了其變體，并通過分析其運行特性和瓶頸進行了剖析。第三部分闡述了模型量化的基本原理。隨后，第四部分檢查了與ViTs量化相關的迫切挑戰，并提供了先前方法性能的比較回顧。第五部分探索了可用于硬件加速的方法范圍。最后，第六部分總結了本文，突出了潛在的機會和挑戰。

付費5元查看完整內容

大型語言模型 · 持續學習 ·

2024 年 4 月 26 日

[付費5元查看完整內容]《大型語言模型持續學習》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在靜態、預先收集的通用數據集上的訓練取得的最近成功，已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習（CL）社區進行了廣泛研究，但在LLMs領域呈現出新的表現形式。在這篇綜述中，我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外，這篇綜述被分為四個主要部分：我們首先描述了持續學習LLMs的概覽，包括兩個連續性方向：垂直連續性（或垂直持續學習），即從一般到特定能力的持續適應；和水平連續性（或水平持續學習），即跨時間和領域的持續適應（第3節）。在垂直連續性之后，我們總結了在現代CL背景下學習LLMs的三個階段：持續預訓練（CPT）、領域適應性預訓練（DAP）和持續微調（CFT）（第4節）。然后我們提供了LLMs的持續學習評估協議的概覽，以及當前可用的數據來源（第5節）。最后，我們討論了有關LLMs持續學習的引人深思的問題（第6節）。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域，表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準，以及專門設計的方法論，以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型（LLMs）的進步顯示了實現人工普遍智能（AGI）的巨大潛力。研究人員觀察到，隨著參數規模的增加，多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性，促使機器學習從業者重新考慮傳統的計算范式，用于處理一些曾經具有挑戰性的人類水平任務，如問答、機器翻譯和對話系統。然而，LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練，導致性能隨時間逐漸降低，并且在不同內容領域之間也會降低。此外，單一的預訓練大模型無法滿足每個用戶的需求，需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案，但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務，同時盡量減少對以前知識領域的性能退化，研究者采用了持續學習的方法，也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發，涉及按順序在一系列任務上訓練機器學習模型，期望在所有任務中保持性能。在訓練過程中，模型對以前的數據有限或無法訪問，這在保留過去知識時構成了一個挑戰，因為在當前任務學習時，來自未見過的以前數據的優化約束是不存在的。這一挑戰，被稱為災難性遺忘，自持續學習研究開始以來一直是研究的中心焦點。多年來，研究者探索了各種技術來減輕機器學習模型中的遺忘，這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下，CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變，在這篇綜述中，我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況，我們將其分為兩個需要由從業者解決的連續性方向（第3節）：

垂直連續性（或垂直持續學習），指的是LLMs從大規模通用領域到小規模特定領域的持續適應，涉及學習目標和執行實體的轉變。例如，醫療機構可能開發專門為醫療領域定制的LLMs，同時保留其一般推理和問答能力，以服務用戶。
水平連續性（或水平持續學習），指的是跨時間和領域的持續適應，通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如，社交媒體平臺不斷更新LLMs以反映最近的趨勢，確保精確地定位下游服務如廣告和推薦，同時為現有用戶提供無縫的用戶體驗。

在圖1中，繼垂直連續性之后，我們勾畫了現代CL中LLM學習的三個關鍵階段：持續預訓練（CPT）、領域適應性預訓練（DAP）和持續微調（CFT）（第4節）。在CPT中，現有研究主要調查三種類型的分布式轉變：時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中，雖然它主要被視為為下游任務準備LLMs的過程，但頻繁地使用CL評估和技術。然而，這些技術的多樣性明顯不足，考慮到傳統CL社區的成熟度。在CFT中，我們關注的是學習LLMs的新興領域，涵蓋持續指令調整（CIT）、持續模型精煉（CMR）、持續模型對齊（CMA）和持續多模態LLMs（CMLLMs）等主題。接下來，我們呈現了一系列公開可用的評估協議和基準（第5節）。我們總結我們的綜述，討論了LLMs持續學習的最新出現的特性，傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化，以及這個主題的潛在研究方向（第6節）。總結而言，本文提供了一份詳盡的現有持續學習研究LLMs的綜述，顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域，特別是在持續預訓練（CPT）和領域適應性預訓練（DAP）領域的研究。我們強調需要社區更多的關注，迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外，需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角，在迅速變化的LLMs領域中，幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看，它可以大致分為三個階段的LLMs持續訓練，我們將在第4節逐一介紹每個階段。在4.3節中，將介紹持續微調LLMs的獨特方面，包括持續指令調整（4.3.3節）、持續模型精煉（4.3.4節）、持續模型對齊（4.3.5節）和持續多模態大型語言模型（4.3.6節）。在第5節中，我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后，在第6節中，我們討論了在大型語言模型時代持續學習的角色，包括大規模持續LLMs的新興能力（6.1節）、三種類型的持續學習（6.2節）、LLMs持續學習中的記憶角色（6.3節）以及未來的研究方向（6.4節）。持續學習與大型語言模型相遇：概覽****大型語言模型（LLMs）在多個維度上都非常龐大，包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰，特別是在快速變化的環境中保持更新。舉例來說，2023年，用戶發布的新推文的平均每日流量超過5億，即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時，有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側，模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后，消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率，他們最初對持續預訓練的LLMs進行了幾項關鍵觀察，聚焦于模式連接性和功能相似性。此外，他們提出在上游預訓練LLM進行重大更新后，復用過時的微調組件。基于《可回收調整》引入的概念框架，我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架，涉及持續LLM預訓練、適應和部署，如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向：垂直連續性和水平連續性。

結論

在這項工作中，我們提供了一份關于持續LLMs的綜述，從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置，對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長，但我們也注意到幾個缺失的基石，包括算法多樣性以及對大模型行為（如知識遺忘、轉移和獲取）的基本理解。通過全面而詳細的方法，我們希望這篇綜述能激勵更多從業者探索持續學習技術，最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

生成式人工智能 · AI與軍事 ·

2024 年 4 月 22 日

[付費5元查看完整內容]《生成式人工智能模型：機遇與風險》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

生成式人工智能模型能夠執行一系列傳統上需要創造力和人類理解力的任務。在訓練過程中，它們可以從現有數據中學習模式，然后根據這些模式生成文本、圖像和音樂等新內容。一方面，由于它們的多功能性和普遍的高質量結果，它們代表了數字化的機遇。另一方面，人工智能生成模型的使用也帶來了新的 IT 安全風險，在全面分析與 IT 安全相關的威脅時需要考慮這些風險。

針對這種潛在風險，使用生成式人工智能的公司或機構在將生成式人工智能集成到工作流程之前，應進行單獨的風險分析。這同樣適用于開發人員和運營商，因為生成式人工智能的許多風險必須在開發時就考慮到，或者只能由運營公司來影響。在此基礎上，可以調整現有的安全措施，并采取額外的措施。

付費5元查看完整內容

大型語言模型 · 參數高效微調 ·

2024 年 3 月 22 日

[付費5元查看完整內容]《大型模型的參數高效微調》全面綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型模型在多個應用領域代表了突破性的進步，使得各種任務都取得了顯著的成就。然而，它們前所未有的規模帶來了重大的計算成本。這些模型通常包含數十億參數，需要大量計算資源來執行。特別是，它們龐大的規模和計算需求在為特定的下游任務定制時，尤其是在計算能力受限的硬件平臺上，提出了相當大的挑戰。參數高效微調（PEFT）提供了一個實用的解決方案，通過高效地適應各種下游任務來調整大型模型。具體來說，PEFT指的是調整預訓練大型模型的參數以將其適應于特定任務或領域的過程，同時最小化引入的額外參數數量或所需的計算資源。這種方法在處理參數計數高的大型語言模型時尤為重要，因為從頭開始微調這些模型可能在計算上代價高昂且資源密集，給支持系統平臺設計帶來了相當大的挑戰。在這項綜述中，我們對各種PEFT算法進行了全面的研究，檢查了它們的性能和計算開銷。此外，我們提供了使用不同PEFT算法開發的應用程序的概覽，并討論了用于減輕PEFT的計算成本的常見技術。除了算法視角，我們還概述了各種現實世界的系統設計，以調查與不同PEFT算法相關的實施成本。這項綜述是希望理解PEFT算法及其系統實現的研究人員不可或缺的資源，提供了關于最近進展和實際應用的詳細見解。

近期，大型模型（LMs）引起了廣泛的公眾興趣。它們理解上下文和細微差別的能力，使其能夠熟練地處理跨多個領域的多樣化任務，包括自然語言處理（NLP）、計算機視覺（CV）等。在NLP領域，大型語言模型（LLMs）在包括文本生成[10]、[243]、翻譯[239]、[61]、個性化聊天機器人[192]、[103]、[187]和摘要[212]等各種任務上取得了重大進步，展現了非凡的熟練度。

早期研究[10]表明，LLMs表現出高水平的泛化能力，能夠將其獲得的知識應用于原始訓練中未包括的新任務。這種能力通常被稱為零樣本學習。盡管如此，為了進一步提升LLMs在新用戶數據集和任務上的最佳性能，微調仍然是必不可少的。由于其規模，微調LLMs的廣泛采用策略涉及調整有限數量的LLM參數，同時保持其余部分不變。這種技術，稱為參數高效微調（PEFT），涉及選擇性地調整少部分參數，同時保持其余部分不變。此外，PEFT的應用范圍不僅限于NLP領域，并迅速吸引了CV社區的興趣，用于處理具有大量參數的視覺模型的微調，例如視覺變換器（ViT）和擴散模型，以及跨學科模型，如視覺-語言模型。

在這項綜述中，我們系統地回顧和分類了PEFT算法的最新進展，以及與各種PEFT算法相關的系統實現成本。圖1展示了本綜述的概覽內容。在第II部分，我們介紹了LLM和PEFT的一些基本概念，包括LLM的計算流程、PEFT的基礎知識，以及常用的數據集和任務。

我們在第III部分根據它們的計算流程將所有類型的PEFT算法進行了分類。在第III-A部分，我們介紹了添加型算法，這類算法要么引入額外的權重參數，要么修改激活函數。對于那些僅需使用現有參數進行微調的算法，它們被歸類為選擇性方法，其介紹可以在第III-B部分找到。在第III-C部分，我們探討了重參數化PEFT，它構造了原始模型參數的（低維）重參數化以進行訓練，同時變換權重以保持推理速度。此外，還存在結合上述技術的算法，我們將這些分類為混合方法，在第III-D部分對它們進行了闡述。我們還在第IV部分調查了進一步降低不同PEFT算法計算復雜度的策略，包括KV緩存管理、剪枝、量化和內存優化。

在第V部分，我們將這項綜述的范圍擴展到計算視角之外，涉及各種潛在的應用場景。我們探索了將PEFT技術應用于不同模型架構的創新，包括LLMs（第V-A部分）、視覺變換器（第V-B部分）、視覺-語言對齊模型（第V-C部分）和擴散模型（第V-D部分），用于各種下游任務，強調了PEFT在多種場景中的多功能性和適用性。

在第VI部分，我們探討了PEFT方法的系統設計挑戰。討論包括三種先進的系統解決方案，用于PEFT的實際部署：分布式調整（第VI-B部分）、PEFT查詢服務（第VI-C部分）和并發PEFT調整（第VI-D部分）。在最后的第VII部分，我們總結了我們的綜述，并從算法和系統視角提出了幾個潛在的未來方向，希望為該領域的進一步研究和發展提供有價值的見解。

參數高效微調（PEFT）概覽

為了提升LLM在未見用戶數據集和任務上的性能，微調仍然是必不可少的。隨著模型大小的增長（例如，從GPT-2的1.5B增長到GPT-3的175B），標準的全微調范式需要成千上萬的GPU并行工作，這在高度效率和可持續性方面是極其低效的。一種名為參數高效微調（PEFT）的算法應運而生，旨在通過調整最少的參數在下游任務上實現比全面微調更好的性能。

在視覺和多模態領域，大規模預訓練模型的并行發展同樣展示了它們有效的表示學習能力，使得從大數據集到小數據集或跨不同數據模態的適應通過微調變得可行。因此，這種能力使得PEFT越來越吸引更廣泛的研究社區。

我們根據它們的操作將PEFT算法分類為加法、選擇性、重參數化和混合微調。如圖3所示，通常使用三種主要的加法微調算法：（1）適配器；（2）軟提示；（3）其他。它們在不同的額外可調模塊或參數方面有所不同。另一方面，選擇性微調不需要任何額外的參數，它從骨干模型中選擇一小部分參數，并僅使它們在下游任務的微調過程中可調，同時保持大多數參數不受影響。我們基于所選參數的分組將選擇性微調進行了分類：（1）非結構化遮罩；（2）結構化遮罩。重參數化代表在兩種等效形式之間轉換模型參數。具體而言，重參數化微調在訓練期間引入額外的低秩可訓練參數，然后這些參數在推理時與原始模型集成。這種方法被歸類為兩種主要策略：（1）低秩分解，和（2）LoRA衍生物。混合微調探索不同PEFT方法的設計空間，并結合它們的優點。

PEFT策略可以廣泛地分為四個類別：加法PEFT（第III-A節），通過注入新的可訓練模塊或參數來修改模型架構；選擇性PEFT（第III-B節），在微調期間使參數子集成為可訓練的；重參數化PEFT（第III-C節），為訓練構造原始模型參數的（低維）重參數化，然后等效地將其轉換回推理；以及混合PEFT（第III-D節），結合不同PEFT方法的優點來構建統一的PEFT模型。不同類型PEFT算法的概覽在圖4中展示。

標準的全面微調需要大量的計算開銷，并且還可能損害模型的泛化能力。為了緩解這個問題，一個廣泛采用的方法是保持預訓練的骨干網絡不變，并且僅在模型架構中的戰略位置引入最小數量的可訓練參數。在針對特定下游任務進行微調時，只有這些額外模塊或參數的權重被更新，這導致存儲、內存和計算資源需求的大幅減少。由于它們的特點是增加參數，這些技術可以被稱為加法調整，如圖4（a）所示。接下來，我們將討論幾種流行的加法PEFT算法。與通過增加更多參數提高模型復雜性的加法PEFT不同，選擇性PEFT微調現有參數的一個子集，以提升模型在下游任務上的性能，如圖4（b）所示。重參數化代表通過轉換其參數，等效地將模型架構從一種轉換到另一種。在PEFT的背景下，這通常意味著構造一個低秩參數化以在訓練期間實現參數效率的目標。對于推理，可以將模型轉換為其原始的權重參數化，確保推理速度不變。這一過程在圖4（c）中展示。

付費5元查看完整內容

大模型 · 大型語言模型 · 大型多模態模型 ·

2024 年 3 月 8 日

[付費5元查看完整內容]《大模型對齊方法》最新綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大模型在人工智能領域取得了革命性的突破，但它們也可能帶來潛在的擔憂。為了解決這些擔憂，引入了對齊技術，以使這些模型遵循人類的偏好和價值觀。盡管過去一年取得了相當大的進展，但在建立最佳對齊策略時仍然存在各種挑戰，例如數據成本和可擴展的監督，如何對齊仍然是一個懸而未決的問題。在這篇綜述文章中，我們全面調查了價值對齊方法。我們首先解析對齊的歷史背景，追溯到20世紀20年代（它來自哪里），然后深入探討對齊的數學本質（它是什么），揭示了固有的挑戰。在此基礎上，我們詳細檢查了現有的對齊方法，這些方法分為三類：強化學習、監督式微調和上下文內學習，并展示了它們之間的內在聯系、優勢和限制，幫助讀者更好地理解這一研究領域。此外，還討論了兩個新興主題：個人對齊和多模態對齊，作為該領域的新前沿。展望未來，我們討論了潛在的對齊范式以及它們如何處理剩余的挑戰，展望未來對齊的方向。

大模型，是指在大量數據上訓練并包含超過數十億參數的神經模型（Bommasani et al., 2021），通常包括大型語言模型（LLMs）和大型多模態模型（LMMs）。LLMs 通常是基于Transformer（Vaswani et al., 2017）的大規模語言模型，以自回歸方式訓練（Zhao et al., 2023a），如GPT-3（Brown et al., 2020）、PaLM（Narang and Chowdhery, 2022）、ChatGPT（Ouyang et al., 2022）、Bard（Aydin, 2023）和LLaMA（Touvron et al., 2023a）。LLMs 的卓越能力也促進了LMMs 的發展，LMMs 能夠處理圖像（視覺）和自然語言文本（語言）（Dirik and Paul, 2023），如PaLM-E（Driess et al., 2023）、LLaVA（Liu et al., 2023c）、DALL-E 3（Betker et al., 2023）和Gemini（Team et al., 2023）。與小模型（Cho et al., 2014；Devlin et al., 2018）不同，大模型展示了兩個獨特特征：規模化法則（Kaplan et al., 2020），闡明了模型規模增長與性能改進之間的一致關系，以及新興能力（Wei et al., 2022a）顯示，當模型規模超過某一閾值時，意外地出現了在小模型中未觀察到的新能力，如上下文內學習（Wang et al., 2023a）、指令跟隨和跨多種任務和領域的逐步推理（Wei et al., 2022b），革新了AI的角色。因此，語言模型（LMs）經歷了逐步的演化，從統計語言模型（SLMs）（Pauls and Klein, 2011）和神經語言模型（NLMs）（Cho et al., 2014）開始，進步到預訓練語言模型（PLMs）（Devlin et al., 2018；Radford et al., 2019），最終導致LLMs的復雜出現。沿著這樣的軌跡，LLMs 也通過整合大規模圖文對和精心設計的目標進行預訓練，建立這兩種模態之間的內在聯系（Dosovitskiy et al., 2020；Liu et al., 2021）。這些大模型已經演變成各種變體，如圖1所示，深刻影響了多個行業和領域，根本性地改變了我們解決實際問題的方式。然而，每枚硬幣都有兩面。由于大模型通常是在從互聯網爬取的數據集上預訓練的，它們也可能內化風險信息并引發一些潛在的擔憂（Tamkin et al., 2021; Bender et al., 2021; Kaddour et al., 2023），包括產生社會偏見（Sheng et al., 2019）、有害語言和排斥（Gehman et al., 2020）、錯誤信息（Bommasani et al., 2021）和社會經濟傷害（Weidinger et al., 2022），對社會造成深遠的影響。此外，觀察到兩個風險特征，（1）逆規模化：某些風險可能不僅僅是保持不變，而且隨著模型規模的增加而惡化（McKenzie et al., 2023），（2）新興風險：未見的風險可能出現或顯著放大的現有風險隨著更大的模型而出現（Wei et al., 2022a），使得之前建立的特定風險方法難以處理迅速出現的潛在問題。對這些倫理和社會風險給予極高的重視是至關重要的。低估這些風險可能會導致嚴重的后果。例如，可能煽動仇恨或暴力的有害語言，可能導致財產損失的私人數據泄露，以及在敏感領域可能造成傷害的錯誤信息，例如不準確的法律或醫療建議（Weidinger et al., 2021）。

為了解決上述風險，研究人員開發了各種對齊方法，以使LLMs與人類指令、偏好和價值觀對齊（Ouyang et al., 2022; Liu et al., 2022; Rafailov et al., 2023）。在LMMs的背景下，"對齊"這一術語傳統上指的是不同模態之間的對齊，如視覺和語言（Jia et al., 2021; Radford et al., 2021）。然而，隨著LLMs中對齊技術的進步，現在它傾向于代表使LMMs對齊，以使它們遵循人類指令并完成多樣化的任務（Liu et al., 2023c; Zhu et al., 2023; Dai et al., 2023）。對齊的概念可以追溯到諾伯特·維納的表述，“我們最好確信放入機器中的目的是我們真正想要的目的”（Wiener, 1960），這被定義為“A試圖做H想要它做的事情”，其中A和H是現代AI研究中的兩個智能代理（Yudkowsky, 2016; Christiano, 2018）。隨后，對齊的研究在強化學習（RL）領域逐漸獲得重要性（Hadfield-Menell et al., 2016; Everitt and Hutter, 2018; Leike et al., 2018），并在大模型時代蓬勃發展（Kenton et al., 2021），培育了多樣化的生成模型和多模態模型，如圖1所示。良好對齊的AI代理，例如LLMs，不僅具有遵循用戶指令從而協助完成任務或回答問題的能力，還有避免生成攻擊性或歧視性內容的能力（Askell et al., 2021）。相反，未對齊的AI將會導致潛在風險，如真實性問題、錯誤信息、上癮和群體兩極分化（Zhuang and Hadfield-Menell, 2020; Pan et al., 2022），如前所述。

盡管近年來取得了顯著進展，但對大模型對齊的研究仍處于初級階段，理解這一主題仍存在許多模糊和困難。認識到對齊的重要性，本文致力于對現有對齊方法進行全面的綜述和分析，以促進人工智能與人類的共生未來。我們的范圍包括：i) 介紹對齊的歷史并詳述對齊的本質（第2節），ii) 回顧現有方法論并分析其優勢、劣勢和聯系（第3節），以及iii) 討論未來的挑戰和研究方向（第4節）。

對齊目標

在深入探討如何對齊之前，我們首先簡要介紹需要對齊的目標。對齊目標的討論源自于規范問題，即我們如何定義我們期望從人工智能中得到的目的？（Leike et al., 2018），這可以從兩個方面考慮（Gabriel, 2020）：（1）規范方面：我們應該將什么目標編碼進人工智能中，以及（2）技術方面：我們如何形式化和建模這些目標。未能實現目標可能會導致人工智能尋找漏洞并以意料之外的方式實現目標，這被稱為規范游戲（Skalse et al., 2022）。從前者方面來看，對齊目標范圍從指令、意圖和偏好到利益、價值等（Gabriel, 2020）。另一個流行的目標是有益、誠實和無害（HHH）原則（Askell et al., 2021）。然而，大部分工作（Ouyang et al., 2022; Rafailov et al., 2023）強調對齊方法，而忽略了關于哪個目標最合適的分析。

良好對齊的模型能夠生成與這些確定的目標一致的內容。然而，由于評估者追求錯誤的目標、問題獎勵模型或策略（Casper et al., 2023），可能會出現錯位問題。錯位的模型可能會無意中導致意料之外或不希望的傷害和后果。例如，存在惡意使用的潛力，這些模型可能生成錯誤信息或歧視性和有害的內容（Brundage et al., 2018）。此外，即便是相當良好對齊的模型，也仍然可能展現出某些缺陷。它們可能產生幻覺（Ji et al., 2023），傳播偏見（Santurkar et al., 2023），并且容易受到如越獄（Li et al., 2023b）等對抗性攻擊的影響。

總體而言，實現對齊需要仔細考慮它們應該對齊的各種目標，解決潛在的錯位問題，并減輕這些模型可能具有的限制和脆弱性。

對齊方法

LLMs的對齊方法主要分為三種范式：基于強化學習的對齊（第3.1節）、基于監督式微調的對齊（第3.2節）和上下文內對齊（第3.3節）。在這一節中，我們將介紹和討論它們，以及個性化對齊（第3.5節）和LMM對齊（第3.4節），并建立它們與第2節中介紹的定義的聯系。所有類別的對齊方法都在附錄中的圖7中總結。

強化學習對齊

RLHF的理念最初在（Christiano et al., 2017）中被揭示，其中人類偏好是針對代理軌跡的片段表達的，用于深度強化學習，使得學習更復雜的行為成為可能。之后，Stiennon等人（2020）將RLHF技術應用于摘要任務中，并學習人類對不同摘要的偏好，從而顯著提高了質量。此外，Nakano等人（2021）提出了WebGPT，它在GPT-3上進行微調，并利用RLHF來提煉網頁導航和信息檢索的能力。這些早期使用RLHF的研究主要旨在提高模型性能，特別是在“有用性”或“誠實性”方面，可能忽略了“無害性”（HHH）（Askell et al., 2021）。這種失敗可能會導致LLMs與人類價值觀的錯位，導致模型輸出對用戶有害或不真實，如第1節所述。為了減少這種傷害，InstructGPT（Ouyang et al., 2022）利用RLHF與用戶的意圖對齊，后者通過標記的模型響應來表示，以滿足HHH原則。RLHF技術直接催生了最成功的互動對話LLMs之一，ChatGPT，激發了對人工通用智能（AGI）的追求。

盡管RLHF的效果令人滿意，但它需要同時加載至少三個LLMs，即πθ、πSFT和R?，以及大量高質量的手動標記數據，D(x, yw, yl)。這帶來了無法承受的數據/訓練成本（RC3）。為了應對這一挑戰，提出了Constitutional AI（Bai et al., 2022b）以實現與人類標簽的對齊。這種方法類似于RLHF，但通過要求LLM生成并修正其響應來自動創建對（yw, yl）。這個框架促進了對齊的新方向，即基于AI反饋的強化學習（RLAIF）。隨后，開發了RLAIF的不同變體。Kim等人（2023）首先利用來自不同規模和提示的LLMs衍生的合成偏好數據來訓練獎勵模型。然后，他們自動生成高質量的示范用于SFT步驟，接著進行獎勵模型的RL調整。另一方面，為了提高RLHF的計算效率，Gulcehre等人（2023）提出了一種離線強化自訓練（ReST）方法。ReST從最新LLM策略中采樣多個響應以擴充訓練數據集（增長步驟），然后使用過濾后的數據通過離線RL目標對LLM策略進行微調（改進步驟）。

RLHF在實現相對良好的泛化方面已被證明是有效的，具有更好利用人類反饋信號的潛力。然而，它因訓練不穩定和高訓練/數據成本（RC3）而臭名昭著，這阻礙了RLHF進一步的適應性（RC2）和可擴展性（RC6）。此外，方程（7）中不同項之間的權衡是難以處理的（RC5），而RC4&7也仍未解決（Casper et al., 2023）。

考慮到SFT和RL的成本，以及大多數主流LLMs是黑盒的事實，基于微調的對齊方法變得越來越難以承擔或不可行。因此，另一種受歡迎的范式——基于上下文學習（ICL）的對齊——吸引了更多的注意。這種方法利用了LLMs在預訓練和指令調整階段獲得的龐大知識和遵循指令的能力。

多模態對齊

除了LLMs之外，大型多模態模型（LMMs）近年來也開啟了發展的新篇章，能夠同時處理多種模態，如圖像、視頻和文本，并學習從一種模態到另一種模態的映射（Liu et al., 2023c）。對LLMs的初步對齊成就表明了在多模態場景中進行對齊的潛力。具體來說，一系列工作整合了預訓練的視覺編碼器和LLM，并進行指令調整，以賦予LLM視覺問答（QA）能力，例如LLaVA（Liu et al., 2023c）、MiniGPT-4（Zhu et al., 2023）等（Li et al., 2023a；Gong et al., 2023；Dai et al., 2023）。LLaVA（Liu et al., 2023c）是將指令調整擴展到LLMs的第一步，它結合了CLIP的視覺編碼器和基于LLaMA的語言解碼器，并在GPT-4生成的多模態數據集上進行視覺指令調整。MiniGPT-4（Zhu et al., 2023）僅訓練單個投影層以將編碼的視覺特征與Vicuna語言模型對齊。經過在精選小數據集上的指令調整后，MiniGPT-4能生成更自然、更可靠的語言輸出。對于文本到圖像的任務，受LLMs中RLHF有效性的啟發，Lee等人（2023）提出了一種直接從人類反饋中學習的微調方法。該過程首先收集人類關于生成圖像是否與其輸入文本提示相對應的偏好數據，學習基于這些數據的獎勵模型，最后，使用獎勵加權似然最大化優化文本到圖像模型以實現對齊。為了與人類審美價值對齊，Wu等人（2023b）首先利用人類選擇的圖像微調CLIP模型作為偏好分類器。這個分類器用于為訓練數據集產生偽獎勵，進一步用于微調Stable Diffusion模型。訓練后的模型可以生成人類更偏好的更好審美質量的圖像。

多模態對齊目前處于其發展的非常初期階段，主要強調與人類指令的對齊，但忽略了如美德和社會規范等高層次和多樣化的人類價值。確保無害性提出了一個重大且不可忽視的挑戰。

個性化對齊

在心理學領域，個性指的是構成個體獨特性的獨特特征、特質以及思想、感覺和行為模式的模式。由于個性在塑造人類行為中扮演著重要角色，過去幾十年提出了大量理論和模型來解釋和分類個性的不同方面（McAdams and Pals, 2006; Roccas et al., 2002; Maslow, 1958; Freud, 1975; Bandura and Walters, 1977）。隨著大型語言模型在自然語言處理（NLP）中的革命性出現，研究發現，大型語言模型在特定提示配置下可以模擬出可靠和有效的個性（Safdari et al., 2023; Hagendorff, 2023; Jiang et al., 2023），而且對于更大和經過指令微調的模型，LLMs模擬的個性可能更強（Safdari et al., 2023），這為個性化大型語言模型提供了支持。

結論

在這項工作中，我們深入探討了對齊的起源和本質，系統地介紹了其發展、目標、形式化和評估。我們還回顧了現有的對齊研究，并分析了每個范式是如何從原始形式衍生出來的，并建立了它們的內在聯系。通過對對齊進行全面分析并識別未來的挑戰和研究方向，我們旨在為大模型的對齊方法的理解和進步做出貢獻，指導這些人工智能系統不僅避免造成傷害，而且還意圖做出善舉，最終實現一個人工智能與人類共生的未來社會。

付費5元查看完整內容

大型語言模型 · 擴散模型 · 數據增強 ·

2024 年 1 月 30 日

[付費5元查看完整內容]《大模型數據增強》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型模型，包括大型語言模型和擴散模型，已在接近人類智能方面展現出卓越的潛力，引起了學術界和工業界的極大興趣。然而，這些大型模型的訓練需要大量的高質量數據，而且隨著這些模型的持續更新，現有的高質量數據資源可能很快就會耗盡。這一挑戰促使人們大量研究數據增強方法。利用大型模型，這些數據增強技術已超越傳統方法。本文提供了一篇關于大型模型驅動的數據增強方法的全面綜述。我們首先建立了相關研究的分類，分為三個主要類別：**圖像增強、文本增強和配對數據增強。**接著，我們深入探討了與基于大型模型的數據增強相關的各種數據后處理技術。我們的討論隨后擴展到這些數據增強方法在自然語言處理、計算機視覺和音頻信號處理等領域的應用范圍。我們繼續評估基于大型模型的數據增強在不同場景中的成功與局限性。在我們的綜述中，我們突出了數據增強領域未來探索的潛在挑戰和途徑。我們的目標是為研究人員提供關鍵洞察，最終有助于更復雜大型模型的發展。我們持續維護相關的開源材料在： //github.com/MLGroup-JLU/LLM-data-aug-survey。

數據增強，作為機器學習中的關鍵策略，解決了用有限的標記數據訓練不同任務模型的挑戰。它涉及增強訓練樣本的充足性和多樣性，而無需顯式收集新數據，因此在提高模型泛化方面起著至關重要的作用（Feng et al., 2021; Shorten and Khoshgoftaar, 2019）。數據增強的本質在于通過各種變換改變現有數據點來生成新數據。這防止了模型記憶無關的數據模式，增強的數據緊密反映了真實數據的分布（Cubuk et al., 2019; Wei and Zou, 2019）。這些技術直接適用于監督學習（Liu et al., 2021c）并且可以通過一致性規則化（Zhang et al., 2021a）在半監督學習中用于未標記數據。最初為計算機視覺（CV）開發的數據增強方法通過裁剪、旋轉和色彩調整等操作創建人工圖像（Kanwal et al., 2022; Krell and Kim, 2017; Takahashi et al., 2019）。在自然語言處理（NLP）中，類似的方法包括隨機字符插入、單詞刪除和同義詞替換（Liu et al., 2020; Shorten and Khoshgoftaar, 2019）。

數據增強的重要性在學術和工業領域引起了廣泛關注。作為一個活躍的研究領域，它解決了機器學習中對大量高質量標記數據的日益增長的需求，這一需求在現實世界中往往無法滿足。盡管在過去幾十年中，特別是在深度學習技術方面，數據增強取得了顯著進展，但這些方法仍然難以捕捉現實世界數據的復雜性（Feng et al., 2021），生成可擴展數據（Yang et al., 2022），并抵御對抗性示例（Qiu et al., 2020）。

為了應對這些限制，當前研究正在探索創新技術來增強數據增強方法的效果和多樣性。其中，大型模型，包括大型語言模型（Zhao et al., 2023）和擴散模型（Yang et al., 2023），顯示出相當大的潛力。大型語言模型（LLMs），如GPT-4（OpenAI, 2023a）和Llama2（Touvron et al., 2023b），已經革新了NLP。這些模型以Transformer架構（Vaswani et al., 2017）為特點，并在廣泛的語料庫上進行訓練，擅長理解和生成類似人類的文本，標志著機器學習能力的重大進步（Zhao et al., 2023）。這些擁有數十億參數的模型可以承擔包括代碼生成（Zhang et al., 2023b）和數據增強（Dai et al., 2023）在內的多樣化和復雜任務，為人工通用智能（AGI）的實現鋪平了道路。

擴散模型（Ho et al., 2020; Song et al., 2020），一種新的最先進的生成模型家族，在計算機視覺中的圖像合成方面超越了長期占據主導地位的生成對抗網絡（GANs）（Goodfellow et al., 2014）（Dhariwal and Nichol, 2021; Ho et al., 2020）。與變分自編碼器（VAEs）（Kingma and Welling, 2013）和GANs等先前模型不同，擴散模型通過迭代添加和逆轉噪聲來生成高質量的合成圖像，并已實現文本到圖像的生成（Saharia et al., 2022），擴展了數據增強的范圍。

方法論

大型模型的出現徹底改變了數據增強的方式，提供了與傳統方法相比更具多樣性的創新和有效手段來生成訓練數據。本節將現有的方法基于目標數據類型分為三個不同的類別：圖像增強、文本增強和配對數據增強。圖像增強涉及擴展圖像數據，文本增強涉及擴展文本數據，而配對數據增強則涉及兩者。這些方法反映了數據增強的最新趨勢，突出了大型模型的重要作用。

圖像增強圖像增強通過額外信息的指導來合成逼真的圖像。我們將這些技術分為基于提示的和基于主題的方法：在基于提示的類別中包括文本、視覺和多模態方法；在基于主題的類別中包括針對特定主題的策略。文本提示驅動的方法從文本描述中生成圖像，視覺提示驅動的方法使用視覺線索，而多模態提示驅動的方法結合了文本描述和視覺指導。基于主題的方法為特定主題量身定制增強。這些方法提升了深度學習任務的性能，有助于更加健壯的訓練體驗。現有方法在表3中總結。

文本增強

文本增強著重于利用大型模型的先進能力來增強文本數據集，包括兩種策略：基于標簽的和基于生成內容的。在基于標簽的方法中，模型被用于注釋文本數據，有效地豐富了文本數據集，增加了更多的標記實例。基于生成內容的策略指導模型合成新的文本數據，從而擴展了數據集，增加了新生成的文本材料。現有方法在表4中展示。

配對數據增強

MixGen（Hao et al., 2023）是一種用于視覺-語言表示學習的數據增強方法，通過圖像插值和文本連接生成具有保留語義關系的圖像-文本對。Bakhtiarnia等人（2023）提出了一種名為PromptMix的方法，該方法從現有數據集中提取文本描述，使用提取的文本作為輸入到潛在擴散模型以生成類似于現有數據集中的圖像，使用高性能的重量級網絡對生成的圖像進行注釋，并將這個假數據集與真實數據混合，以改善輕量級深度神經網絡的訓練。為了解決視覺語言數據集中的報告偏差問題，特別是對象屬性關聯對訓練模型的潛在有害影響，Wu等人（2023b）提出了一種稱為BigAug的雙模態增強方法。這種方法利用對象屬性解耦來合成不同的視覺語言示例，并創建跨模態的硬否定。LLM和基礎對象檢測器的整合有助于提取目標對象，其中LLM為每個對象提供詳細的屬性描述。這些描述以及相應的硬否定接著被用來通過修補模型生成圖像。這個明確的過程引入了缺失的對象和屬性以供學習，其中硬否定指導模型區分對象屬性。

總結

在本節中，我們提供了對我們在第3、4和5節中審查的主要發現的綜合概述。基于大型模型的數據增強仍然是一個充滿機會和挑戰的領域。本調查旨在全面審查基于大型模型的數據增強方法，伴隨的數據后處理技術以及在下游任務中的應用。它還仔細分類了現有的基于大型模型的數據增強方法。通過總結和分析當前的研究工作，我們確定了當前方法的成功和失敗，并辨別了基于大型模型的數據增強的新趨勢。此外，我們總結了用于評估基于大型模型的數據增強的現有方法。最重要的是，這些總結可以幫助提出未來研究的新挑戰和機會。

付費5元查看完整內容

AI與軍事 · 測試與評估 · 人工智能 · 聯合全域指揮與控制 (JADC2) ·

2024 年 1 月 22 日

[付費5元查看完整內容]《綜述：測試與評估中應用的人工智能工具》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

新興技術（如人工智能 (AI)、自動駕駛）和聯合全域指揮與控制 (JADC2) 測試與評估 (T&E) 等操作概念將要求系統進行持續測試并產生更多數據。在整個測試周期中使用人工智能將使測試人員能夠處理數據，并以更快的速度和規模做出更客觀的決策。由于被測系統非常復雜，因此并不存在放之四海而皆準的軟件應用程序。相反，如果以實用的方式使用各種軟件包，可以提高訓練有素的測試與評估專業人員的能力，以應對新興技術的挑戰。本文列出了一份人工智能軟件工具清單，并總結了它們在測試與評估中的潛在應用功能。向測試界提供這份清單，并在可能的情況下利用 DoDTechipedia 等合作網站，將提高人們對可用工具及其功能的認識，鼓勵交流與合作，并有助于當前和未來工具的使用。

測試與評估 (T&E)中人工智能評估框架

人工智能工具的形式多種多樣，并采用不同的方法來滿足用戶的需求。當 T&E 專業人員在實踐中采用人工智能時，他們可以參考這份資源清單，為他們的軟件實施決策提供信息，以實現特定目標。本研究建立了一個包含七種工具功能的框架：計劃、存儲、運輸、準備、可視化、分析和監控。這七種功能的定義如下。

規劃（PL）：計劃包括了解需求、篩選特征、設計因素、記錄條件、確定限制因素、創建測試矩陣以及確定假設檢驗的置信度和功率。
存儲（S）：可訪問、可靠且可擴展的大數據安全存儲。解決方案支持跨云環境和邊緣計算快速訪問數據。工作負載自動化配置文件管理、訪問控制以及路由和平衡工作負載。優化昂貴的硬件，如高性能計算（HPC）集群和圖形處理器（GPU）加速器，為數據處理做好準備。
傳輸 (T)：將數據從一個位置傳輸到另一個位置。特殊用例包括數據屏蔽和加密安全數據。出于可重現性的目的，對原始數據的任何操作都必須記錄在案。處理元數據的決策對保持數據質量非常重要，包括對無法加載到隨機存取存儲器（RAM）的過大數據進行處理、壓縮、稀疏性、分塊和散列等。
準備 (PR)：將數據轉換為干凈的格式，以便算法能成功使用其中包含的信息。這包括處理缺失值、特征工程、管理異常值，以及估算、轉換、歸一化和標準化過程。
可視化 (V)：以圖形表示任何格式的數據。通過可視化輸出探索數據有助于技術人員和非技術人員對數據有一個總體了解。圖形和圖表有助于評估數據的一致性。此外，通過可視化工具評估模型性能有助于向股東傳達結果。
分析 (A)：選擇建模技術來實現特定目標。這包括建立模型、調整參數、模型再訓練、從模型中獲得洞察力以及解釋結果。
監控 (M)：跟蹤模型版本歷史性能，以便進行驗證、評估和審計。對持續測試/持續實驗框架進行管理，并自動提醒用戶注意任何模型衰變。可重現的模型和通過管道創建標準使用戶能夠設計、部署和管理一致的工作流程。提供可擴展的運行時資源增加了管理和部署網絡應用程序的能力。

付費5元查看完整內容

AI與軍事 · 多重保真 · 北約“軍用車輛設計的多保真度方法”會議 · 北約科學和技術組織（STO） ·

2023 年 2 月 23 日

[付費5元查看完整內容]《多重保真度優化方法的基準問題》北約科技組織2023最新報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

創新產品的要求正在迅速發展，反映了許多工程學科的技術進步。這種變化的加速性伴隨著產品性能、復雜性和成本的增長。為了滿足新出現的需求，需要更快的設計過程來：徹底和準確地探索更大的設計空間，利用潛在的復雜的物理相互作用來獲得性能上的好處，并避免有害的相互作用，這些相互作用可能會通過后期的缺陷發現而大大增加產品成本[1]。現在，在開發過程的早期，通過在更高的層次上耦合更多的學科來獲得設計上的好處。但是，沒有一個數學框架來確定哪些學科、耦合水平或保真度水平是需要的，以捕獲對特定系統設計最關鍵的物理學，在哪里收集設計空間數據是最好的，或者如何在有限的計算資源下做出最佳的設計決策。目前，這些決定完全是基于工程經驗的。這種方法對于那些與以前的設計相似的系統來說效果還不錯，但對于獨特和創新的車輛和技術來說可能會失敗。

在這方面，多學科設計優化（MDO）的長期挑戰之一是在需要時有效地提高建模delity，以捕捉制約或實現特定產品概念的關鍵物理。當物理學沒有得到充分的建模或解決時，在整個設計空間中依靠低延性模型進行分析可能會導致設計不可行，或明顯的次優。在優化過程中，簡單地用更高的fdelity模型替換這些模型往往不是一個實用的策略，因為這些信息量更大的技術會帶來更高的計算成本。多效性方法提供了一個概念框架，通過明智地使用有限的高效性分析，同時利用低效性模型提供的信息來有效地優化產品。在這里，多目標方法被認為是屬于一個更大的方法類別，它協調一組信息源以加速計算任務。這些信息源使用計算方法（即數學描述和隨之而來的數值分析）和/或非計算方法（如物理實驗、分析解決方案和專家分析）來量化系統響應。

盡管已經開發了相當多的多重保真度方法，但它們的能力仍在討論之中，其潛力仍未得到充分開發[2], [3]。這促使人們對可以支持這些方法的比較和嚴格評估的基準問題感興趣。Beran等人[1]提議將用例和測試問題分為三類。L1問題，具有精確解的計算便宜的分析函數；L2問題，簡化的工程應用問題，可以用減少的計算費用執行；L3問題，更復雜的工程用例，通常包括多物理場耦合。北約AVT-331研究任務組 "軍用車輛系統級設計的目標驅動、多變量方法"，一直在進行協調活動，以收集和研究這三類問題的基準。本文提供了L1基準的概述，這些基準是分析性問題，與實際工程問題沒有明確的相似性，但支持跨領域的調查。文獻中提出了大量的L1基準問題，大多是與新型的多重保真度方法的介紹相結合的[4]-[23]。然而，目前還沒有一個全面的計算效率高的基準框架。

這項工作的目的是提出和討論一套具體制定和選擇的分析基準問題，以強調測試和評估廣泛的多德爾法的能力。該框架旨在提供一套標準問題、推薦的實驗設置和性能評估指標，以支持對不同計算方法的嚴格測試和比較。基準的選擇是為了體現在基于模擬的優化問題中經常遇到的數學特征和行為，這些特征和行為會對成功搜索和識別現實世界工程應用中的最優解提出挑戰。這些挑戰包括 (i) 解決維度詛咒[24]和與多維度方法相關的可擴展性；(ii) 處理目標函數的局部、多模態和不連續行為；以及(iii) 處理目標函數中可能存在的噪聲。基準的設計和選擇是為了簡單的實現，同時允許分離和研究不同的數學特征，以獲得關于不同的多德爾法的建模、設計和優化的性能的洞察力。所選的測試集包括：Forrester函數（連續和不連續）、Rosenbrock函數、Rastrigin函數（移位和旋轉）、Heterogeneous函數、一個耦合的彈簧-質量系統和Pacioreck函數（受噪聲影響）。

這套分析性L1基準的設計是為了評估多fdelity方法在面對所有這些數學特征時的弱點和優勢。本文還介紹了計算和比較這些方法的全局和優化精度的指標。全局精度指標提供了一個衡量近似最高fdelity函數的能力，也被認為是地面真實信息源。優化精度是一個以目標為導向的指標，衡量方法在搜索和找到全局最優時的效率和效果。

本文的其余部分組織如下。第2節說明了各個基準問題，包括它們的公式和它們的顯著數學特征。第3節介紹了關于建立基準實驗的建議，以便對各種方法進行公平和有意義的比較。第4節討論了不同的指標和標準，以評估和比較多重性建模和優化策略的性能。最后，第5節討論了結語。

付費5元查看完整內容

數據庫 · 人工智能 · SIGMOD ·

2021 年 7 月 14 日

[付費5元查看完整內容]【SIGMOD2021】數據庫與人工智能交叉技術綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

數據庫和人工智能(AI)可以相互受益。一方面，人工智能可以使數據庫更加智能(AI4DB)。例如，傳統的經驗數據庫優化技術(例如，成本估算、聯結選擇、旋鈕調優、索引和視圖顧問)不能滿足大規模數據庫實例、各種應用程序和多樣化用戶的高性能需求，特別是在云上。幸運的是，基于學習的技術可以緩解這個問題。另一方面，數據庫技術可以優化AI模型(DB4AI)。例如，AI很難部署，因為它需要開發人員編寫復雜的代碼和訓練復雜的模型。數據庫技術可用于降低使用人工智能模型的復雜性，加速人工智能算法，并在數據庫內提供人工智能能力。DB4AI和AI4DB近年來得到了廣泛的研究。在本教程中，我們回顧了關于AI4DB和DB4AI的現有研究。對于{AI4DB}，我們回顧了基于學習的數據庫配置、優化、設計、監控和安全方面的技術。對于{DB4AI}，我們回顧了面向AI的聲明語言、數據治理、訓練加速和推理加速。最后，提出了AI4DB和DB4AI的研究挑戰和未來發展方向。

#背景#

在過去的五十年中，數據庫（DB）和人工智能（AI）技術都得到了廣泛的研究。首先，數據庫系統已在金融、醫療等多個領域中得到使用，其通過提供聲明式語言、查詢優化、ACID等機制，滿足不同場景的數據管理需求。其次，人工智能技術借助算法、數據集、硬件等方面的進步，近三十年取得了飛速發展。二者的交叉技術通過結合數據庫中系統設計、查詢優化、數據管理等方面的技術和人工智能從歷史數據中學習的優勢，幫助解決各自的問題。一方面，人工智能可以使數據庫變得更加智能（AI4DB）。例如，傳統的經驗數據庫優化技術（例如，經驗公式，啟發式算法）不能滿足大型數據庫實例，各類應用程序和用戶（尤其是云數據庫）的高性能要求。幸運的是，基于學習的技術可以緩解此問題。例如，深度學習可以提高代價估算的質量（關系復雜），深度強化學習可以自動調整數據庫參數（樣本小）。另一方面，數據庫技術可以優化AI模型（DB4AI）。目前AI落地要求開發人員根據不同的硬件環境編寫代碼并進行大量訓練。數據庫技術可用于降低使用AI模型的復雜性，加速AI算法，并在數據庫內部提供AI功能。

#AI for DB#

傳統數據庫設計基于經驗方法和規范，并且需要人工投入（如DBA）來調整和運維數據庫[1][2]。人工智能技術通過自動探索遠高于人工的設計空間，并在歷史數據中積累經驗，可以取得優于啟發式算法的表現和優于人工選擇的開銷。我們將使用AI優化數據庫的現有技術分類如下：

◆ 數據庫智能配置：數據庫配置主要針對數據庫實例啟動和工作過程中的“元信息”進行優化，如系統參數、索引表、物化視圖等。傳統數據庫配置高度依賴人力運維或經驗規則，如需要DBA來構建和維護索引和視圖。學習型數據庫配置借助探索-優化等機制，可以針對特定場景探索高質量的配置方案，包括SQL重寫、參數調優[3][4]、視圖推薦[5]等。

◆ 數據庫智能優化：數據庫優化器主要包括查詢重寫、基數估計、代價估計、連接順序選擇。然而，傳統技術基于固定規則，處理多表連接等復雜查詢會有較大誤差。比如，線性回歸等方法無法有效地捕獲不同列/表之間的相關性，因此無法提供高質量的估計。有一些基于長短期記憶網絡的方法，可以學習算子間的數據傳遞關系，幫助更好的估計執行代價[6]，選擇合適的查詢計劃[7]。

◆ 數據庫智能設計：傳統的數據庫由數據庫架構師根據他們的經驗進行設計，但是數據庫架構師只能探索數量有限的可能設計空間最近，提出了一些基于學習的自我設計技術，包括學習型索引[8]、數據結構[9]、事務管理[10]等。

◆ 數據庫智能診斷：數據庫可以捕獲數據庫運行時指標，例如讀/寫延遲，CPU 內存使用情況，從而可以在異常發生時（例如性能下降和數據庫攻擊）提醒管理員。但是，傳統的監視方法依靠數據庫管理員來監視大多數數據庫活動并報告問題，這是不完整且效率低下的。因此，提出了一種基于機器學習的技術來優化數據庫運維，包括表現預測[11]、進程控制[12]、活動監控[13]等。

#DB for AI#

盡管AI可以解決許多現實世界中的問題，但是由于現有AI系統的移植性性較差，且難以為普通用戶所使用，因此沒有像DBMS這樣廣泛使用的AI系統可以在不同領域中得到應用。為了解決這個問題，我們下面介紹數據庫技術如何降低AI使用的門檻。

◆ 聲明性的語言模型：面向AI的聲明性語言模型通過擴展SQL語法，可以擴展到AI模型上，使AI模型更易于使用。目前主流SQL擴展方法包括兩種：混合語言模型會根據SQL關鍵字判斷是DB還是AI操作，然后分別下發給相應的解析器解析，可以靈活支持不同AI平臺，但是效率較低；另一種統一模型則在數據庫內核中原生支持AI算子[14]，如數據收集、迭代訓練等，可以提高AI執行效率，但是移植性較差。

◆ 大規模數據治理：數據質量對于機器學習非常重要。數據治理可以提高數據質量，包括數據發現，數據清理，數據集成和數據血緣。(1) 數據發現。借助領域專家和知識庫[15]，我們可以適當地利用人力或現有知識來標記大量ML算法的訓練數據，增強發現相關數據的能力。(2) 數據清洗。臟數據會嚴重影響訓練效果。數據清洗和集成技術可以檢測和修復臟數據，并集成來自多個源的數據以生成高質量數據。(3) 數據血緣。數據血緣描述了模型輸入和輸出之間的關系，對于確保ML模型正常工作很重要。使用諸如多表連接和圖映射等數據庫技術，我們可以向后和向前跟蹤數據關系。

◆ 大規模模型訓練：模型訓練旨在訓練一個好的模型用于在線推理。然而，模型訓練是一個耗時且復雜的過程，包括特征選擇，模型選擇，模型管理和硬件加速。(1) 特征選擇。選擇和評估可能的功能非常耗時。我們可以借助批處理、物化視圖等技術來解決此問題[16]。(2) 模型選擇。它旨在從大量可能的模型中選擇合適的模型（和參數值）。一些數據庫并行技術可以加快此步驟，包括批量同步并行、模型多跳并行、參數服務器等。(3) 模型管理。模型訓練是一個反復試驗的過程，需要維護歷史模型和參數，因此有必要設計一個模型管理系統來跟蹤，存儲和搜索ML模型。我們回顧了基于GUI的[17]和基于命令的[18]模型管理系統。(4) 硬件加速。諸如GPU、FPGA之類的新硬件常被用來加速模型訓練。我們分別在行存儲[19]和列存儲[20]數據庫中介紹硬件加速技術。

AI4DB和DB4AI的技術為AI和DB領域帶來新的機遇的同時，也帶來了新的挑戰。AI4DB方面，對于數據庫這類高可靠系統，需要解決AI算法由于黑盒、過擬合等問題導致的表現退化問題；此外，現有AI4DB技術主要集中在數據分析型查詢，如何應對事務處理這類即時性查詢，也是一個重要的挑戰。DB4AI方面，盡管將AI模型靠近數據側，可以提高AI執行和使用效率，但也存在算子差異性大、難以構建AI&DB統一優化器等問題。

References

[1] G. Li, X. Zhou, and S Li. Xuanyuan: An ai-native database. IEEE Data Eng. Bull., 42(2):70–81, 2019.

[2] J. Chen, Y. Chen, and G. L. et al. Data management at huawei: Recent accomplishments and future challenges. In ICDE, 2019.

[3] J. Zhang, Y. Liu, K. Zhou, G. Li and et al. An end-to-end automatic cloud database tuning system using deep reinforcement learning. In SIGMOD, 2019.

[4] G. Li, X. Zhou, and S. L. et al. Qtune: A query-aware database tuning system with deep reinforcement learning. VLDB, 2019.

[5] H. Yuan, G. Li, L. Feng, J. Sun, and Y. Han. Automatic view generation with deep learning and reinforcement learning. In ICDE, 2020.

[6] J. Sun and G. Li. An end-to-end learning-based cost estimator.

PVLDB, 13(3):307–319, 2019.

[7] X. Yu, G. Li, and C. C. et al. Reinforcement learning with tree-lstm

for join order selection. In ICDE 2020, pages 196–207, 2019.

[8] T. Kraska, A. Beutel, and E. H. C. et al. The case for learned index structures. In SIGMOD, pages 489–504, 2018.

[9] S. Idreos and et al. Design continuums and the path toward self-designing key-value stores that know and learn. In CIDR, 2019.

[10] M. L¨ uhring, K. Sattler, K. Schmidt and et al. Autonomous management of soft indexes. In ICDE, 2007.

[11] X. Zhou, J. Sun, G. Li, and J. Feng. Query performance prediction

for concurrent queries using graph embedding. In VLDB, 2020.

[12] H. Kaneko and K. Funatsu. Automatic database monitoring for process control systems. In IEA/AIE 2014, pages 410–419, 2014.

[13] M. Ma, Z. Yin, and S. Z. et al. Diagnosing root causes of intermittent slow queries in cloud databases. In PVLDB, 2020.

[14] J. M. Hellerstein, C. R′e, and F. S. et al. The madlib analytics library or MAD skills, the SQL. PVLDB, 5(12):1700–1711, 2012.

[15] G. Li, J. Wang, Y. Zheng, and M. J. Franklin. Crowdsourced data management: A survey. IEEE Trans. Knowl. Data Eng., 28(9):2296–

2319, 2016.

[16] M. Kunjir and S. Babu. Thoth in action: Memory management in modern data analytics. PVLDB, 10(12):1917–1920, 2017.

[17] M. Chavan, R. Guravannavar, K. Ramachandra and et al. Dbridge: A program rewrite tool for set-oriented query execution. In ICDE, 2011.

[18] M. Vartak, H. Subramanyam, W. Lee and et al. Modeldb: a system for machine learning model management. In SIGMOD, 2016.

[19] D. Mahajan, J. K. Kim, J. Sacks and et al. In-rdbms hardware acceleration of advanced analytics. PVLDB, 11(11):1317–1331, 2018.

[20] K. Kara, K. Eguro, C. Zhang, and G. Alonso. Columnml: Column-store

machine learning with on-the-fly data transformation. PVLDB, 2018.

付費5元查看完整內容

深度學習 ·

2021 年 3 月 20 日

[付費5元查看完整內容]「深度學習:一種統計視角」，伯克利&斯坦福89頁pdf綜述論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度學習在實踐中的顯著成功，從理論的角度揭示了一些重大的驚喜。特別是，簡單的梯度方法很容易找到非凸優化問題的接近最優的解決方案，盡管在沒有任何明確的努力控制模型復雜性的情況下，這些方法提供了近乎完美的訓練數據，這些方法顯示了優秀的預測精度。我們推測這些現象背后有特定的原理: 過度參數化允許梯度方法找到插值解，這些方法隱含地施加正則化，過度參數化導致良性過擬合，也就是說，盡管過擬合訓練數據，但仍能準確預測。在這篇文章中，我們調查了統計學習理論的最新進展，它提供了在更簡單的設置中說明這些原則的例子。我們首先回顧經典的一致收斂結果以及為什么它們不能解釋深度學習方法的行為方面。我們在簡單的設置中給出隱式正則化的例子，在這些例子中，梯度方法可以得到完美匹配訓練數據的最小范數函數。然后我們回顧顯示良性過擬合的預測方法，關注二次損失的回歸問題。對于這些方法，我們可以將預測規則分解為一個用于預測的簡單組件和一個用于過擬合的尖狀組件，但在良好的設置下，不會損害預測精度。我們特別關注神經網絡的線性區域，其中網絡可以用一個線性模型來近似。在這種情況下，我們證明了梯度流的成功，并考慮了雙層網絡的良性過擬合，給出了精確的漸近分析，精確地證明了過參數化的影響。最后，我們強調了在將這些見解擴展到現實的深度學習設置中出現的關鍵挑戰。

//www.zhuanzhi.ai/paper/324cdbb68665c1675a05bc147210d8c8

付費5元查看完整內容