基于圖像的虛擬試穿旨在合成一張穿著自然的人物圖像和服裝圖像,這不僅徹底改變了在線購物體驗,也激發了圖像生成領域內相關話題的探索,顯示了其研究意義和商業潛力。然而,當前研究進展與商業應用之間存在較大差距,這一領域缺乏全面的概述以加速其發展。在這篇綜述中,我們對最先進的技術和方法論進行了全面分析,涵蓋了流程架構、人物表示以及關鍵模塊,如試穿指示、服裝變形和試穿階段。我們提出了一種新的語義標準,并使用CLIP評估了代表性方法,這些方法均應用了統一實施的評估標準,并在相同的數據集上進行評估。除了對當前開源方法進行量化和質化評估外,我們還利用ControlNet微調了最近的大型圖像生成模型(PBE),展示了大規模模型在基于圖像的虛擬試穿任務上的未來潛力。最后,我們揭示了尚未解決的問題,并展望了未來的研究方向,以識別關鍵趨勢并激發進一步探索。統一實施的評估標準、數據集和收集的方法將在 //github.com/little-misfit/Survey-Of-Virtual-Try-On 上公開。
1 引言
基于圖像的虛擬試穿是人工智能生成內容(AIGC)領域中的一個熱門研究話題,特別是在條件性人物圖像生成領域。它使得編輯、更換和設計服裝圖像內容成為可能,因此在電子商務平臺和短視頻平臺等多個領域具有極高的應用價值。特別是在線購物者可以通過虛擬試穿獲取服裝的試穿效果圖像,從而增強他們的購物體驗并提高成功交易的可能性。此外,AI時尚也在短視頻平臺上出現,用戶可以根據自己的創意編輯圖像或視頻中角色穿著的衣服。這使得用戶可以探索他們的時尚感并制作出一系列迷人的圖像和視頻。 虛擬試穿的概念最早在2001年提出,使用預先計算的通用數據庫來生成個人尺寸的身體并在網絡應用上動態展示服裝。虛擬試穿方法可以分為三類:基于物理的模擬、真實采集和圖像生成。以布料模擬技術為核心部分的物理基礎試穿模擬還涉及人體重建和布料測量。這類方法在姿勢可控和360度展示方面有優勢,但在準確性、效率和自動化方面面臨諸多困難。一些品牌,例如優衣庫和GAP,采用這種方式作為虛擬試穿解決方案。真實采集方法通常捕捉并存儲服裝在形狀可控機器人上的外觀,用于后續展示,展示出高保真度。只有少數公司,如Fits.me,采用了這種方法,這需要大量的實際采集勞動。隨著圖像生成技術的發展,基于圖像的虛擬試穿因其高效率和低成本而變得吸引人。然而,生成圖像中的人工痕跡阻礙了其在實際場景中的應用。具體來說,本文聚焦于基于圖像的虛擬試穿方法,對方法設計和實驗評估進行了全面回顧,并進一步揭示了未解決的問題和未來研究方向的展望。
基于圖像的虛擬試穿可以被看作是一種條件性人物圖像生成,自2017年以來經歷了快速發展(見圖1)。給定一張穿著服裝的人物圖像和一張店內服裝圖像,基于圖像的虛擬試穿旨在合成一張自然穿著的身體圖像。要完成這項任務,需要克服三個主要難點:1)獲取高質量的監督訓練數據:幾乎不可能獲得同一人在相同姿勢下試穿兩件不同服裝的照片配對。2)實現服裝在人體適當區域的自然和真實的彎曲和陰影效果:確保服裝自然無縫地適應身體輪廓并在光線和陰影方面看起來真實是一項挑戰。3)生成真實的試穿圖像:需要在非服裝區域(如移除新服裝未覆蓋的原始服裝殘留)保持一致性,同時保持人物身份的清晰。為了克服上述困難,已經做出了巨大努力,圖1展示了一些代表性方法的時間線。2017年,CAGAN [19]首次嘗試使用CycleGAN [20]來克服訓練三元組數據(原始人物圖像、店內服裝圖像、試穿圖像)缺乏的問題,但生成質量遠未達到滿意。隨后,VITON [21]創造性地提出了人體解析的服裝不可知人物表示,以彌補監督訓練數據的不足。他們構建了“試穿指示 + 衣物變形 + 試穿”的基本網絡框架,為后續作品中進一步提高生成質量奠定了基礎 [22]–[31]。除了持續的質量改進,一些新的目標也受到關注。2019年,多件服裝的試穿引起了注意 [32],但由于多件服裝之間復雜的相互作用和缺乏專門的數據集,此類工作較少 [33]–[35]。為了擺脫對人體解析的過度依賴,設計了幾個師生網絡 [36]–[38],以實現在推理時無解析器的試穿。最近,隨著計算能力的提升,高分辨率虛擬試穿任務變得可能,例如VITON-HD [39] 和 HR-VTON [31]。受到圖像生成領域StyleGAN [40]–[43] 和 Diffusion模型 [44]–[47] 的啟發,出現了單階段網絡 [48]、[49] 以及Diffusion架構 [50]。
盡管新興工作層出不窮,但缺乏系統性的綜述來總結基于圖像的虛擬試穿方法在數據集、方法設計和實驗評估方面。之前的兩篇綜述 [51]、[52] 僅介紹了幾種代表性方法,但沒有進行全面的比較和統一評估。據我們所知,這是第一次系統性的基于圖像的虛擬試穿綜述,具有統一評估,并且還具有以下獨特特點:
? 深入分析。我們從流程結構、人物表現、服裝變形策略、試穿指示和圖像合成的架構以及相應的損失函數等多個角度,全面回顧了現有的基于圖像的虛擬試穿方法。
? 評估:統一評估、新標準和用戶研究。我們使用相同的數據集評估開源作品,并且還對視覺結果進行了333名志愿者的用戶研究。特別地,我們計算了CLIP [53] 的語義分數作為一種新標準,可以分別評估試穿和非試穿部分的語義相似性。相關數據和代碼將在 公開。
? 開放挑戰和未來方向。根據實驗結果,我們揭示了一系列未解決的問題,并提出了重要的未來研究方向。此外,我們利用ControlNet [54] 微調了最近的大型模型(PBE [55])用于基于圖像的虛擬試穿,展示了流行的大型模型在這一任務上的潛力和問題。我們希望這篇綜述能激發新穎的想法,并加速基于圖像的虛擬試穿及其在工業中的應用發展。
本綜述的其余部分安排如下。第2節首先給出問題定義,然后從多個角度全面回顧文獻。第3節介紹數據集和評估標準。實驗結果和分析在第4節呈現。然后我們在第5節揭示未解決的問題,并在第6節展望未來方向。最后,第7節總結本文。
基于圖像的虛擬試穿可以被視為一種條件性圖像生成任務,它使用店內服裝圖像Ic和人物圖像Ip作為原始數據,并預處理原始數據作為條件信息,以指導模型生成試穿圖像 Itry-on = G(Ip, Ic)。在基于圖像的虛擬試穿中通常涉及三個關鍵模塊: ? 試穿指示旨在為服裝變形模塊中的服裝變形和試穿模塊中服裝與身體的融合提供先驗。它通常采用人體表示的組合(例如,語義信息 [56]、[57],Densepose [58],Openpose [59]、[60] 等)作為輸入,并預測試穿狀態下人體的空間結構。 ?** 衣物變形將服裝圖像轉換為試穿狀態下的空間分布**。該模塊的輸入包括服裝圖像和人體特征,如試穿指示模塊中獲得的服裝不可知人物表達或穿著服裝的人物表達。通過像TPS [61]、STN [62] 和 FlowNet [63] 這樣的變形方法,變換像素/特征點的空間位置,該模塊的輸出可以是變形的服裝圖像或變形的服裝特征。 ? 試穿模塊通過融合人體和服裝特征來生成最終的試穿圖像。該模塊設計了插值或生成網絡,輸出圖像應滿足以下要求:1)試穿區域內的服裝應清晰自然,2)試穿區域外的內容(不包括計劃脫下的原始服裝)應保持不變,3)新服裝與人體之間應有正確的語義關系。
值得注意的是,上述三個步驟不一定同時存在,也沒有嚴格的順序。表1總結了代表性方法,我們將在以下小節中討論關鍵設計。 在虛擬試穿流程中,上述三個模塊的選擇和放置對最終試穿結果有重要影響。如圖2所示,基本的流程結構可以分為七種類型。類型I和II是單階段流程,后者額外引入了特征對齊。類型III和IV是兩階段流程,分別利用人物表達和變形服裝作為中間生成進行進一步優化。其余類型是三階段流程,其中類型V和VI在試穿指示和衣物變形模塊的順序上有所不同,而類型VII同時優化這兩個模塊。代表性方法的流程選擇可以在表1中找到,發展趨勢上沒有明顯偏好。
作為基本試穿圖像生成流程的補充,圖3展示了其他結構,如師生網絡 [36]–[38] 和 Cycle-GAN [20]、[77]。師生架構主要用于訓練無解析器試穿網絡,圖3a展示了直接實現 [36]。PFAFN和Style-Flow-VTON [37]、[38] 進一步將其改進為圖3b,其中由教師網絡生成的合成圖像 Itry-on 用作學生網絡的輸入。與類型1相比,類型2在教師網絡生成不良結果的情況下提供了更可靠的監督。同樣地,采用 Cycle-GAN [20]、[77](圖3c)也顯示了使用循環一致性來增強試穿監督的策略。
結論
在這篇綜述中,我們提供了基于圖像的虛擬試穿當前研究狀態的全面概覽。代表性方法在流程、人物表達、試穿指示、衣物變形、試穿階段及相應損失等方面的特點進行了比較和分析。我們使用了一個通用數據集,并在相同的評估標準(包括一種新提出的標準)下評估了現有的開源作品,以分析現有設計。此外,揭示了未解決的問題,并指出了未來的工作方向。通過綜合現有文獻,識別關鍵趨勢,并突出未來研究的領域,我們希望激發基于圖像的虛擬試穿的進一步發展。
現代人工智能為產生不同風格的數字藝術提供了一種新穎的方式。神經網絡的表達能力使得視覺風格轉移方法成為可能,這些方法可以用來編輯圖像、視頻和3D數據,使它們更具藝術性和多樣性。本文報道了3D數據神經風格化的最新進展。我們提供了一種神經風格化的分類法,考慮了幾個重要的設計選擇,包括場景表示、指導數據、優化策略和輸出風格。基于這種分類法,我們的綜述首先回顧了2D圖像神經風格化的背景,然后對3D數據的最新神經風格化方法進行了深入討論,并提供了一個關于藝術風格化方法的小型基準測試。基于綜述中獲得的洞見,我們接著討論了開放性挑戰、未來研究,以及神經風格化的潛在應用和影響。
//www.zhuanzhi.ai/paper/d5ea0c58d303f46ebcf7e8cc629aa08c
數字藝術和視覺設計在我們的日常生活空間中盛行,表達了視覺上引人入勝的美學、獨特的品味和人類的情感。隨著計算硬件的最新進展,使用計算工具或算法創作高質量的數字藝術越來越受到公眾關注。人工智能(AI)技術的出現進一步推動了這一計算設計過程,并顯示出加速或自動化創作數字藝術的強大潛力。最近出現的視覺合成和編輯AI產品,如LUMA AI [Lum23]、DALL·E 3 [Ope23]、Midjourney [Mid23] 和 RunwayML [Run23] 已成功展示了它們加速高質量視覺設計和生成的能力。
本報告深入探討了利用AI創作3D數字藝術的最新進展,特別是通過風格化。一個典型的3D場景風格化涉及編輯場景幾何和/或外觀以匹配某些指定的藝術風格。風格化可以通過現代深度學習中的神經網絡實現,因此稱為神經風格化。放在傳統計算機圖形管線的背景下,3D神經風格化可以被視為傳統渲染管線的替代品,使用可編程著色器用于風格化的后處理。因此,3D神經風格化有助于減少在風格化3D場景中的勞動密集型手工工作,包括3D建模、紋理化、渲染或模擬。3D神經風格化因此對于各種工業應用具有實際價值,包括電影制作中的3D紋理設計和藝術模擬 [NR21,KAOT23,HHK?23],混合現實體驗 [THC?22, Tan19](圖2),逼真的視覺特效(VFX)和虛擬制作 [Man23],藝術品創作 [GC22] 以及視頻游戲開發 [OBW22,MLS?22]。從2D神經風格化擴展到3D,使用傳統3D表示和渲染進行的3D神經風格化通常面臨視角一致性和逼真渲染問題。多虧了神經渲染技術的進步,對于不同3D表示(包括網格、體積、點云和神經場)的3D神經風格化取得了高質量結果的顯著改進。它也適用于各種3D場景,從小型物體場景到大型野外場景,甚至應用于工業生產 [HHK?23]。
在本報告中,我們涵蓋了3D神經風格化領域的風格化基礎、最新進展、現有挑戰和未來研究方向。我們從神經風格化的基本技術(第2節)開始,包括2D視覺風格轉移算法和3D神經渲染。在第3節中,我們介紹了神經風格化的分類法,并為3D神經風格化的最新技術提供了分類。使用這種分類法,我們深入討論了先進的3D神經風格化方法,并提出了我們對3D風格化最近困難的分析。在第4節中,我們總結了3D風格化評估中常用的數據集。我們還提供了一個小型基準測試,作為評估最新3D風格化算法性能的標準。最后,在第5節中,我們討論了開放的挑戰和未來的研究方向。我們將隨報告發布我們的評估代碼和其他實施資源。
本報告的范圍專注于應用于3D場景的神經風格轉移。目標是探索基于深度學習的技術和方法,這些技術和方法能夠自動將藝術或逼真風格和語義特征轉移到3D數字世界中。盡管承認專用于風格化的3D訓練數據集的稀缺性和挑戰,本報告旨在突出現成的大型數據模型驅動的圖像引導和文本引導神經風格化的潛力,以實現視覺上吸引人的3D風格化結果。神經風格化基礎在神經風格化的基礎上,視覺風格轉移指的是編輯場景的紋理或顏色以匹配由參考圖像定義的風格,同時保持整體場景結構不變。在這一節中,我們首先提供2D神經風格化的概覽作為基礎。我們重點關注圖像引導和文本引導的風格轉移,因為它們是兩種主要的風格化方法,分別通過一張圖片或一段文字來指示目標風格參考。我們從使用經典特征提取器(如VGG分類器和CLIP編碼器)的簡單方法開始討論基礎知識。我們還根據它們的優化方法對這些2D神經風格轉移技術進行分類。最后,我們簡要介紹神經輻射場的基礎知識,這是一種重要的3D神經表示形式,在第3節中將深入討論3D神經風格化。我們參考了[JYF?19,SJJ?21,ZYW?23]中關于條件圖像合成和風格化的更多討論,以及[TTM?22,XTS?22]中關于場景表示和神經渲染的更多討論。
3D神經風格化
3D神經風格化指的是將神經風格化技術應用于修改現有3D數字表示的視覺外觀和美學特征。這個過程涉及利用神經網絡及相關風格化算法來操縱顏色、紋理、形狀等3D模型的視覺和幾何屬性。3D神經風格化促進了3D數字內容的視覺風格化自動生成,為計算機圖形學領域的創意表達和視覺設計提供了新的途徑。為了將3D表示與新風格融合,需要考慮兩個重要因素:3D幾何保留和風格轉換。與視覺風格轉移類似,我們關注基于圖像和文本的3D神經風格化方法。大多數方法依賴現有的大型預訓練模型(例如VGG和CLIP)進行零樣本特征提取,并且不需要任何額外的3D數據預訓練。與3D數據上的預訓練3D特征提取器相比(例如體素[WSK?15]、網格[MBBV15]、點云[QSMG17, ZJJ?21]),圖像和文本預訓練模型是廣泛可訪問的,它們以多級視覺模式和語義特征提取而聞名。在這一節中,我們首先引入神經風格化的分類法,并給出現有3D神經風格化方法的分類示例。在后續章節中,我們將介紹最先進的3D神經風格化技術,涵蓋了如網格、體積數據、點云和隱式場等多種3D表示,重點關注外觀和/或幾何風格化的轉變。最后,我們將深入總結和分析3D神經風格化的技術。
分類法 我們從2D對應物擴展了3D神經風格化的術語。3D神經風格化方法的分類法如圖9所示,詳細內容如下。
表示形式可以是顯式圖像或隱式2D場,構建的3D資產如網格、體積模擬、多視圖3D重建(如重建的網格),以及隱式3D場。
神經風格特征指的是來自預訓練特征提取器的圖像視覺嵌入或文本語義嵌入,通常是神經分類器。
優化指的是基于優化的(類似于第2.1節)或基于預測的風格化方法(類似于第2.2節),支持單一、多個或任意風格。
風格化類型指的是不同類型的風格化,從從藝術作品中檢索的風格(例如圖1中的梵高星夜雕塑場景),到逼真風格(包括傳統基于顏色的風格轉移和逼真的幾何與外觀變化,例如圖1中的“燃燒的松果”),再到具有風格語義對應的語義風格轉移,使用顯式標簽或掩碼,或隱式文本或視覺語義定位和映射。我們進一步將方法分類為幾何風格化和外觀風格化,其中幾何風格化指的是變換原始形狀以對齊風格參考,如改變頂點、體素的位置,外觀風格化指的是重新著色、圖案和圖騰轉移,如圖像像素、紋理映射、頂點顏色、點顏色和輻射場。 圖10展示了3D神經風格化方法的層次分類。表1詳細突出了基于我們在圖9中提出的分類法標準的選定3D風格化方法的分類和比較。
結論
本最新報告探討了3D神經風格化的進展,特別是針對3D數據的圖像引導和文本引導神經風格化技術。通過對最新3D神經風格化技術及其相應應用的全面綜述,我們強調了神經風格化在加速創造過程、實現風格化的細粒度控制、以及在電影制作、虛擬制作和視頻游戲開發等多個領域增強藝術表達的重要性。此外,我們介紹了神經風格化的分類法,為神經風格化領域的新作品提供了一個分類框架。我們對先進技術的分析和討論強調了持續的研究努力,旨在解決限制并推動3D數字領域神經風格化的邊界。最后,我們提出了一個3D藝術風格化的小型基準測試,我們的目標是為其他3D風格化作品提供靈感和評估標準。
開放領域生成系統在會話人工智能領域(例如生成式搜索引擎)引起了廣泛關注。本文對這些系統,特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性,但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解,幫助改進歸因方法,以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段,因此我們維護了一個倉庫,以跟蹤正在進行的研究,網址為
//github.com/HITsz-TMG/awesome-llm-attributions。
自從由大型語言模型(LLMs)驅動的開放領域生成系統出現以來(Anil等人,2023;OpenAI,2022,2023),解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰(Rawte等人,2023;葉等人,2023;張等人,2023b)。社區通常將這種問題稱為“幻覺”問題,其中生成的內容呈現出扭曲或虛構的事實,缺乏可信的信息來源(Peskoff和Stewart,2023)。這在信息搜索和知識問答場景中尤為明顯,用戶依賴大型語言模型獲取專業知識(Malaviya等人,2023)。
幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的(Penedo等人,2023)。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞,而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后(Ouyang等人,2022),模型仍然可能出現外部幻覺(Bai等人,2022)。為了解決外部幻覺的問題,研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性(Thoppilan等人,2022;Menick等人,2022;Nakano等人,2021)。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從,還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而,歸因的基本挑戰圍繞著兩個基本要求(Liu等人,2023):
考慮到這些要求,我們可以將模型處理歸因的主要方式分為三種類型:
超越對文本幻覺的一般討論(Zhang等人,2023b;葉等人,2023;Rawte等人,2023),我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外,我們也涉及了諸如偏見和過度引用的挑戰。我們相信,通過關注這些歸因問題,我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題,鼓勵對這一主題進行更深入的思考。
歸因是指一個實體(如文本模型)生成并提供證據的能力,這些證據通常以引用或參考文獻的形式出現,用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭,確保這些聲明可以從一個基礎語料庫中邏輯推斷出來,使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關(Brin 和 Page, 1998;Page 等人, 1999;Tay 等人, 2022),在這種任務中只有幾個網頁會被返回。然而,歸因的主要目的包括使用戶能夠驗證模型所做的聲明,促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺,以及建立一個結構化的框架來評估支持證據的完整性和相關性,與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人(2021)還提出了歸因于已識別來源(AIS)的評估框架,以評估特定陳述是否由所提供的證據支持。Bohnet 等人(2022)提出了歸因問答,模型在這里接受一個問題,并產生一對配對的回答,即答案字符串及其從特定語料庫,如段落中得到的支持證據。
直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因,一些研究發現生成的文本更加基于事實,并且在下游任務中的表現也有所提升。最近,研究人員發現,大型語言模型在回答特定領域的知識性問題時,不能清楚地提供知識來源或證據(Peskoff 和 Stewart, 2023; Zuccon 等人, 2023)。在大多數情況下,模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題,它提供的證據仍然可能存在錯誤。Weller 等人(2023)嘗試通過提出根據提示方法,將模型生成的文本基于其預訓練數據,發現這種方法可以影響模型的根據性,從而影響信息尋求任務的表現。Anonymous(2023)引入了一個中間規劃模塊,要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖,然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因,可以期望更具解釋性。
**檢索后回答 **
多篇研究論文已經調查了歸因的檢索后回答方法(Chen 等人,2017年;Lee 等人,2019年;Khattab 和 Zaharia,2020年)。SmartBook 框架(Reddy 等人,2023年)提出了一種方法,該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題,并從新聞文章中檢索相關信息。報告按時間線組織,每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題,MixAlign(張等人,2023a)提出了一個框架,該框架結合了自動問題知識對齊和用戶澄清,增強了檢索增強生成模型的性能,并減輕了語言模型的幻覺。此外,SearChain(徐等人,2023年)引入了一個新穎的框架,它將大型語言模型(LLMs)與信息檢索(IR)結合起來,提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法,通過生成全球推理鏈(CoQ)并利用 IR 來驗證答案和提供缺失的知識。
生成后歸因
為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因,一些研究致力于生成后的歸因,這些研究使用搜索引擎或文檔檢索系統,基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性,而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR(高等,2023a)自主識別任何文本生成模型輸出的歸因,并執行后期編輯以糾正不支持的內容,同時努力在最大程度上保留原始輸出。在霍等人(2023)的工作中,材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM,以驗證生成的回應與檢索到的材料之間的一致性,并進行必要的編輯以減少幻覺。陳等人(2023b)介紹了一個全自動化的管道,旨在驗證復雜的政治聲明,這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。
擴散模型已經成為一種突出的生成模型,在樣本質量和訓練穩定性方面超過了之前的方法。最近的工作顯示了擴散模型在改進強化學習(RL)解決方案方面的優勢,包括作為軌跡規劃器、表達性策略類、數據合成器等。本綜述旨在概述這一新興領域的進展,并希望激發新的研究途徑。首先,研究了當前強化學習算法遇到的幾個挑戰。根據擴散模型在強化學習中發揮的作用,對現有方法進行了分類,并探索了如何解決現有挑戰。進一步概述了擴散模型在各種強化學習相關任務中的成功應用,同時討論了當前方法的局限性。最后,總結了綜述,并對未來的研究方向提出了見解,重點是提高模型性能和將擴散模型應用于更廣泛的任務。我們正在積極維護一個GitHub存儲庫,用于存儲在RL中應用擴散模型的論文和其他相關資源。
//www.zhuanzhi.ai/paper/5b2f904982b924f5734c5543cb19945c
擴散模型已成為一類強大的生成模型,近年來引起了廣泛關注。這些模型采用了一種去噪框架,可以有效地逆轉多步去噪過程以生成新數據[Song等人,2021]。與早期的生成模型如變分自編碼器(VAE) [Kingma和Welling, 2013]和生成對抗網絡(GAN) [Goodfellow等人,2014]相比,擴散模型在生成高質量樣本方面表現出優越的能力,并顯示出增強的訓練穩定性。因此,他們在包括計算機視覺在內的不同領域取得了顯著的進步并取得了實質性的成功[Ho等人,2020;Lugmayr等人,2022;,自然語言處理[Austin等人,2021;Li等人,2022],音頻生成[Lee和Han, 2021;Kong等人,2020]和藥物發現[Xu等人,2022;Schneuing等人,2022]等。
強化學習(RL) [Sutton和Barto, 2018]專注于通過最大化累積獎勵來訓練智能體來解決連續決策任務。雖然RL在各個領域取得了顯著的成功[Kober等人,2013;Kiran等人,2021],有一些長期的挑戰。具體來說,盡管離線強化學習因克服在線強化學習中的低樣本效率問題而獲得了相當大的關注[Kumar等人,2020;Fujimoto and Gu, 2021],傳統的高斯策略可能無法擬合具有復雜分布的數據集,因為它們的表達能力有限。同時,雖然利用經驗回放來提高樣本效率[Mnih et al., 2013],但在高維狀態空間和復雜交互模式的環境中仍然存在數據稀缺問題。在基于模型的強化學習中,學習到的動態模型的一個常見用法是規劃[Nagabandi等人,2018;Schrittwieser等人,2020;Zhu et al., 2021],但perstep自回歸規劃方法受到復合誤差問題的影響[Xiao et al., 2019]。一個理想的強化學習算法應該能夠學習單個策略來執行多個任務,并泛化到新環境中[Vithayathil Varghese和Mahmoud, 2020;Beck等,2023]。然而,現有工作在多任務泛化方面仍然很困難。
近年來,已有一系列將擴散模型應用于序列決策任務的研究,其中尤以離線決策學習為著。作為一項代表性工作,Diffuser [Janner等人,2022]擬合了用于離線數據集上軌跡生成的擴散模型,并通過引導采樣規劃所需的未來軌跡。已經有許多后續工作,其中擴散模型在強化學習管道中表現為不同的模塊,例如取代傳統的高斯策略[Wang等人,2023],增強經驗數據集[Lu等人,2023b],提取潛在技能[Venkatraman等人,2023]等。我們還觀察到,由擴散模型促進的規劃和決策算法在更廣泛的應用中表現良好,如多任務強化學習[He等人,2023a]、模仿學習[Hegde等人,2023]和軌跡生成[Zhang等人,2022]。更重要的是,擴散模型由于其強大而靈活的分布建模能力,已經為解決強化學習中長期存在的挑戰提供了思路。
本文關注于擴散模型在強化學習中的應用,并額外考慮了將擴散模型納入軌跡生成和模仿學習背景中的方法,主要是因為這些領域之間存在明顯的相互關系。第2節闡述了上述RL挑戰,并討論了擴散模型如何幫助解決每個挑戰。第3節提供了擴散模型基礎的背景知識,還涵蓋了在強化學習相關應用中特別重要的兩類方法:引導采樣和快速采樣。第4節說明了擴散模型在強化學習中在現有工作中發揮的作用。第5節討論了擴散模型在不同RL相關應用中的貢獻。在第6節中,指出了應用擴散模型時的局限性,并將其與基于transformer的方法進行了比較。第7節總結了調查與討論新興的新主題。
擴散模型的基礎
本節提供擴散模型的基礎。提出了兩個著名的表述:去噪擴散概率模型(DDPM) [Ho等人,2020]和基于分數的生成模型[Song等人,2021]。DDPM由于其簡單性而被廣泛使用,而基于分數的公式將其擴展到包含連續時間擴散過程。此外,引導采樣方法在將擴散模型集成到RL框架中起著關鍵作用。根據指導采樣過程的方法,這些方法可以分為兩大類:分類器指導[Dhariwal和Nichol, 2021],這需要一個額外的分類器,以及無分類器指導[Ho和Salimans, 2022],這將指導條件作為模型輸入的一部分。此外,為了提高采樣速度,特別是在在線交互過程中,在強化學習相關任務中使用擴散模型時采用了快速采樣技術[Kang等人,2023;王志軍,2023。簡要介紹了在擴散模型的禁食采樣研究方面的一些代表性工作,包括基于學習的方法和無學習的方法。
**在RL中擴散模型的角色 **
擴散模型已證明了其生成多樣化數據和建模多模態分布的能力。考慮到第2節中介紹的長期存在的挑戰,使用擴散模型改善RL算法的性能和樣本效率是足夠的。在圖1中,我們說明了擴散模型在RL中與以前的解決方案相比扮演的不同角色。當前應用擴散模型于RL的工作主要分為四個類別:使用擴散模型作為規劃器,作為策略,用于數據增強,以及在潛在表示上。以下小節將為每個類別說明整體框架和代表性的論文。
規劃器
在RL中的規劃指的是在一個假想的環境中決策應采取的行動的過程,然后選擇最佳行動以最大化累積獎勵信號。這個過程通常模擬或探索不同的行動和狀態序列,預測其決策的結果,從而從更長時間范圍的角度產生更好的行動。因此,規劃通常應用于MBRL框架中。然而,用于規劃的決策序列是自回歸生成的,這可能導致嚴重的累積誤差,尤其是在離線設置中,由于數據支持有限。擴散模型提供了一個可能的解決方案,因為它們可以同時生成整個序列。擴散模型作為規劃器的一般框架顯示在圖2(a)中。
策略
與傳統的RL分類相比,傳統分類大致將RL算法分為MBRL和無模型RL,使用擴散模型作為規劃器類似于MBRL,并專注于捕捉環境動態。相反,將擴散模型視為策略遵循無模型RL的框架。第2.1節闡述了離線策略學習框架的主要缺點:過于保守和在多樣化數據集上的能力較差。憑借其對多模態分布的出色表達能力,許多工作利用擴散模型作為策略來解決這些問題。
**數據合成器 **
除了適應多模態分布外,擴散模型的一個簡單且常見的用途是生成更多的訓練樣本,這在計算機視覺中得到了廣泛應用并得到了驗證。因此,將擴散模型作為RL數據集上的數據合成器是自然的,因為如第2.2節所述,數據稀缺是RL的實際挑戰。為了保證合成數據與環境動態的一致性,RL中的先前數據增強方法通常在現有狀態和動作中添加小的擾動 [Sinha等,2021]。相比之下,圖2(c)說明擴散模型從整個數據集D學習數據分布,并能在保持一致性的同時生成高度多樣化的數據。Lu等[2023b]研究了擴散模型作為數據合成器在離線和在線設置中的能力。它直接從離線數據集或在線回放緩沖區訓練擴散模型,然后生成更多的樣本以改進策略。分析顯示,擴散模型生成的數據質量在多樣性和準確性上高于明確數據增強生成的數據。有了合成數據,離線策略的性能和在線策略的樣本效率都得到了顯著提高。He等[2023a]部署擴散模型來增強多任務離線數據集的數據,并獲得了比單任務數據集更好的性能。它聲稱在多個任務上進行擬合可能會實現任務之間的隱式知識共享,這也受益于擴散模型的多模態特性。
結論
本綜述提供了一個全面的概述,關于擴散模型在RL領域的應用的現代研究努力。根據擴散模型所扮演的角色,我們將現有的方法分類為使用擴散模型作為規劃器、策略、數據合成器,以及其他不太受歡迎的角色,如價值函數、潛在表示模型等。通過與傳統解決方案進行比較,我們可以看到擴散模型是如何解決RL中一些長期存在的挑戰,即,受限的表達性、數據稀缺、累積誤差和多任務泛化。盡管有這些優點,但必須承認在RL中使用擴散模型存在不容忽視的局限性,這是由于擴散模型的訓練和采樣中的一些固有屬性。值得強調的是,將擴散模型融入RL仍然是一個新興領域,還有很多研究課題值得探索。在這里,我們概述了四個前景研究方向,即結合Transformer、增強生成的檢索、整合安全約束和組合不同的技能。
這篇綜述分析了人工智能應遵循的基本原則,以便模仿人類體驗情感做出決策的真實過程。本文考慮了兩種方法,一種基于量子理論,另一種則采用經典術語。這兩種方法有許多相似之處,主要都是概率論方法。研究闡明了內在噪聲下的量子測量與情感決策之間的類比關系。研究表明,認知過程的許多特征在形式上與量子測量相似。然而,這絕不意味著情感人工智能必須依賴量子系統的功能才能模仿人類決策。人類決策與量子測量之間的類比只是展示了它們在功能上的形式共性。從這個意義上說,我們必須理解人工智能的量子運行。理解量子測量與決策之間的共同特征有助于制定一種只使用經典概念的公理方法。采用這種方法的人工智能的運作方式與人類類似,都會考慮到所考慮的備選方案的效用及其情感吸引力。情感人工智能的運作考慮到了認知與情感的二元性,避免了傳統決策中的許多行為悖論。一個由智能體組成的社會,通過重復的多步驟信息交換進行互動,形成一個網絡,在效用評估的基礎上并受備選方案情感吸引力的影響,完成動態決策。所考慮的智能網絡既可以描述由情感決策者組成的人類社會的運作,也可以描述由神經元組成的大腦或典型的人工智能概率網絡的運作。
人工智能(Artificial Intelligence)被理解為機器表現出的智能,與包括人類在內的動物所表現出的自然智能相反。人工智能的主要教科書將這一領域定義為研究人工智能系統感知從環境中獲取的信息,并為實現目標做出決策和采取行動[1-6]。人工智能研究人員普遍認為,要稱得上智能,就必須能夠使用邏輯策略,并在不確定的情況下做出判斷。
擁有智能的系統被稱為智能體。該系統在評估可用信息后,能夠采取自主行動和決策,以實現預期目標,并可通過學習或利用獲得的知識提高自身性能[1-6]。通常,智能體一詞適用于具有人工智能的系統。然而,智能體范式與經濟學、認知科學、倫理學、哲學以及許多跨學科的社會認知建模和模擬中使用的智能體密切相關。一般來說,從技術或數學的角度來看,智能體的概念可以與真實智能或人工智能相關聯。智能體可以是任何能做出決策的東西,如人、公司、機器或軟件。
在這篇綜述中,我們將集中討論人工智能最困難和最重要的問題之一,即與人類決策過程類似的決策機制,因為人類的決策實際上總是伴隨著情感。實現人類水平的機器智能一直是人工智能工作一開始的主要目標[1-6]。本綜述的重點是描述如何將情感決策數學形式化,使其達到足以讓人工智能模仿人類決策過程(情感是其中不可避免的一部分)的水平。下面,在談到人工智能時,我們會想到情感人工智能。
為了制定情感人工智能的基本操作算法,有必要對人類情感決策進行數學描述。情感量化問題包括兩個方面。一方面是評估主體對外部事件(如聽到聲音或看到圖片)的反應所體驗到的情緒。產生的情緒包括快樂、憤怒、愉悅、厭惡、恐懼、悲傷、驚訝、痛苦等。這種情緒的嚴重程度或強度可以通過研究其在運動反應中的表現形式,如面部表情、啞劇和一般運動活動,以及通過測量生理反應,如自主神經系統交感和副交感神經部分的活動以及內分泌腺的活動來估計。通過研究皮膚電阻的變化、心臟收縮的頻率和強度、血壓、皮膚溫度、血液中的激素和化學成分等,可以發現情緒的植物表現。關于語音、面部表情和肢體動作中的情緒檢測和評估方法,已有大量文獻[7, 8]。能夠識別、解釋、處理和模擬人類情感的系統和設備的研究和開發被命名為情感計算 [9,10]。本綜述將不涉及這些問題。
故事的另一面是描述情緒如何影響決策的挑戰。要制定情感人工智能在決策過程中的運作原則,就必須能夠量化情感在這一過程中的作用。本綜述的中心正是這一目標。
這一目標面臨著如何定義和量化決策過程中產生的情感這一基本問題。要對情緒進行形式化的量化,以便在存在情緒的情況下,在決策的認知過程中選擇最佳的替代方案,這似乎太難了,如果有可能的話。對決策過程中的情緒影響進行數學描述是一個難題,至今尚未找到全面的解決方案[11]。
困難首先在于,與認知相比,情感究竟是什么,并沒有一個唯一的公認定義。關于情感是獨立于認知之外的主要情感[12,13],還是始終依賴于認知的次要情感[14,15],長期以來一直存在爭議,不過也有觀點認為,這種爭議主要是由不同定義引起的語義爭議[16]。
對大腦組織的研究通常支持這樣一種假設,即大腦存在著相當程度的功能特化,許多腦區可以被概念化為情感區或認知區。最常見的例子是情感領域的杏仁核和認知領域的外側前額葉皮層。然而,也有觀點認為[17,18],復雜的認知-情感行為是以腦區網絡的動態聯盟為基礎的,而這些腦區都不應被視為專門的情感或認知腦區。不同的腦區在調節腦區之間的信息流和信息整合方面表現出高度的連通性,這導致了認知與情感之間的強烈互動。通常情況下,"情緒 "只是一個占位符,指的是比狹義情緒更廣泛的東西,包括一般的情感過程[19]。有觀點認為,情緒、認知和相關現象的概念可以在功能性框架下進行更精確的定義,例如,從行為原則[20]、情緒分類學[21]、情緒調節[22]或研究情緒過程動態中的情緒評估[7, 23, 24]等方面進行定義。關于情緒的定義及其與認知的關系的更多參考資料可參見相關調查[25-27]。
功能框架牢記認知與情感在操作上的分離,認知與情感是與決策過程有關的概念,決策過程包括推理和情感兩個方面[11, 28]。推理是指制定明確規則的能力,從而做出規范性選擇。而情感方面則意味著做出選擇的可能性受到情感的影響,而情感并不總是允許做出明確的正式規定。決策中的理性-情感二分法通常被稱為理性-非理性二元對立 [29]。如上所述,嚴格來說,認知與情感、理性與非理性并不存在唯一定義且絕對分離的概念。然而,我們的目標并不是陷入語義學的爭論,而是描述一種考慮到決策兩個方面的方法,即允許對效用進行明確評估的規范性方法和似乎可以避免用規定的形式規則來描述的情感方法。情感的萬花筒可能相當復雜,無法進行明確的分類定義,因此被稱為[7,23,24]特異性和模糊性。這種模糊性是量化情緒對決策影響的主要障礙。
因此,標準編程機器人或計算機與人類智能的主要區別在于人類意識在決策過程中的認知-情感二元性。為了清楚起見,我們可以談論人類智能,盡管正如大量實證研究證明的那樣,幾乎所有有生命的生物都具有決策過程中的二重性。動物可能會感受到各種情緒,包括恐懼、快樂、幸福、羞恥、尷尬、怨恨、嫉妒、憤怒、生氣、愛、愉悅、同情、尊重、解脫、厭惡、悲傷、絕望和悲痛[30]。
人類在做決定時表現出的認知-情感二元性,將理性的有意識行動效用評估與非理性的潛意識情感結合在一起。后者在風險和不確定性決策中尤為明顯。當人的行為與預期效用理論相矛盾時,這種二元性就是經典決策中許多行為悖論的起因。因此,為了制定情感人工智能(Affective Artificial Intelligence)運作的明確算法,包括認知與情感的二元性,有必要發展一種適當的情感決策理論,以便在不確定情況下做出切合實際的預測。
認知-情感二元性在決策中的存在,暗示了借助量子理論技術對其進行描述的可能性,在量子理論中也存在二元性,即所謂的粒子-波二元性[31]。雖然這些概念在物理學和決策理論中的性質相當不同,但量子理論的數學技術很可能暗示了對這兩種現象的類似描述。玻爾[32, 33]是第一個認為人腦的功能可以用量子理論技術來描述的人。從那時起,就有許多出版物討論了直接應用量子技術描述人類決策過程的可能性。這些討論假設意識是量子的或類似量子的,并在許多綜述著作中進行了總結,例如[34-39],其中引用了大量關于應用量子技術描述意識的不同嘗試的參考文獻。
必須承認,許多研究人員對量子物理學與認知過程之間的平行關系持懷疑態度,原因如下:
功能框架牢記認知與情感在操作上的分離,認知與情感是與決策過程有關的概念,決策過程包括推理和情感兩個方面[11, 28]。推理是指制定明確規則的能力,從而做出規范性選擇。而情感方面則意味著做出選擇的可能性受到情感的影響,而情感并不總是允許做出明確的正式規定。決策中的理性-情感二分法通常被稱為理性-非理性二元對立 [29]。如上所述,嚴格來說,認知與情感、理性與非理性并不存在唯一定義且絕對分離的概念。然而,我們的目標并不是陷入語義學的爭論,而是描述一種考慮到決策兩個方面的方法,即允許對效用進行明確評估的規范性方法和似乎可以避免用規定的形式規則來描述的情感方法。情感的萬花筒可能相當復雜,無法進行明確的分類定義,因此被稱為[7,23,24]特異性和模糊性。這種模糊性是量化情緒對決策影響的主要障礙。
因此,標準編程機器人或計算機與人類智能的主要區別在于人類意識在決策過程中的認知-情感二元性。為了清楚起見,我們可以談論人類智能,盡管正如大量實證研究證明的那樣,幾乎所有有生命的生物都具有決策過程中的二重性。動物可能會感受到各種情緒,包括恐懼、快樂、幸福、羞恥、尷尬、怨恨、嫉妒、憤怒、生氣、愛、愉悅、同情、尊重、解脫、厭惡、悲傷、絕望和悲痛[30]。
人類在做決定時表現出的認知-情感二元性,將理性的有意識行動效用評估與非理性的潛意識情感結合在一起。后者在風險和不確定性決策中尤為明顯。當人的行為與預期效用理論相矛盾時,這種二元性就是經典決策中許多行為悖論的起因。因此,為了制定情感人工智能(Affective Artificial Intelligence)運作的明確算法,包括認知與情感的二元性,有必要發展一種適當的情感決策理論,以便在不確定情況下做出切合實際的預測。
認知-情感二元性在決策中的存在,暗示了借助量子理論技術對其進行描述的可能性,在量子理論中也存在二元性,即所謂的粒子-波二元性[31]。雖然這些概念在物理學和決策理論中的性質相當不同,但量子理論的數學技術很可能暗示了對這兩種現象的類似描述。玻爾[32, 33]是第一個認為人腦的功能可以用量子理論技術來描述的人。從那時起,就有許多出版物討論了直接應用量子技術描述人類決策過程的可能性。這些討論假設意識是量子的或類似量子的,并在許多綜述著作中進行了總結,例如[34-39],其中引用了大量關于應用量子技術描述意識的不同嘗試的參考文獻。
必須承認,許多研究人員對量子物理學與認知過程之間的平行關系持懷疑態度,原因如下:
(i) 首先,根據目前的神經生理學知識,大腦絕非量子系統,因此與量子意識無關。關于大腦神經元充當微型量子設備,因此大腦的功能類似于量子計算機的假設[40,41]已經受到了公正的批評[42],因為退相干效應不允許神經元充當量子對象。這并不排除大腦中確實存在某些量子過程,量子生物物理學對這些過程進行了研究[43, 44]。然而,整個大腦及其功能似乎與量子理論無關。
(ii) 對于上述反對意見,通常的說法是,用量子理論描述人類思維過程的可能性并不要求假設人腦是某種量子系統。相反,它認為,雖然大腦不是量子對象,但認知和人類思維過程可以用量子理論的語言進行數學形式化。這與微分方程理論所呈現的情況類似,微分方程理論最初是為了描述行星運動而發展起來的。但現在,微分方程理論已被廣泛應用,它只是一種高效的數學工具,與行星運動沒有必然聯系。同樣,量子理論可以為思維過程的數學描述提供一個方便的框架。然而,批評者堅持認為,這些類比是膚淺的,并沒有規定實用的方法,有時甚至在質量上與經驗數據相矛盾[45, 46]。
(iii) 此外,簡單的邏輯告訴我們,如果大腦是一個經典物體,那么它的功能就應該用經典方程來描述,因為正是它的屬性(包括功能)將一個物體劃分為經典或量子。如果一個物體的特性原則上不能用經典理論來描述,而只能用量子理論來描述,那么這個物體就是量子物體,這與我們目前對大腦的認識是矛盾的。
(iv) 直接使用量子理論來描述決策,會引入大量未知參數和模糊概念,而這些參數和概念無法在與決策相關的可觀測量層面上定性。例如,什么是心理過程中的哈密頓?如何定義和測量進入描述大腦狀態的波函數的大量系數?描述大腦特征的統計算子的演化方程是什么?還有很多其他定義模糊的概念[47]。
(v) 任何理論最重要的目標都是能夠預測可在實驗中驗證的定量結果。然而,沒有一個純量子決策變體能預測出一些數字數據。能做到的最大限度就是考慮特定情況,并為這些情況的假定解釋擬合參數。為了從推導出的量子關系中提取定量信息,有必要用一些與量子技術無關的假設對其進行補充。從這個意義上說,復雜的量子子結構變得過度了,這與解釋量子現象的非局部隱變量的過度性類似[48]。
(vi) 決策過程中的某些事件可以定性地解釋為量子過程所致,但這并不排除用經典語言進行其他解釋的可能性。根據 "奧卡姆剃刀原則"(Occam's razor principle),在相互競爭的理論中,最簡單的理論要優于較復雜的理論,因此應首先從已知量的角度來解釋未知現象。因此,基于量子公式的相當復雜的理論應不予考慮,而應選擇基于經典概念的簡單得多的解釋,只要這些解釋是存在的。實體不應超出必要的范圍。最簡單的理論就是最好的理論 [49]。
了解意識的運行是由量子規則還是經典規則來描述是非常重要的,因為根據所涉及的形式主義,人工智能的運行必須用同樣的語言來描述。通過對上述反對將量子技術用于決策形式化的觀點進行研究,我們可以得出以下結論: 首先,盡管目前量子效應對大腦功能的影響尚未得到令人信服的論證,但不能絕對排除這種影響。其次,即使量子效應在大腦運行中沒有實際作用,意識也不需要量子描述,但研究決策與量子過程之間的類比關系可以豐富二者的內涵,建議對二者進行更深刻的理解。量子現象的特殊性如果能得到更好的理解,就能為描述意識功能的方法提供提示。
本綜述所倡導的觀點可概括如下: 大腦是一個經典物體,因此它的基本屬性,即意識,顧名思義,必須是經典的。否則,說經典物體具有量子特性就毫無意義了。然而,在量子測量和決策的描述中存在著一些形式上的類比。這些類比需要仔細研究,原因有二:
(i) 雖然是形式上的類比,但不同現象之間的類比往往為描述這些現象提供了具體的實用方法。
(ii) 從兩種不同方法的名義類比中借鑒一些想法,有助于對這些方法進行比較,并選擇更有效、更簡單的理論。
馮-諾依曼(von Neumann)很早就注意到了量子現象與意識現象之間的形式類比,他提到量子測量理論可以解釋為決策理論[50]。其他研究人員也發展了這一概念,例如貝尼奧夫 [51,52]。因此,量子測量類似于決策,因此對可觀測物的測量類似于決策中對備選方案的選擇。接受了這些類比,我們可以更進一步。考慮到情緒是在決策過程中潛意識產生的,我們可以將情緒與測量設備在測量過程中產生的內在噪音聯系起來。這樣,可觀測-噪聲二元性就等同于認知-情感二元性。在物理測量中,信號的檢測可能會受到噪聲的阻礙,或者加入適量的噪聲會增強信號,從而促進信號的檢測[53, 54],同樣,在決策過程中,情緒可能會阻礙決策的做出,也可能會促進決策的做出。
在量子測量中,可能存在可觀測噪聲糾纏,這在決策中與模仿認知-情感糾纏的相關性相對應。如果固有噪聲呈現為幾種模式的疊加,那么就會出現噪聲干擾,從而產生情感干擾。這樣一來,量子測量和決策之間就有了不同的相似性。因此,即使意識并不完全按照與量子測量相同的規則運作,但無論如何,所發現的許多相似之處可以為決策程序的正規化運作,從而為人工智能的創造提供有用的提示。
最后,為了避免混淆,有必要強調一下本綜述的內容和目的。這決不是對應用于意識表征的量子技術的一般領域的調查,因此沒有討論關于此類應用的成千上萬篇文章,而只是引用了主要書籍,在這些書籍中可以找到大量參考文獻。在集中討論情感量化的思想和方法時,我們只引用了那些研究情感在決策中的作用,特別是討論情感描述的實用方法的著作,但我們并沒有陷入沒有觸及這些問題的論文海洋。在大多數討論量子理論在意識中的應用的著作中,既沒有考慮情感的作用,也根本沒有涉及情感的量化問題。
創造類人人工智能的首要條件是制定明確的數學運行規則。本文并不打算描述人工智能實際運作的所有技術階段,但目的是為類人人工智能在決策過程中的運作制定明確的數學算法。沒有對這些規則和算法的數學描述,就無法對任何設備進行建模。但是,為了用數學方法制定人工智能在類人決策中的選擇過程,就必須理解并用數學方法描述人類的選擇過程,而人工智能計劃模仿人類的行為。因此,本文的核心目標是分析以下問題的組合,這些問題的解決對于人工智能(無論是類人智能還是人類智能)決策的數學表述是必要的:
(1) 分析情感在決策中的作用,并調查相關文獻,無論是采用量子語言還是經典語言。這對于理解情感智能處理的基本定性原則是必要的
(2) 闡述決策過程中情緒量化的實用方法。這是形成情感人工智能的先決條件,而情感人工智能的運行需要有明確的量化算法。
(3) 比較量子和經典兩種方法,以制定情感決策的實用原則。這是選擇最合適的方法的必要條件,這種方法應是自洽的、簡單的,并能為其操作提供定量方法。
(4) 理解如何修改經典方法,以便提供與使用量子技術相同的實際效果。同樣,如果不對量子和經典兩種方法進行比較,就不可能理解這一點。否則,讀者會不斷發出這樣或那樣的感嘆:為什么會有這樣或那樣的假設?這個或那個公式從何而來?
本綜述實現了這些目標。綜述對討論情感在決策中的作用的文獻進行了詳盡的調查。在現有文獻的基礎上,介紹了情感量化的嘗試。從大量引文中可以看出,有大量文獻從經典角度討論了情緒的作用。文中詳細比較了量子技術和經典技術。結果表明,經典方法可以通過考慮情感因素進行修改,從而得出與量子決策理論相同的結果。例如,經典決策中的所有悖論都可以在不使用任何量子理論的情況下得到定量解釋。
然而,如果不對考慮情感因素的兩種不同方法進行比較,就不可能得出結論: 首先,不可能得出哪種方法更可取的結論;其次,不可能知道如何修改經典理論才能使其得出與量子方法相同的結果。因此,評論的所有部分都同等重要,如果分開就失去了意義。因此,如果不將其中一種方法與另一種方法進行比較,就無法證明其中一種方法的合理性。另一方面,在制定了不同的方法后,它們可以獨立使用,并比較其有效性。
綜述的結構如下。第 2 節介紹了存在本征噪聲的量子測量的一般理論。強調了與決策的類比。假設有噪聲量子測量的功能與情感決策的功能相似,則為后者提出了總體框架。對量子方法和修正的經典方法進行比較,不僅可以提供有趣的類比,還可以提出最簡單有效的情感決策理論。
當然,量子技術并非常識,會嚴重阻礙量子理論的實際應用。因此,如果同樣的現象既可以用量子語言描述,也可以用經典語言描述,那么采用較為簡單的經典方法是合理的,但不能用時髦的術語把問題復雜化。理論必須盡可能簡單,以便任何人,包括可能不懂量子技術的人,都能直接使用。這也與決策理論有關,決策理論可以作為量子理論的一個分支來發展,也可以重新表述為公理形式,一方面模仿某些量子運算和結構,另一方面又不需要量子術語知識。第 3 節實現了這一目標,表明情感決策理論可以用公理化的方式表述,而無需借助量子理論。由于情感決策理論是用數學術語表述的,因此可以用于人工智能的運行。第 4 節探討了決策過程中著名的行為悖論,并表明在情感決策理論的框架內,這些悖論在總體上不會出現。從這個意義上說,遵循該理論規則的人工智能將像典型的人類決策者一樣行事。第 5 節介紹了由智能體組成的網絡結構,這些智能體在情感的作用下做出決策。第 6 節為結論。
量子啟示的機器學習(QiML)是一個迅速發展的領域,由于其有潛力在經典計算框架內利用量子力學的原理,因此受到了全球研究者的關注。然而,當前的綜述文獻經常只是對QiML進行淺層次的探討,而更多地關注更為廣泛的量子機器學習(QML)領域。為了填補這一空白,這項綜述為QiML提供了一個整合的、全面的調研,探討了QiML的多種研究領域,包括張量網絡模擬、去量子化算法等,并展示了近期的進展、實際應用以及可能的未來研究方向。進一步地,通過分析該術語的各種先前解釋及其固有的模糊性,為QiML建立了一個具體的定義。隨著QiML的不斷發展,我們預期未來將從量子力學、量子計算和經典機器學習中汲取大量新的發展,進一步豐富該領域。這項調查旨在為研究者和實踐者提供指導,為他們提供對QiML當前狀況和未來方向的全面了解。
量子啟示的機器學習(QiML)領域已經取得了大量的增長,吸引了全球研究者的關注。作為量子機器學習(QML)的一個特定子集,QiML專注于在經典計算框架內開發受量子力學原理啟發的經典機器學習算法,這通常被稱為QML分類中的“經典-經典”象限,如圖1所示。QiML代表了一個多面的研究領域,其綜述旨在超越傳統的經典最先進的結果,或探索量子形式所提供的表現力。
為了在QML的背景下定位QiML,我們簡要地說明了后者。更廣泛地說,QML位于量子計算和機器學習的吸引人的交匯點。主導的研究領域關注“經典-量子”域,并探討使用量子硬件加速和增強機器學習策略。在此,經典機器學習中存在的兩大挑戰得到了回應。首先,很多領域中數據集的不斷增大和復雜化產生了計算挑戰,這些挑戰經典機器學習難以高效管理。其次,量子計算提供了解決目前用經典計算方法難以實現的復雜問題的潛力[1]。但是,目前在實際的量子硬件上評估QML算法受到一些因素的限制,例如量子位數有限、量子門中的高誤差率、維持量子狀態(失去相干性)的困難,以及與量子錯誤糾正相關的挑戰[2]。因此,QML的景觀主要受到理論考慮的影響,而噪聲中間規模量子(NISQ)設備的最近進展為全規模量子計算的潛力提供了一個初步的、經驗性的預覽[3]。因此,QML對機器學習領域的真正影響和范圍仍然是一個持續的研究話題。
QiML與QML研究并肩發展。經常被引用的研究領域包括張量網絡量子模擬和去量子化算法[4],[5]。然而,與QML相比,QiML中的發現通常都有數字證據支持,這得益于沒有量子硬件的要求,因此相對于其他QML子集,更容易進行定量評估。雖然QiML研究正在蓬勃發展,但當前的綜述文獻往往忽略了這一領域,更多的關注是放在整個QML上。通常,QiML只是被簡要提及或被淺層次地處理[5],[6],[7],[8],[9],[10]。QiML的實際應用案例、其應用以及與標準經典基準的比較分析通常都沒有被探索。這指出了對QiML作為一個獨立領域進行深入審查的迫切需求。為了回應這一文獻空白,我們的調查旨在為QiML的各個方面提供一個全面、綜合的討論。
我們的目標是提供一個關于QiML在實踐中如何被使用的可訪問和全面的概述,詳細描述其最近的進展,并使讀者了解該領域的進展。讀者應該注意,從量子力學的視角探索QiML方法,并基于啟示來源對方法進行分類將是有趣的,但這次調查是從應用的角度來看待這個領域的。這次調查的貢獻是提供了近年來QiML及其研究方向的進展概述,并確定了QiML研究的未來方向。具體來說,它們是:突出并分類現有的QiML方法; ? 為QiML建立一個具體的定義,考慮到其多方向的研究趨勢; ? 討論這些方法的實際應用,特別是確定當前已經應用QiML技術的任務; ? 討論QiML在實踐中的限制因素,以及; ? 探索和討論QiML研究的潛在未來方向。
現代深度神經網絡,特別是近期的大型語言模型,都具有巨大的模型規模,需要大量的計算和存儲資源。為了使現代模型能夠在資源受限的環境中部署并加速推斷時間,研究人員越來越多地探索剪枝技術作為神經網絡壓縮的熱門研究方向。從2020年到2022年,每年都有超過一千篇關于剪枝的論文被發表。然而,缺乏對剪枝的最新綜述。
為了解決這個問題,在這篇綜述中,我們對深度神經網絡剪枝的現有研究進行了全面審查,按以下幾類進行分類:1) 通用/特定加速,2) 何時剪枝,3) 如何剪枝,以及4) 剪枝與其他壓縮技術的融合。我們接著對剪枝的七對對比設置(例如,無結構/有結構,一次性/迭代,無數據/數據驅動,初始化/預訓練權重等)進行了深入的比較分析,并探索了一些新興話題,如后訓練剪枝、剪枝的不同級別監督等,以揭示現有方法的共同點和差異,并為進一步的方法開發奠定基礎。
最后,我們為選擇剪枝方法提供了有價值的建議,并展望了神經網絡剪枝的一些有前景的研究方向。為了方便未來關于深度神經網絡剪枝的研究,我們總結了廣泛的剪枝應用(如對抗性魯棒性、自然語言理解等),并構建了一個包含數據集、網絡和不同應用評估的精選集合。我們在//github.com/hrcheng1066/awesome-pruning上維護了一個資源庫,作為神經網絡剪枝論文和相應開源代碼的綜合資源。我們會持續更新這個資源庫,以包括該領域的最新進展。
深度神經網絡剪枝
過去的幾年中,深度神經網絡(DNNs)在各種領域和應用中都取得了顯著的進展,例如計算機視覺(CV)[1, 2, 3]、自然語言處理(NLP)[4]和音頻信號處理(ASP)[5]等。盡管DNNs在各個領域都取得了卓越的成功,但它們的性能在很大程度上依賴于模型參數和計算成本。例如,廣泛使用的ResNet-50 [6] 需要超過95MB的存儲空間,包含超過2300萬的可訓練參數,并需要4 GFLOPs(吉浮點運算)的計算[7]。在ImageNet [1]上訓練的VGG-16 [2]的大小超過了500 MB [8]。Transformer網絡GPT-3模型包含了高達1750億的參數[9],而GPT-4模型則更多。預計放大神經網絡大小的當前趨勢將持續。
然而,DNNs的參數越多,通常在處理輸入時所需的時間和內存空間也就越多[10]。這些模型的高訓練和推斷成本給其在受到計算資源(如CPU、GPU和內存)、能量和帶寬限制的設備上的部署帶來了重大挑戰[11, 12, 13]。例如,現實生活中的應用,如自動駕駛、野外救援和防止灌木叢火災,都需要高準確度和高效的資源使用,包括快速的實時響應和緊湊的內存占用。深度神經網絡的計算復雜性和內存占用可能使它們不適合在邊緣設備上部署[14]。隨著近年來大型語言模型的流行,人們對于為具有靈活硬件需求的計算機壓縮神經網絡的興趣也在增長[15]。此外,包含冗余特征的深度神經網絡可能會削弱其魯棒性,增加遭受對抗攻擊的風險[16]。例如,這些網絡創建的高維特征空間可以為對抗攻擊提供更多的入口點,從而削弱網絡超出其原始訓練數據的泛化能力。
為了緩解這一問題,研究人員提出了各種神經網絡壓縮技術來設計輕量級模型,包括神經網絡剪枝([17])、權重矩陣的低秩分解([18, 19])、量化([11, 20])、知識蒸餾([21])、神經架構搜索([22, 23])以及其他壓縮技術([24, 25])。其中,人們對神經網絡剪枝持續關注,已經被證明是一種理想且有效的方法,在推斷時節省內存空間和計算時間,同時保持與原始DNNs相當甚至更好的性能。如圖1所示,從2015年到2022年,關于剪枝的論文數量已經顯著增加。它占了神經網絡壓縮論文的一半以上。
關于剪枝的研究可以追溯到1988年的文獻[26]。然而,直到[11]的出現,研究界才意識到剪枝在去除深度神經網絡中的大量冗余方面的潛力,剪枝開始受到廣泛關注。如表1所示,有一些文獻對深度神經網絡剪枝的先前工作進行了回顧。盡管這些工作對剪枝的幾個方面進行了概述,并為研究人員提供了有益的指導,但其中許多文獻([8, 27, 28, 29])關注于多種壓縮技術,如剪枝、量化和知識蒸餾,并只簡要檢查每種技術。例如,Mishra等人[27]總結了包括剪枝、量化、低秩分解和知識蒸餾在內的壓縮技術,其中剪枝主要是從通道/濾波器剪枝中引入的,而許多基本的剪枝技術(如彩票假設)并未包括。一些回顧性工作(如[30])重點回顧卷積神經網絡的剪枝,并缺乏對其他深度神經網絡的剪枝描述,如循環神經網絡(RNNs)。[31]中的工作提供了對深度學習中的稀疏性的全面回顧,但對于新興的剪枝方法的研究很少,例如對比學習中的剪枝[32]和自監督剪枝[33]等。王等人[34]僅為初始化時的剪枝提供了概述,并未包括在訓練期間、訓練后等的剪枝研究。[35]是關于剪枝的最新綜述,但只關注于結構化剪枝。
本綜述旨在為各種讀者提供關于深度神經網絡剪枝的全面概述。我們回顧了代表性的剪枝方法,提出了一個新的分類方法,對不同的剪枝方式在實踐中的表現進行了全面分析,并為希望利用剪枝的實踐者提供了關于如何選擇適合不同要求的剪枝方法的建議。我們的貢獻如下:
(1)** 全面回顧。據我們所知,這篇綜述是關于現代深度神經網絡剪枝技術的最全面的概述**。它從超過300篇相關的學術論文中提煉出思想,并建立了一個新的分類法,如圖2所示。此外,我們為每一類剪枝方法的代表性方法提供了詳細的描述。
(2) 比較實驗和分析。我們對剪枝的七對對照設置以及新興進展進行了比較分析,包括剪枝的不同監督層次。與現有的剪枝綜述不同,本文進行了實驗和相關討論。
(3)** 收集豐富的資源**。我們總結了各種剪枝應用,并為不同應用提供了基準數據集、網絡和評估。我們在附錄B中收集的資源可以指導研究人員和實踐者了解、利用和為不同的需求開發不同的網絡剪枝方法。代表性剪枝工作的持續更新可在 上查看。
(4) 建議和未來方向。這篇綜述為選擇適合不同應用需求的適當剪枝方法提供了有價值的建議,并突出了有前途的未來研究方向。
本綜述的其余部分組織如下。首先,在第2節,我們解釋常用的術語并建立一個清晰的剪枝分類法。第3-6節提供了關于加速、何時剪枝、如何剪枝的概述,接著在第7節對不同類型的剪枝方法進行了全面的比較分析。第8節討論了與其他壓縮方法的剪枝整合。第9節提供了選擇剪枝方法的一些建議和未來的方向。我們在第10節結束這篇文章。
歐洲的國防資金首次超過了每年2000億歐元,人們對創造有助于軍事合作的技術創新重新產生了戰略興趣,如綜合決策支持系統。克服與此類軍事技術的研究和開發相關的許多挑戰,為可視化社區在該領域的貢獻提供了一個極好的機會,因為有大量的應用研究空間。最近有較少調查研究信息可視化(IV)和視覺分析(VA)工具在軍事領域的使用和設計。因此,本調查的主要目的是調查和評估IV和VA工具的功能以及與軍事決策支持系統的整合,特別是關注地理空間-時間可視化方面。考慮到這一目標,本調查從軍事行動過程的視角,系統地識別和討論了合適的可視化解決方案以及它們可能為軍事決策支持系統帶來的好處。這促進了一個特定領域的設計空間,用于分析各種現有和相關的軍事產品。因此,這項調查的結果和主要貢獻是制定了一個設計空間和對現有軍事產品的分析。這促進了在軍事決策支持系統中的地理空間-時間可視化可以提高軍事指揮官的決策能力和行動能力方面,找出差距、機會和指導方針。
圖1:描述了在循環的軍事行動過程中如何利用可視化,通過改善指揮官的認知,提高對形勢的認識、決策和行動能力。
本研究報告分析了當前利益相關者對軍事自主系統的人為輸入或控制的想法。作者首先定義了關鍵術語,如 "機器學習"、"自主系統"、"人在回路中"以及軍事背景下的 "有意義的人為控制",然后討論了當代利益相關者的文獻對無人駕駛軍事系統的人的輸入/控制的說明。然后,報告討論了各利益攸關方是否對進攻性和防御性系統中所需要或期望的人類控制水平達成了共識,以及是否因系統具有致命性和非致命性能力或西方和非西方國家之間的意見不同而有所不同。報告最后從政策和操作的角度闡述了利益相關者的想法對加拿大國防部/空軍的可能影響。
主要研究結果
在與自主系統有關的關鍵術語的定義方面存在著相當多的爭論。
在國家對自主武器應采取何種監管手段的問題上,各利益攸關方一直存在分歧。
參加這些討論的締約國已就自主武器的一系列指導原則達成共識,包括 "必須保留人類對使用武器系統決定的責任"。
在近30個表示支持禁止致命性自主武器系統(LAWS)的國家中,沒有一個是主要的軍事大國或機器人開發商,主要的軍事大國似乎都在對沖自己的賭注。
許多民主國家認為,他們打算保留人類對使用武力的控制/判斷,不需要禁止,因為現有的國際人道主義法律(IHL)足以解決圍繞自主武器的問題。
加拿大擁有重要的人工智能(AI)能力,該能力被用于民用而非軍事用途。
如果在國防領域不接受至少某種程度的(人工智能支持的)自主性,可能會降低與盟國的互操作性,給加拿大武裝部隊(CAF)的行動帶來風險,并且隨著時間的推移,使CAF對國際和平與安全的貢獻失去意義。
人類的視覺系統證明,用極少的樣本就可以學習新的類別;人類不需要一百萬個樣本就能學會區分野外的有毒蘑菇和可食用蘑菇。可以說,這種能力來自于看到了數百萬個其他類別,并將學習到的表現形式轉化為新的類別。本報告將正式介紹機器學習與熱力學之間的聯系,以描述遷移學習中學習表征的質量。我們將討論諸如速率、畸變和分類損失等信息理論泛函如何位于一個凸的,所謂的平衡曲面上。我們規定了在約束條件下穿越該表面的動態過程,例如,一個調制速率和失真以保持分類損失不變的等分類過程。我們將演示這些過程如何完全控制從源數據集到目標數據集的傳輸,并保證最終模型的性能。