亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要——大型語言模型(LLMs)的快速進展有潛力革新各個領域,但其迅猛發展在監督、倫理開發和建立用戶信任方面帶來了顯著挑戰。本綜述全面調研了LLMs中的關鍵信任問題,重點關注意外傷害、缺乏透明性、易受攻擊、人類價值觀對齊和環境影響等問題。我們強調了可能破壞用戶信任的諸多障礙,包括社會偏見、決策過程中的不透明性、潛在的濫用以及技術快速演變帶來的挑戰。隨著LLMs在金融、醫療、教育和政策等敏感領域的普及,解決這些信任差距至關重要。 為了解決這些問題,我們建議采用綜合方法,包括倫理監督、行業問責、監管和公眾參與。我們主張重塑AI開發規范、對齊激勵措施,并在整個機器學習過程中整合倫理考量,這需要技術、倫理、法律和政策等不同領域專業人士的密切合作。我們的綜述通過提供一個評估LLMs信任的強大框架和對復雜信任動態的深入分析,為該領域作出了貢獻。我們提供了上下文化的指南和標準,旨在負責任地開發和部署這些強大的AI系統。 本綜述識別了在開發可信AI過程中面臨的關鍵限制和挑戰。通過應對這些問題,我們的目標是創建一個透明、負責的AI生態系統,在帶來社會利益的同時將風險降至最低。我們的研究成果為研究人員、政策制定者和行業領導者提供了寶貴的指導,幫助他們在各類應用中建立對LLMs的信任,并確保其負責任地使用造福社會。 關鍵詞——AI治理、算法偏見、可解釋的AI、大型語言模型、可信的AI。

人工智能(AI)的發展顯著受到了作出基礎性貢獻的關鍵人物的影響。AI的創始人約翰·麥卡錫提出了“人工智能”一詞,并倡導使用數學邏輯來表示知識,開創了知識表示領域。他還開發了LISP,這是一種對AI進展至關重要的編程語言[1]。麻省理工學院計算機科學與人工智能實驗室的聯合創始人馬文·明斯基通過理論AI研究推動了對機器智能和推理的理解[2]。由麥卡錫、明斯基、內森尼爾·羅切斯特和克勞德·香農提出的1956年達特茅斯會議是AI歷史上的一個關鍵時刻,將該領域從理論概念轉向實際應用[3]。這一時期見證了啟發式搜索技術和早期機器學習模型的進步,展示了AI向實際應用的轉變。

1970年代后期,AI進展放緩,被稱為“第一次AI寒冬”。這是由于未能達到預期和計算能力有限導致資金和興趣的減少。1980年代見證了向實際AI應用的轉變,如專家系統和自然語言處理,為大型語言模型(LLMs)奠定了基礎,推進了AI對語言理解和生成的能力。盡管在AI寒冬期間面臨挑戰,早期的專家系統在AI商業化方面起到了關鍵作用[4]。

最近的AI進展歸因于廣泛的數據集和日益增加的計算能力,特別是GPU的使用。這些因素在推動深度學習技術的發展中起到了關鍵作用,顯著影響了計算機視覺和語音識別[5],[6]。另一個重要的里程碑是語言模型的創建,這些模型能夠處理和生成類人文本,從而擴展了AI的能力。深度神經網絡(DNNs)和LLMs的有效性導致了AI在醫療、金融、交通和零售等各個行業的廣泛采用,提高了效率和數據處理能力[8]-[10]。神經網絡(NNs)用于分析大量數據集并識別模式,而LLMs則用于為自動化客戶服務的聊天機器人提供動力[11]-[14]。這些技術革新了不同領域的技術互動,凸顯了深度學習和語言模型對AI進展的重大影響[9]。 DNN架構,包括LLMs,導致了“黑箱”問題,使得理解其工作原理及其結果變得困難[15]。雖然像決策樹這樣的簡單AI模型是透明的,但LLMs缺乏透明性,這在用于決策時引發了倫理問題。挑戰在于使這些系統更透明和可理解,同時考慮到潛在的偏見和錯誤。解決這些問題的努力包括開發使算法過程更透明的方法,但這在AI倫理和治理中仍然是一個重大挑戰[16]。要更好地理解這一點,請參見圖1,它展示了AI的演變和信任挑戰。

時間軸展示了AI在醫療、金融、交通、零售和電子商務領域的日益擴大影響。LLMs在利用先進的語言生成技術變革內容創建方面處于領先地位。時間軸強調了AI中的信任和監督挑戰以及建立信任策略的重要性[17],[18]。它揭示了AI進展與政策和治理發展之間的差距。

LLMs的最新進展改善了其語言生成能力,但其復雜性阻礙了我們對其決策過程的理解。黃和王在2023年的調查[19]強調了解釋性對LLMs的重要性,特別是在需要透明度和信任的關鍵行業。主要發現包括:a)用于基于神經網絡的NLP模型的事后解釋工具如InSeq工具包;b)模型校準和不確定性估計技術;c)用于擴展和推理的指令微調LLMs研究,問題回答中的元推理;d)LLMs的數學推理能力,語義解析魯棒性研究,減少LLM使用危害的舉措,Aug-imodels等框架[19]用于高效和可解釋的模型,評估代碼訓練的LLMs,以及e)改進LLM推理性能的Chain-of-Thought樞紐措施。他們的研究強調了解釋性對LLMs的倫理和實際重要性。在LLMs被集成到多種應用中時,提供可理解和可解釋的響應是重要的。增強模型設計和交互、提高魯棒性和效率、指導訓練技術都是理解LLM操作的好處。他們的調查是揭開LLM復雜性的一個重要貢獻,為在醫療、金融和法律領域透明和倫理部署LLM奠定了基礎。它為未來研究奠定了基礎,以彌合原始LLM輸出與人類可理解解釋之間的差距。持續開發LLM解釋性對推進AI技術的可信性和可及性至關重要。

A. 構建大型語言模型的信任

黃和王的調查工作[19]及更廣泛的解決“黑箱”問題的努力指明了清晰的前進方向。然而,我們需要一種綜合方法,考慮倫理、技術和政策,以構建AI系統的信任,尤其是像LLMs這樣復雜的模型。 1)LLMs的倫理問題:LLMs在醫療、金融、政策制定和法律系統等領域的日益使用引發了關于隱私、偏見、公平和問責的倫理問題,原因是它們具有先進的自然語言能力。 LLMs可能會因為訓練文本數據中包含敏感信息而損害隱私。這可能導致隱私泄露,例如暴露醫療保健中的機密患者數據或在數據分析中泄露敏感的客戶記錄。為減少這些風險,有必要避免將個人可識別信息納入模型,并評估其隱私影響。確保LLM系統中的透明性和用戶對其數據的控制至關重要。明確的數據隱私指南和法規對于與用戶建立信任至關重要[20]-[30]。 偏見是LLMs的另一個倫理問題。它指的是LLMs在訓練數據中反映和延續的偏見,這可能導致偏見輸出或決策,損害邊緣化群體。性別、種族或文化偏見可能影響LLM模型,導致不公平或刻板印象的輸出和歧視性決策。例如,一個以人力資源為重點的LLM助手可能會對某些群體不利。為解決這一問題,公司應建立多元化的審查委員會,并定期使用偏見檢測工具審核LLM輸出[31]-[33]。 LLMs的另一個倫理問題是公平性,指的是公正待遇。LLM系統必須避免偏見并確保公平,通過公正對待每個人來實現。不公平的LLM模型可能會加劇不平等并造成傷害。例如,在公共政策中使用LLMs評估貸款或抵押申請可能會加劇經濟不平等。實現LLMs的公平性需要防止數據和算法中的偏見,使用對抗性去偏技術,并使用明確定義的指標持續評估公平性[34]-[37]。 問責在LLM系統中至關重要[38]-[40]。由于其復雜的推理過程,LLMs在醫療、司法和就業等影響人們生活的領域中尤其難以追究責任。用戶和利益相關者應知道誰對開發、部署和維護負責。他們應有錯誤、偏見或傷害的申訴機制。組織應建立明確的責任制和透明的治理,包括AI倫理委員會、模型性能的詳細記錄和跟蹤,以及關于LLM系統開發和部署的全面報告。 訓練和運行如GPT-3之類的LLMs需要大量的計算資源,導致高能耗和碳排放[41]。例如,GPT-3的訓練消耗了大約1287 MWh的電力,產生了502公噸的CO2排放,相當于112輛燃油車一年的排放。推理過程可能比訓練消耗更多的能量,估計約60%的AI能量用于推理,40%用于訓練[42]。一次ChatGPT請求的能耗可能是一次谷歌搜索的100倍。盡管LLMs目前對整個ICT行業的排放貢獻不到0.5%,對全球總排放的貢獻不到0.01%,但其影響正在迅速增加[43],[44]。為了促進AI的可持續性,行業應優先透明測量能耗和排放,利用可再生能源數據中心,開發更高效的AI硬件和算法,啟用排放跟蹤功能,并考慮轉向較小的專用模型而非大型通用LLMs。盡管LLMs目前對全球排放的貢獻很小,但其日益廣泛的使用需要積極努力減輕其環境影響,確保AI發展惠及世界而不加劇氣候變化。AI社區、政府和科技公司之間的合作對于實現更可持續的AI未來至關重要[45],[46]。

2)信任基礎上的LLMs技術進步:LLM系統需要解決技術挑戰以建立信任,例如解釋性。解釋性指的是理解和解釋LLM系統的決策過程。透明性通過使用戶理解系統的推理并識別潛在的偏見或錯誤來建立信任。可解釋的LLM系統可以幫助識別倫理問題并提供決策見解[20],[47],[48]。 可解釋AI(XAI)技術對于理解LLMs及建立其復雜系統的信任至關重要。注意力機制提供了對模型預測的見解[49],但其解釋可能存在爭議[50]。更可靠的方法如綜合梯度[51]和代理模型[52]提供了特征相關性的量化指標,增強了我們對模型決策的理解。最新進展應用電路分析[53]來分解復雜的黑箱LLMs為可解釋的元素,提供了模型操作的詳細見解。使用提示技術生成的模型解釋允許全面的因果敘述[54]。然而,重要的是嚴格評估這些解釋的準確性和有用性[55]。使用各種XAI方法對于LLM的負責任使用至關重要。清晰的解釋通過描述模型的能力、局限性和風險來幫助建立終端用戶的信任[56]。它們對于調試[57]、識別偏見[58]和促進倫理使用至關重要。隨著LLMs的進步,開發可解釋的LLMs至關重要。這在技術上具有挑戰性,但在倫理和研究上必不可少。定制的XAI技術需要在各個層次提供解釋,反映模型的邏輯以增強用戶信心、確保安全并指導AI的倫理使用。

另一個技術挑戰是數據偏見。數據偏見指的是LLM訓練數據中的不公平偏向或歧視。它可能導致有偏見的結果并延續社會不平等。解決數據偏見需要采取措施,如數據審計、預處理以減輕偏見以及多樣化訓練數據集以實現代表性和包容性。明確定義的指標可以幫助評估LLM系統的公平性、準確性、可靠性和透明性,提供其倫理表現的量化指標[20],[37],[47],[48]。

最新研究探索了通過解決幻覺和缺乏可解釋性等問題來提高LLMs可信度的技術[59]。他們提出了一種稱為圖上的推理(RoG)的方法,通過知識圖譜與LLMs協同進行真實和可解釋的推理。在其檢索-推理優化方法中,RoG使用知識圖譜檢索推理路徑,以便LLMs生成答案。RoG中的推理模塊使LLMs能夠識別重要的推理路徑并提供可解釋的解釋,增強了AI系統的可信度。通過專注于知識圖譜中的推理過程并提供透明的解釋,像RoG這樣的方法展示了建立LLMs信任的有希望的方向[59]。

具有可靠日志記錄的可解釋系統增強了透明性、審計和問責制[60]。文檔和日志記錄提供了對決策過程的見解,支持錯誤解決,并確保遵守倫理和法規標準,從而建立用戶信任。這些機制使技術和非技術利益相關者能夠理解AI系統的內部運作,并確定影響其輸出的因素。

3)用戶信任的心理因素:用戶對LLMs的信任在很大程度上取決于心理因素,而不僅僅是技術的可靠性[61]-[65]。用戶必須對LLM系統的可靠性、準確性和可信度有信心。通過有效的溝通和透明性可以實現這一點。組織應清楚地傳達LLM系統的能力和局限性,提供有關系統工作原理和決策方式的信息。此外,組織應對其數據收集和使用實踐保持透明,讓用戶了解他們的數據如何被使用和保護。

4)信任基礎上的LLMs政策與治理:有效的治理對于管理部署LLM系統相關的倫理、技術和問責問題至關重要[36],[40],[47],[61],[66]-[69]。應建立結構和流程,以確保LLM系統的倫理和負責任開發、部署和監控。涉及關鍵利益相關者,如AI倫理委員會、監管機構和行業專家,可以提供指導和監督。為了確保公平和無偏見的決策,必須包括用戶反饋和多樣化的觀點。為了建立對LLMs的信任,我們必須解決解釋性和數據偏見等技術問題,同時建立強有力的治理框架。

5)社會經濟影響:必須評估LLMs的社會經濟影響,以了解其對勞動力和社會的影響。LLMs可能會取代人類工人,導致失業和社會動蕩。需要投資于技能發展,以幫助工人適應變化。再培訓計劃和其他培訓可以使工人能夠與LLMs協同工作或從事新角色。應實施優先考慮工作保障和社會支持的政策,以減輕影響。探索LLMs的潛在社會福利,如增加信息獲取,可以促進更包容的社會。在設計和實施LLMs時,倫理考量和負責任的部署至關重要。應建立促進透明、問責和公平的政策和法規。對LLMs影響的仔細考慮、技能發展的投資和負責任的部署對于對社會產生積極影響至關重要[70]-[72]。

B. 本綜述的主要貢獻

本綜述對AI系統的信任進行了全面分析,重點關注LLMs。通過審查倫理、技術和社會因素,我們為負責任的AI開發討論作出了貢獻。我們的綜述提供了應對構建AI系統信任挑戰的見解和建議,特別是LLMs。主要貢獻如下所述。

? 綜合評估框架:本綜述提供了一個用于分析高級AI系統,特別是LLMs中的算法偏見和漏洞的分類法。該框架由八個視角組成,涵蓋透明性、魯棒性、人類價值對齊和環境影響等方面。此方法使得能夠對LLMs的信任進行徹底評估,解決其開發和部署中的問題。通過整合多種視角,該框架提供了LLM可信度的全貌,對負責任的AI作出了重要貢獻。 ?** 綜合信任動態分析**:本綜述審查了影響用戶對AI系統信任的因素,包括心理、倫理、技術和政策方面。通過分析AI能力、法規和社會接受度的交叉點,識別了實現可信AI的障礙。此研究揭示了信任動態,為從事負責任的AI開發和實施的研究人員、政策制定者和行業專業人士提供了指導。 ? 針對LLMs的上下文化指南和標準:本綜述審查了現代AI系統,特別是不透明模型如LLMs的倫理指南和政策標準的應用。倫理指南在確保AI使用的責任方面發揮重要作用。然而,LLMs由于其類人文本生成和缺乏透明性,面臨獨特的挑戰,這使得理解和解釋其行為變得困難。本綜述探討了在實際LLM部署中實施倫理原則的實際意義,考慮了技術限制、社會影響和潛在風險。它識別了局限性并提供了解釋和操作化LLM開發和部署倫理指南的見解。目標是通過突出差距并倡導完善LLM特定指南來促進AI治理,促進AI使用的透明性、公平性和問責制。

C. 本綜述的局限性

本綜述對AI信任進行了全面審查,特別關注LLMs。然而,重要的是要承認我們研究的局限性。我們的分析基于現有的AI倫理和信任領域的文獻和研究,包括專門針對LLMs的相關工作。因此,本綜述可能無法完全捕捉這些快速發展的領域中最新的想法或進展。

我們的分析范圍限于學術出版物和行業報告,這限制了所考慮的觀點范圍。對于LLMs,這尤為相關,因為本綜述可能未包括未出版的研究或不太知名的觀點,這些觀點可能提供寶貴的見解。此外,鑒于AI技術發展和LLMs倫理考慮不斷演變的速度,本綜述中提出的一些討論和結論可能會隨著時間的推移而變得不再相關。盡管我們的綜述旨在涵蓋AI,包括LLMs,越來越多部署在高風險領域中的情況,但它并未詳盡地解決所有與LLMs相關的信任方面或行業特定挑戰。本綜述中提出的解釋和分析基于撰寫時可獲得的最佳數據和研究。讀者在評估這些發現和建議時應考慮這些局限性。

需要強調的是,本綜述的目標是對AI和LLMs的信任進行全面審查,同時保持對分析范圍的透明度。我們旨在通過探索現有的指南和框架、討論構建LLMs信任的方法和挑戰以及提出未來研究方向,為AI信任和倫理的持續對話作出貢獻。我們鼓勵在可能探索較少或快速發展的領域進行進一步研究和對話,因為這些討論對于AI系統負責任的開發和部署至關重要。在本綜述中,我們創建了一個敘述,捕捉了AI信任的當前狀態及其領域中的潛在發展。然而,AI倫理和信任的領域是復雜和多面的,我們的綜述可能未涵蓋每一個細微差別或觀點。盡管如此,我們希望這項工作能為研究人員、政策制定者和從業人員在應對與AI和LLMs信任相關的挑戰和機遇時,提供有價值的資源。

付費5元查看完整內容

相關內容

摘要—多模態情感計算(MAC)由于其在人類行為和意圖分析中的廣泛應用,尤其是在以文本為主導的多模態情感計算領域中,受到了越來越多的關注。本綜述從自然語言處理(NLP)視角出發,介紹了多模態情感計算的最新趨勢,涵蓋四個熱門任務:多模態情感分析、多模態對話情感識別、多模態基于方面的情感分析以及多模態多標簽情感識別。本綜述的目標是探索當前多模態情感研究的現狀,識別發展趨勢,突出不同任務之間的相似性和差異性,并為多模態情感計算在NLP視角下的最新進展提供全面報告。本綜述涵蓋了任務的形式化,概述了相關研究工作,描述了基準數據集,并詳細介紹了每個任務的評估指標。此外,本文簡要討論了涉及面部表情、聲學信號、生理信號和情感原因的多模態情感計算研究。我們還討論了多模態情感計算中的技術方法、挑戰及未來發展方向。為了支持進一步的研究,我們發布了一個匯集了多模態情感計算相關工作的資源庫,提供了詳細的資源和參考文獻,供研究社區使用。

情感計算結合了計算機科學、心理學和認知科學的專業知識,其目標是賦予機器識別、解釋和模擬人類情感的能力【1】–【6】。當今世界充滿了各種模態——我們通過視覺感知物體,通過聽覺感受聲音,通過觸覺感受物體的質地,通過嗅覺聞到氣味,等等。模態是指體驗的感知或發生方式,通常與視覺或觸覺等感官模態相關,這些模態對交流和感知至關重要。在多個領域的多模態學習取得重大進展【7】【8】后,多模態情感計算的進展加速并受到越來越多的關注。

多模態情感計算旨在開發能夠在多種模態下解釋和推理情感或情緒狀態的模型。在其早期階段,情感計算的研究主要集中在單一模態任務上,分別研究基于文本、音頻和視覺的情感計算。例如,D-MILN【9】是一個文本情感分類模型,而工作【10】利用訓練在原始音頻上的雙向長短期記憶(BiLSTM)模型預測群體反應的平均情感。如今,情感分析已廣泛應用于各種模態中,用于市場研究、品牌監測、客戶服務分析和社交媒體監控等應用。多媒體技術的最新進展【11】–【14】拓寬了信息傳播的渠道,新聞、微博等社交媒體平臺以及視頻內容的涌現將文本(口語特征)、聲學(節奏、音高)和視覺(面部屬性)信息整合起來,用于全面分析人類情感。例如,Xu等人【15】將圖像模態數據引入傳統的基于文本的方面級情感分析,創建了多模態基于方面的情感分析新任務。同樣,Wang等人【16】將文本情感原因對提取擴展到多模態對話環境中,利用多模態信號(文本、音頻和視頻)增強模型理解情感及其原因的能力。

多模態情感計算任務與機器學習中的多個學習范式密切相關,包括遷移學習【17】–【19】、多模態學習【20】【21】、多任務學習【22】–【24】和語義理解【25】【26】。在遷移學習方面,它使得在一個領域訓練的情感分析模型能夠適應其他領域的有效表現。通過在目標領域有限的數據上微調預訓練模型,這些模型可以遷移到新領域,從而提升其在多模態情感計算任務中的表現。在多模態學習中,跨模態注意力動態對齊并聚焦于來自不同模態的相關信息,通過突出關鍵特征及其交互來增強模型捕捉情感的能力。在多任務學習中,跨情感計算任務和模態的共享表示通過從文本、音頻和視頻中捕捉共同的情感相關特征來提升表現。 最近,多模態學習的研究通過在大規模多模態數據集上預訓練多模態模型,進一步提升了下游任務的性能,如多模態情感分析【27】–【30】。隨著預訓練模型規模的擴大,參數高效的遷移學習方法如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等不斷涌現。越來越多的多模態情感計算研究利用這些參數高效的遷移學習方法,將預訓練模型(如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,通過進一步微調預訓練模型來提升模型性能。例如,Zou等人【36】設計了一個多模態提示Transformer(MPT)用于跨模態信息融合。UniMSE【37】提出了一種基于適配器的模態融合方法,它將聲學和視覺信號注入T5模型中,與多層次的文本信息進行融合。

多模態情感計算涵蓋了情感分析、觀點挖掘和情感識別等任務,使用的模態包括文本、音頻、圖像、視頻、生理信號和觸覺反饋。本綜述主要關注三種關鍵模態:自然語言、視覺信號和聲音信號。我們在本綜述中突出了四個主要任務:多模態情感分析(MSA)、多模態對話中的情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。多模態情感計算領域已有大量研究,且已有多篇綜述【14】【38】–【40】發表。然而,這些綜述主要集中于特定的情感計算任務或單一模態,忽略了跨多任務的多模態情感計算的總體概況,以及這些任務之間的一致性和差異性。

本綜述的目標有兩點。首先,旨在為初學者提供多模態情感計算的全面概述,探索情感分析中的深度學習,詳細介紹任務、輸入、輸出及相關數據集。其次,為研究人員提供反思過去發展、探索未來趨勢的視角,并研究多模態情感分析和情感識別領域的技術方法、挑戰及研究方向。


綜述的結構

第III節概述了多模態情感任務的任務形式化及應用場景。第IV節介紹了特征提取方法和最近的多模態預訓練模型(如CLIP、BLIP、BLIP2)。第V節從多模態融合和多模態對齊兩個角度分析了多模態情感研究,并簡要總結了用于進一步微調預訓練模型的參數高效遷移方法。第VI節回顧了關于MSA、MERC、MABSA和MMER的文獻,重點討論了多任務學習、預訓練模型、增強知識和上下文信息。此外,第VII節總結了多模態數據集,第VIII節涵蓋了每個多模態情感計算任務的評估指標。在回顧多模態情感計算工作后,第IX節簡要回顧了基于面部表情、聲學信號、生理信號和情感原因的多模態情感計算工作,突出其一致性、差異性及其最新趨勢。第X節從三個方面展望了未來工作:多模態情感計算任務的統一、外部知識的引入以及較少研究的模態情感計算。最后,第XI節總結了本綜述及其對多模態情感計算社區的貢獻。

多模態情感計算中的多模態學習

多模態學習涉及從不同模態中學習表示。通常,多模態模型應首先基于語義對模態進行對齊,然后再融合多模態信號。在對齊后,模型將多個模態組合成一個表示向量。

A. 初步概述

隨著預訓練模型規模的擴大,出現了諸如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等參數高效的遷移學習方法。在這種范式下,預訓練的語言模型(LMs)不再通過目標工程適應下游任務,而是通過提示、指令微調和上下文學習,將下游任務重新格式化,使其更像原始LM訓練期間解決的任務。例如,在視覺語言模型(VLMs)中,像GPT-4V【65】和Flamingo【67】的提示使用,使模型能夠基于視覺和文本輸入的結合來解釋和生成輸出。與提示不同,指令微調屬于提示學習范式。此外,像InstructBLIP【70】和FLAN【72】這樣的模型表明,指令微調不僅提高了模型對指令的遵循性,還增強了其跨任務的泛化能力。在多模態情感計算領域,研究人員可以利用這些參數高效的遷移學習方法(例如適配器、提示和指令微調),將預訓練模型(例如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,并通過情感數據集進一步微調預訓練模型。鑒于多模態情感計算涉及多模態學習,因此我們從多模態融合和多模態對齊的角度分析多模態情感計算的相關工作,如圖1所示。

B. 多模態融合

多模態信號是異質的,來源于各種信息源,因此將多模態信號整合為一個表示至關重要。Tasi等人【74】根據融合階段將多模態融合總結為早期融合、晚期融合和中間融合。早期融合在模型處理之前,將來自不同模態的特征在輸入級別進行組合。晚期融合則通過單獨的子網絡分別處理來自不同模態的特征,并在做出最終決策之前的晚期階段將這些子網絡的輸出進行組合。晚期融合使用單模態的決策值,并通過如平均【121】、投票方案【122】、基于通道噪聲的加權【123】和信號方差【124】等機制將它們結合起來,或者通過學習模型【6】【125】進行融合。這兩種融合策略面臨一些問題。例如,特征級別的早期融合在融合操作后可能低估模態內的動態,而決策級別的晚期融合在融合操作之前可能難以捕捉模態間的動態。不同于前兩種方法的地方在于,中間融合是在模型學習器的中間層結合來自不同模態的特征,允許模態在不同的處理階段進行更多的交互,從而可能產生更豐富的表示【37】【126】【127】。基于這些融合策略,我們從三個方面回顧了多模態融合:跨模態學習、模態一致性與差異性、多階段模態融合。圖2展示了模態融合的三個方面。

**1) 跨模態學習

跨模態學習關注的是通過引入模態間的依賴關系和交互來實現更好的模態融合。早期的多模態融合工作【73】主要在特征空間中進行幾何操作,以融合多種模態。最近,跨模態學習的常見方式是引入基于注意力的學習方法來建模模態間和模態內的交互。例如,MuLT【74】提出了多模態Transformer,用于學習模態間的交互。Chen等人【75】通過三模態協同交互增強了模態內和模態間的特征,并統一了三種模態的特性(跨模態)。楊等人【76】提出了跨模態BERT(CM-BERT),旨在基于預訓練的BERT模型對文本和音頻模態的交互進行建模。Lin等人【77】探討了模態內和模態間表示的復雜關系,用于情感提取。最近,Tang等人【78】提出了多模態動態增強模塊,用于捕捉模態內的情感上下文,減少輔助模態的模態內冗余。Huang等人【79】提出了一個基于跨模態注意力的文本中心融合網絡(TeFNA),這個多模態融合網絡利用跨模態注意力建模未對齊的多模態時間信息。

在情感識別領域,CMCF-SRNet【80】是一個跨模態上下文融合和語義精煉網絡,包含一個跨模態局部約束Transformer和基于圖的語義精煉Transformer,旨在探索話語間的多模態交互和依賴關系。Shi等人【81】提出了一個基于注意力的相關性感知多模態融合框架MultiEMO,該框架基于雙向多頭跨注意力層捕捉文本、音頻和視覺模態間的映射關系。總之,跨模態學習主要關注模態間關系的建模。

**2) 模態一致性與差異性

模態一致性是指對于同一樣本,不同模態之間共享的特征空間,而模態差異性則突出每種模態提供的獨特信息。大多數多模態融合方法將表示分為模態不變(一致性)和模態特定(差異性)兩個組成部分。模態一致性有助于處理缺失模態,而模態差異性則利用每個模態的互補信息來改進整體數據理解。例如,幾項研究【86】【87】通過對比學習探索了模態一致性與差異性的學習。Han等人【85】通過最大化模態間及模態內的互信息來探索模態一致性。另一項研究【86】提出了一個混合對比學習框架,該框架同時進行模態內/模態間對比學習和半對比學習,建模跨模態交互,保持類間關系,并減少模態差距。此外,Zheng等人【87】將模態對之間的互信息最大化與輸入數據和相應特征之間的互信息最小化相結合。該方法旨在提取模態不變且任務相關的信息。模態一致性也可以被視為將多種模態投射到共同潛在空間(模態不變表示)的過程,而模態差異性則指將模態投射到模態特定的表示空間。例如,Hazarika等人【88】提出了一種方法,將每種模態投射到模態不變和模態特定的空間中。他們實現了一個解碼器,通過模態不變和模態特定特征來重建原始模態表示。AMuSE【84】提出了一個多模態注意力網絡,通過聯合學習模式特定的外周和中央網絡,捕捉不同層次空間抽象下的跨模態交互。對于細粒度的情感分析,Xiao等人【89】提出了CoolNet,以提高視覺語言模型在無縫整合視覺和語言信息方面的性能。Zhang等人【90】通過探索模態一致性,提出了一個基于融合判別注意力網絡的方面級情感分類模型。

**3) 多階段模態融合

多階段多模態融合【128】【129】指的是將從多個階段或多個尺度提取的模態信息結合起來,以融合模態表示。Li等人【94】設計了一個兩階段對比學習任務,學習相同情感類別數據的相似特征,并為不同情感類別的數據學習可區分的特征。HFFN【95】將多模態融合過程分為分解、征服和組合三個部分,在每個局部塊學習局部交互,并通過跨局部交互傳遞信息來探索全局交互。與HFFN的工作不同,Li等人【96】對齊并融合了文本和圖像的token級特征,設計了基于標簽的對比學習和基于數據的對比學習,以捕捉多模態數據中與情感相關的共同特征。一些工作【97】將融合過程分解為多個階段,每個階段專注于部分多模態信號,以實現更專門和有效的融合。此外,CTFN【130】提出了一種新的特征融合策略,按照層次化的方式進行,首先兩兩融合模態,然后再融合三種模態。此外,在多個層次的模態融合方面也取得了進展,例如,Li等人【99】提出了一種基于多層次相關性挖掘和自監督多任務學習的多模態情感分析方法,Peng等人【100】提出了一種細粒度模態標簽的多階段網絡(FmlMSN),利用來自文本、音頻、圖像及其組合的七種情感標簽,在不同粒度上進行信息整合。研究人員通常專注于模型決策前的尺度級模態對齊和模態融合。Sharafi等人【93】提出了一種新的融合方法,利用不同的尺度進行多模態情感識別。

C. 多模態對齊

多模態對齊涉及在融合多模態數據之前對模態語義進行同步。一個關鍵挑戰是處理缺失模態的情況,例如由于攝像頭關閉、用戶沉默或設備故障導致語音和文本同時缺失。由于始終擁有所有模態的假設在現實中通常不切實際,因此多模態對齊必須解決這些缺失。此外,它還涉及通過語義對齊來對齊圖像、文本和音頻中的對象。因此,我們從處理缺失模態和實現語義對齊的角度討論多模態對齊。圖3展示了多模態對齊的示意圖。

**1) 缺失模態的對齊

在實際場景中,數據收集有時會由于不可預見的事件同時丟失某些模態。雖然多模態情感計算通常假設所有模態都可用,但這一假設在實踐中經常失敗,這可能會導致在缺少某些模態時,模態融合和對齊模型出現問題。我們將現有的處理缺失模態的方法分為四類。第一類是數據增強方法,通過隨機刪除輸入來模擬缺失模態的情況。Parthasarathy等人【107】提出了一種策略,在訓練過程中隨機刪除視頻輸入的剪輯或幀,模擬現實世界場景。Wang等人【108】通過訓練情感識別模型,迭代性地進行數據增強,處理話語級模態缺失問題。第二類基于生成方法,直接預測給定可用模態的缺失模態【131】。例如,Zhao等人【106】提出了缺失模態想象網絡(MMIN),在不同缺失模態條件下,根據可用模態預測任何缺失模態的表示,以應對不確定的缺失模態問題。Zeng等人【109】提出了基于集成的缺失模態重建(EMMR)網絡,以檢測并恢復關鍵缺失模態的語義特征。Yuan等人【110】提出了一種基于Transformer的特征重建網絡(TFR-Net),該網絡通過增強模型在非對齊模態序列中隨機缺失的魯棒性。Luo等人【111】提出了多模態重建與對齊網絡(MRAN),專門處理缺失模態問題,尤其是緩解文本模態缺失帶來的性能下降。

第三類旨在學習聯合多模態表示,這些表示能夠包含基于組合的視覺和文本輸入的相關信息。例如,Ma等人【133】提出了一個統一的深度學習框架,通過相關分析有效處理音視頻情感識別中的缺失標簽和缺失模態問題。Zeng等人【113】提出了一個標簽輔助Transformer編碼器網絡(TATE),用于處理不確定的缺失模態問題,該網絡設計了一個標簽編碼模塊,以覆蓋單模態和多模態缺失的情況,從而引導網絡對缺失模態的關注。Zuo等人【114】提出使用不變特征的缺失模態想象網絡(IF-MMIN),該網絡包含不變特征學習策略和基于不變特征的想象模塊(IF-IM)。通過這兩種策略,IF-MMIN能夠在預測缺失模態時緩解模態差距,從而提高多模態聯合表示的魯棒性。Zhou等人【116】在缺失一種或多種模態的情況下,提出了一種新穎的腦腫瘤分割網絡。該網絡由三個子網絡組成:一個特征增強生成器、一個相關性約束模塊和一個分割網絡。 最后一類是基于翻譯的方法。Tang等人【98】提出了耦合翻譯融合網絡(CTFN),通過耦合學習建模雙向交互,確保在缺失模態情況下的魯棒性。Liu等人【115】提出了一種基于模態翻譯的多模態情感分析模型(MTMSA),該模型對不確定的缺失模態具有魯棒性。總而言之,關于缺失模態對齊的研究集中在基于現有模態信息的缺失模態重建和學習。

**2) 跨模態語義對齊

語義對齊旨在找到同一樣本中多種模態之間的連接,指的是通過一種模態信息搜索另一種模態信息,反之亦然。在多模態情感分析領域,Tsai等人【74】利用跨模態和多尺度模態對齊,分別在語義層面實現模態一致性。ScaleVLAD【200】提出了一種融合模型,通過共享的局部聚合描述符向量,從文本、視頻和音頻中聚集多尺度表示,以改進未對齊的多模態情感分析。Yang等人【104】將未對齊的多模態序列數據轉換為一個具有異質節點和邊的圖,捕捉模態間和時間上的豐富交互。Lee等人【201】將音頻和基礎文本信號按相同步長分段,使得順序信號的相同時間步覆蓋信號的相同時間跨度。Zong等人【202】利用多次雙向翻譯,與傳統的翻譯方法相比,產生了雙倍的多模態融合嵌入。Wang等人【203】提出了一種基于Transformer的多模態編碼–解碼翻譯網絡,并采用了以文本為主要信息、聲音和圖像為次要信息的聯合編碼–解碼方法。Zhang等人【120】提出了一種新穎的多級對齊方法,用于彌合聲學和詞匯模態之間的差距,該方法可以有效對比實例級和原型級的關系,在潛在空間中分離多模態特征。Yu等人【204】提出了一種無監督方法,通過最小化兩種模態之間的Wasserstein距離,強迫兩種編碼器產生更合適的表示,以便最終對文本和圖像進行對齊。 Lai等人【119】提出了一種基于協方差矩陣的深度模態共享信息學習模塊,用于捕捉模態之間的共享信息。此外,我們使用了一個基于自監督學習策略的標簽生成模塊,以捕捉模態的私有信息。我們的模塊在多模態任務中是即插即用的,并且通過改變參數化,它可以調整模式之間的信息交換關系,學習特定模式之間的私有或共享信息。我們還采用了多任務學習策略,幫助模型專注于模態差異的訓練數據。為了增強模型的魯棒性,Robust-MSA【118】提出了一個交互式平臺,可視化模態噪聲的影響,以幫助研究人員提高模型能力。

多模態情感計算中的模型

在多模態情感計算領域,相關工作在技術路線發展上表現出顯著的一致性。為了更清晰地展示,我們根據多任務學習、預訓練模型、增強知識、上下文信息這四個方面對這些工作進行了分類。同時,我們簡要總結了在多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)任務中的進展。圖4總結了在這些方面的典型多模態情感計算工作,表II展示了多模態情感計算的分類。

A. 多任務學習

多任務學習是在多個相關任務上同時訓練模型,通過共享信息來提升性能。損失函數結合了所有任務的損失,通過梯度下降來更新模型參數。在多模態情感計算中,多任務學習有助于區分模態不變和模態特定特征,并將與情感相關的子任務整合到統一框架中。圖5展示了多模態情感學習任務中多任務學習的范式。

**1) 多模態情感分析

在多模態情感分析領域,Self-MM【134】為單一模態生成偽標簽【205】–【207】,然后基于生成的和原始標簽共同訓練單模態和多模態表示。此外,還使用了一種模態間的翻譯框架ARGF,作為輔助任務將一種模態翻譯到另一種模態,從而規范多模態表示學習【135】。Akhtar等人【136】利用情感和情緒任務的相互依賴性來提高模型在這兩個任務上的性能。Chen等人【137】提出了一個基于視頻的跨模態輔助網絡(VCAN),該網絡由一個音頻特征映射模塊和一個跨模態選擇模塊組成,以利用輔助信息。Zheng等人【138】提出了帶有松弛重建的解耦翻譯網絡(DTN),用于捕捉期望的信息屬性,獲取統一的特征分布,并減少冗余。Zheng等人【87】結合了模態對之間的互信息最大化(MMMIE)與輸入數據和相應特征之間的互信息最小化,在單一架構中共同提取模態不變和任務相關的信息。

**2) 多模態對話情感識別

在多模態情感識別社區中,Zheng等人【24】提出了一個名為面部表情感知多模態多任務學習的兩階段框架(FacialMMT),該框架在統一架構中共同訓練多模態面部識別、無監督面部聚類和面部匹配,以利用幀級別的面部情感分布來幫助改進基于多任務學習的話語級情感識別。Zhang等人【208】設計了兩種多任務學習解碼器,即單級解碼器和多級解碼器,以探索其潛力。更具體地說,單級解碼器的核心是掩蔽的外模態自注意機制。Sun等人【139】設計了兩個輔助任務,以緩解模態間融合不足的問題,并引導網絡捕捉和對齊與情感相關的特征。Zhao等人【140】提出了基于Transformer的深度融合網絡(TDFNet)用于多模態情感識別,解決了上述問題。TDFNet中的多模態嵌入(ME)模塊通過使用大量無標簽數據為模型提供多模態信息的先驗知識,來緩解數據稀缺問題。Ren等人【141】提出了一種新穎的多模態對抗學習網絡(MALN),該網絡首先從上下文序列中挖掘說話者的特征,然后將其與單模態特征結合起來。Liu等人【142】提出了LGCCT,一種輕量級的門控和交叉互補Transformer,用于多模態語音情感識別。

**3) 多模態基于方面的情感分析

Yang等人【144】提出了一個名為跨模態多任務Transformer(CMMT)的多任務學習框架,該框架包含兩個輔助任務,用于學習方面/情感感知的模態內表示,并引入了一個文本引導的跨模態交互模塊,以動態控制視覺信息對每個詞的模態間交互表示的貢獻。Jain等人【145】提出了一個分層多模態生成方法(AbCoRD),用于基于方面的投訴和理由檢測,將多任務問題重新表述為多模態文本生成任務。Ju等人【146】是第一個聯合執行多模態ATE(MATE)和多模態ASC(MASC)的人,并提出了一個聯合框架JML,用于基于多模態方面級情感分析(MALSA)的輔助跨模態關系檢測,以控制視覺信息的適當利用。Zou等人【36】設計了一個多模態提示Transformer(MPT)進行跨模態信息融合。同時,該工作使用了混合對比學習(HCL)策略,以優化模型處理少量標簽樣本的能力。Chen等人【82】設計了音頻模塊應比文本模塊更具表現力,并將單一模態情感表示動態融合到多模態情感表示中,提出了相應的基于規則的多模態多任務網絡(MMRBN),用于限制表示學習。

**4) 多模態多標簽情感識別

對于多模態多標簽情感識別,Ge等人【92】設計了對抗性時間掩蔽策略和對抗性參數擾動策略,以分別增強其他模態的編碼和模型的泛化能力。MER-MULTI【147】是一種標簽分布自適應方法,適應了訓練集和測試集之間的標簽分布,以消除與測試集特征不匹配的訓練樣本。Akhtar等人【209】提出了一個深度多任務學習框架,該框架聯合執行情感和情緒分析,利用兩個相關任務(即情感和情緒)的相互依賴性來提高它們各自的性能。

B. 預訓練模型

近年來,大語言模型(LLM)【56】【210】和多模態預訓練模型【21】【26】【211】【212】取得了顯著進展【25】【210】【213】。與非預訓練模型相比,預訓練模型包含大量轉移知識【27】【31】,可以引入到多模態表示學習中,以探索更豐富的信息。圖6展示了預訓練模型在多模態情感學習任務中的使用。

**1) 多模態情感分析

在多模態情感分析領域,Rahman等人【21】提出了一種附加到預訓練模型BERT和XLNet上的多模態適應門(MAG),該適應門允許BERT和XLNet通過生成一個基于視覺和聲學模態的偏移來接受多模態的非語言數據。UniMSE【37】是基于T5模型【57】的統一情感共享框架,該框架將非語言信號注入預訓練的Transformer模型中,以探索LLM中存儲的知識。AOBERT【148】引入了一種單流Transformer結構,將所有模態整合到一個BERT模型中。Qian等人【149】在詞級別嵌入情感信息到預訓練的多模態表示中,以便在有限的標注數據上進行進一步學習。TEASAL【150】是一個基于Transformer的語音前綴語言模型,它利用一個傳統的預訓練語言模型作為跨模態Transformer編碼器。Yu等人【151】研究了面向目標的多模態情感分類(TMSC),并提出了一個多模態BERT架構,用于多模態情感分析任務。Cheng等人【152】設置了分層參數共享和分解的共同注意機制,以便在跨注意力塊之間共享參數,從而允許多模態信號在每一層進行交互。ALMT【153】結合了一個自適應超模態學習(AHL)模塊,用于在語言特征的指導下從視覺和音頻特征中學習無關性/沖突抑制的表示。

**2) 多模態對話情感識別

在多模態對話情感識別領域,FacialMMT【24】是一個兩階段框架,使用RoBERTa【214】和Swin Transformer作為表示學習的主干。Qiu等人【215】采用VATT【30】分別編碼視覺、文本和音頻,并使學到的模態表示進行對齊。QAP【19】是一個量子啟發的自適應優先學習模型,采用ALBERT作為文本編碼器,并引入了量子理論(QT)以自適應地學習模態優先級。UniMSE【37】提出了一種基于預訓練模型T5的多模態融合方法,旨在通過預訓練的知識融合模態信息。GraphSmile【154】采用RoBERTa【214】逐層跟蹤多模態對話中的復雜情感線索,逐層吸收模態內和模態間的情感依賴關系,充分捕捉跨模態線索,同時有效避免融合沖突。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【47】首次提出了多模態基于方面的情感分析任務,并提出了一種新穎的多交互記憶網絡(MIMN),該網絡包含兩個交互記憶網絡,分別用于監督文本和視覺信息與給定方面的關聯,并學習跨模態數據之間的交互影響以及單模態數據中的自我影響。Yang等人【17】提出了一種新穎的生成多模態提示(GMP)模型,用于MABSA,該模型包含多模態編碼器模塊和N流解碼器模塊,并通過少量標注的多模態樣本執行三項MABSA相關任務。Liu等人【155】提出了一種基于視覺提示的實體相關無監督預訓練,用于MABSA。Ling等人【156】提出了一個任務特定的視覺-語言預訓練框架(VLPMABSA),這是一個統一的多模態編碼器-解碼器架構,適用于所有的預訓練和下游任務。Zhang等人【157】構建了一個動態重加權的BERT(DR-BERT),設計用于學習基于BERT的動態方面導向語義。

**4) 多模態多標簽情感識別

一些關于多模態多標簽情感識別的工作利用了預訓練模型來提高模型性能。據我們所知,TAILOR【91】是一個新穎的多模態學習框架,用于多標簽情感識別,它對多個模態之間的共性和差異進行了對抗性描繪。TAILOR通過對抗性地提取私有和共性模態表示來執行這些任務。

C. 增強知識

在機器學習和人工智能中,外部知識是指來自訓練數據集之外的信息,包括知識庫、文本語料庫、知識圖譜、預訓練模型和專家見解。整合這些知識可以提高模型的性能、泛化能力、可解釋性以及對噪聲或有限數據的魯棒性。圖7展示了在多模態情感學習任務中整合外部知識的常見方法。

**1) 多模態情感分析

在多模態情感分析研究領域,Rahmani等人【18】通過層次劃分用戶構建了自適應樹,并利用基于注意力的融合來在樹內轉移認知導向的知識。TETFN【163】是一種新穎的方法,名為文本增強Transformer融合網絡,它學習面向文本的成對跨模態映射,以獲得有效的統一多模態表示。Zhu等人【164】提出了情感知識增強的注意力融合網絡(SKEAFN),這是一個新穎的端到端融合網絡,通過整合來自外部知識庫的附加情感知識表示來增強多模態融合。

**2) 多模態對話情感識別

在多模態對話情感識別領域的研究中,Fu等人【166】將上下文建模、知識豐富和多模態(文本和音頻)學習集成到基于GCN的架構中。Li等人【167】提出了一種解耦的多模態蒸餾(DMD)方法,旨在通過靈活和自適應的跨模態知識蒸餾來增強每種模態的判別特征。Sun等人【168】研究了一種基于粗集理論的多模態融合Transformer網絡,通過粗集跨注意力促進了多模態信息的交互和特征引導。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【172】引入了外部知識,包括文本語法和跨模態關聯知識,通過知識誘導矩陣切斷文本或跨模態模態之間的無關連接。Yang等人【173】提煉了視覺情感線索,并將其與文本內容對齊,以選擇性地與文本模態中的目標方面匹配和融合。CoolNet【174】是一個跨模態的細粒度對齊和融合網絡,旨在提高視覺-語言模型在無縫整合視覺和語言信息方面的表現。

**4) 多模態多標簽情感識別

在多模態多標簽情感識別研究領域,Zheng等人【176】提出通過使用效價-喚醒(VA)空間來表示每個情感類別,以捕捉情感類別之間的相關性,并設計了一種基于VA的對比學習算法。CARAT【177】提出了基于對比的特征重建和聚合機制,用于MMER任務。具體而言,CARAT設計了一種基于重建的融合機制,通過對比學習模態分離和標簽特定特征,來更好地建模細粒度的模態與標簽之間的依賴關系。

D. 上下文信息

上下文是指圍繞某個詞或短語的單詞、句子或段落,這些信息為該詞或短語賦予了特定的含義。理解上下文對于對話系統或情感分析等任務至關重要。在對話中,上下文包括之前話語的歷史,而對于新聞來說,它指的是整篇文章提供的總體描述。總的來說,上下文信息幫助機器做出更準確的預測。圖8展示了上下文信息在多模態情感學習任務中的重要性。

**1) 多模態情感分析

在多模態情感分析領域,Chauhan等人【180】采用了一個上下文感知的注意力模塊,通過編碼器-解碼器結構學習參與模態之間的模態內交互。Poria等人【181】提出了一個帶有多級多重注意的遞歸模型,以捕捉話語之間的上下文信息,并設計了一個遞歸模型來捕捉話語之間的上下文信息,引入了基于注意力的網絡,以提高上下文學習和動態特征融合的效果。

**2) 多模態對話情感識別

在多模態對話情感識別研究領域,Hu等人【185】有效利用了多模態依賴關系,并利用說話者信息來建模說話者之間和說話者內部的依賴關系。Zhang等人【80】提出了一個跨模態上下文融合和語義精煉網絡(CMCF-SRNet),解決了話語之間語義關系信息不足的局限性。Zhang等人【187】構建了多個特定模態的圖,以建模多模態上下文的異質性。Chen等人【188】提出了一個基于GNN的模型,該模型探索了多變量關系,并通過評估多頻信號的情感差異和共性的不同重要性來捕捉這些關系。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Yu等人【158】提出了一種無監督的方法,該方法最小化了兩個模態之間的Wasserstein距離,強制兩個編碼器生成更適合最終提取的表示。Xu等人【192】設計并構建了一個多模態中文產品評論數據集(MCPR),以支持MABSA的研究。

**4) 多模態多標簽情感識別

MMS2S【197】是一種多模態序列到集合的模型,用于有效建模標簽依賴和模態依賴。MESGN【198】首次提出了這一任務,該模型同時建模模態到標簽和標簽到標簽的依賴關系。Zhao等人【199】提出了一個通用的多模態對話感知交互框架(MDI),用于建模對話上下文對情感識別的影響。 結論

多模態情感計算(MAC)已成為人工智能領域中的一個重要研究方向,并在理解和解釋情感方面取得了顯著進展。本文綜述了與多模態情感計算相關的多種任務,涵蓋了其研究背景、定義、相關工作、技術方法、基準數據集和評估指標。我們將多模態情感計算中的任務劃分為四類:多任務學習、預訓練模型、增強知識和上下文信息,涉及多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。此外,我們總結了不同情感計算任務之間的一致性和差異性,并報告了多模態情感分析中固有的挑戰,探索了未來研究和發展的潛在方向。

付費5元查看完整內容

當前的人工智能(AI)模型通常通過精細的參數調整和優化技術來提升性能。然而,模型背后的基本設計原則相對較少受到關注,這可能限制我們對其潛力和局限性的理解。本綜述探討了塑造現代AI模型的多樣化設計靈感,即腦啟發的人工智能(BIAI)。我們提出了一個分類框架,將BIAI方法分為物理結構啟發型和人類行為啟發型模型。我們還審視了不同BIAI模型在實際應用中的表現,突出其實際優勢和部署挑戰。通過深入探討這些領域,我們提供了新的見解,并提出了推動創新和解決當前領域內空白的未來研究方向。本綜述為研究人員和從業者提供了BIAI領域的全面概覽,幫助他們利用其潛力,加速AI開發的進步。

1 引言

人工智能(AI)的一個基本目標是創造能夠像人類一樣學習和思考的機器。為了實現這一目標,人工學習器在多個領域中取得了顯著的里程碑,包括目標和語音識別【131, 151】、圖像處理【115】、機器人技術【50】、醫學數據分析【161】、自然語言處理(NLP)【114】等。這些成功加速了AI的發展,使其在某些領域能夠與人類匹敵甚至超越。例如,AI模型現在在某些特定任務中表現優于人類,如語言翻譯【134】、圖像識別【63】甚至戰略游戲如國際象棋和圍棋【155】。最近,許多公司提出了一系列能夠理解圖像、音頻、視頻和文本的多模態模型,其能力類似于人類【3, 7, 169】。這種快速的進步彰顯了AI在各個領域中的變革潛力,推動了技術能實現的邊界。然而,旨在創造具有類似人類思維和推理能力的機器的一般AI方法在可擴展性、魯棒性、能效、可解釋性、學習效率和適應性方面仍然存在局限性【98】。 人類大腦被認為是最復雜的信息處理系統,能夠解決諸如學習、推理和感知等復雜任務。基于對人腦研究的最新進展,研究人員正在將神經科學的見解整合到AI系統中,旨在開發能夠更接近人類行為的感知、推理和行動的腦啟發人工智能(BIAI)系統【128, 163】。這一努力源于對生物智能的基本原理的理解,并希望利用這些原理來構建更智能、適應性更強和更魯棒的AI系統。什么是腦啟發人工智能(BIAI)?BIAI指的是從人類大腦和神經系統的生物結構、功能和原理中獲得靈感的AI系統和算法。它專注于復制或模仿生物體中觀察到的復雜過程和功能,以在人工系統中實現更類似于人類或大腦的行為【197】。與一般AI算法相比,BIAI通常集中于人類行為的特定方面,如從經驗中學習、適應新環境以及關注重要信息。在這篇全面綜述中,BIAI文獻大致分為物理結構(PS)啟發型模型和人類行為(HB)啟發型模型。PS啟發型模型是指模仿生物神經元、突觸和神經回路結構的模型,用于執行諸如學習、推理和決策等任務。代表性模型包括多層感知器(MLP)、人工神經網絡(ANNs)以及最近的脈沖神經網絡(SNNs)。HB啟發型模型被定義為復制人類行為中觀察到的生物機制和過程的模型。這些模型旨在捕捉生物系統的動態,同時提供對人類如何感知、學習、適應和與環境互動的見解。注意力機制、遷移學習和強化學習是常見的人類行為啟發的深度學習方法。BIAI與一般AI的區別在于它們在AI領域中的不同方法和目標【31, 77】。具體而言,一般AI并不一定受到人類大腦具體工作方式的啟發,而是旨在更廣泛的意義上達到或甚至超越人類水平的智能。相反,設計BIAI系統的目的是復制或模仿人類認知背后的生物機制和過程。這些系統通常在圖像識別和機器人控制等任務中表現出色,但它們可能不具備人類智能的全方位能力。BIAI與傳統AI的更全面比較見表1。為什么BIAI重要?BIAI的重要性主要體現在兩個方面。一方面,BIAI在適應性、泛化能力和可解釋性等許多方面有潛力超越傳統的AI方法。另一方面,BIAI模型旨在模仿大腦的結構和功能,從而增加其生物學的合理性。這種與生物學原理的契合不僅加深了我們對智能的科學理解,也為神經科學和AI研究之間的合作創造了新的機會。本質上,通過從人類大腦——最先進的信息處理系統——中汲取靈感,研究人員正在為開發可能達到甚至超越人類能力的智能系統奠定基礎【47, 103, 125】。

**1.1 動機

人類大腦是生物復雜性的頂峰。它不僅調節所有身體功能和過程,還使高級認知能力得以實現,如思維、記憶和情感【16】。將神經科學與AI系統相結合有助于解決許多現實應用中的緊迫問題和某些瓶頸【204】。一方面,人類大腦在處理大量信息時效率極高,同時消耗的能量相對較少。模仿其架構和過程可以使AI系統在操作上同樣高效和優雅。例如,傳統機器人無法在復雜環境中及時獲取環境知識,這限制了其做出準確快速決策的能力。此外,在該領域中,低學習效率、泛化能力差、難以制定目標導向的策略以及對動態環境的慢適應性等問題仍然存在。將BIAI整合到機器人系統中可以顯著提高機器人的運動和操控能力【132】。此外,BIAI還可以應用于解決許多其他現實問題,如醫學診斷、自動駕駛汽車、聊天機器人和虛擬助手、網絡威脅檢測、輔導系統、供應鏈優化、內容創作和個性化推薦。這些應用突顯了BIAI在不同方面的廣泛影響和相關性。另一方面,理解大腦的機制不僅為我們提供了有關智能如何產生的見解,還為解決AI中的復雜問題提供了線索。通過研究生物神經網絡,研究人員可以開發更好地捕捉認知和感知復雜性的算法和架構。例如,神經網絡作為AI的基礎和基本模型之一,汲取了大腦結構和計算過程的靈感。作為現代AI的基石,神經網絡推動了醫療、金融、交通和娛樂等領域的進步。它們從數據中學習并揭示有價值的見解的能力使其成為解決復雜挑戰和推動AI創新的關鍵。此外,人類大腦具有顯著的魯棒性和適應性,能夠從經驗中學習,處理噪聲和不確定數據,并將知識泛化到新情境【41】。通過模仿大腦的彈性和適應性,BIAI旨在創造更為魯棒和多功能的AI系統。這種方法還強調了透明性、可解釋性和責任感,從而優先考慮倫理AI的發展。以生物系統為模型的智能化推動了可信賴且符合人類價值觀的AI的創建。盡管BIAI在推動AI和機器人技術方面具有巨大的潛力【102】,但它也面臨著一些挑戰和局限性。人類大腦是一個極其復雜的器官,擁有數十億的神經元和數萬億的突觸,這些神經元和突觸組織成復雜的網絡,控制著認知、感知和行為。在人工神經網絡(ANNs)中復制這種復雜性帶來了巨大的計算和工程挑戰【160】。由于人腦的復雜性,盡管經過了數十年的研究,我們對大腦的理解仍然不完整。許多大腦功能方面,如學習、記憶和意識,仍然理解不充分【152】。這種理解的缺乏使得將神經科學的見解轉化為BIAI的實際算法和架構的努力變得更加復雜。此外,BIAI模型的復雜性和不透明性妨礙了我們理解其決策過程的能力。這種明顯缺乏可解釋性和透明性的情況在安全關鍵型應用(如醫療保健和自動駕駛車輛)中引發了對責任感、偏見和可信賴性方面的重大擔憂【78, 91】。這些不足促使我們對BIAI進行全面研究。在文獻中,已有幾篇綜述論文從不同的應用場景和不同的視角調查了BIAI的算法。然而,大多數研究僅關注某一特定方面,如算法、應用場景或代價函數,缺乏對當前BIAI研究進展的詳細介紹和討論的全面綜述。在這篇綜述文章中,我們基于算法的靈感來源和學習機制對當前BIAI研究進行了分類和審視。對于每個BIAI算法,在介紹其特點和適用場景后,我們討論了其優缺點。然后,我們討論了當前BIAI模型的開放問題,并列出了幾個未來的研究方向。我們希望這篇全面綜述能為相關領域的研究人員提供有用的見解。

**1.2 相關綜述與新穎性

之前的研究涵蓋了腦啟發/類腦學習或計算范圍內的類似主題【62, 74, 132, 149】,但沒有一篇集中探討神經科學為AI模型帶來的具體知識,也沒有全面詳細地介紹BIAI系統。在【132】中,作者試圖總結腦啟發算法在智能機器人中的進展,深入探討了視覺認知、情感調節決策、肌肉骨骼機器人技術和運動控制等關鍵領域。Ou等人【122】介紹了類腦計算模型和芯片、它們的演變歷史、常見應用場景和未來前景。Hassabis等人【62】探討了AI與神經科學之間的歷史聯系,并研究了受人類和其他動物神經計算研究啟發的AI的最新進展。在【106】中,作者展示了機器學習和神經網絡如何改變動物行為和神經成像研究領域。關于人工神經網絡中的腦啟發學習,可以在【149】中找到生物學基礎和算法介紹。這篇綜述主要集中在如何從人類大腦的物理結構中學習。然而,沒有一篇綜述注意到并審視了受人類行為和學習機制啟發的AI模型。此外,他們也未全面討論AI可以從人類大腦和神經系統中學習哪些部分來設計模型。在本綜述中,我們主要回答以下問題:什么是BIAI?BIAI與一般AI有什么區別?BIAI能為我們帶來哪些優勢?我們可以從人類大腦的哪些角度來設計AI模型?哪些BIAI模型已經在現實世界中使用?引入BIAI可以進一步推動哪些研究領域?當將神經科學與AI模型相結合時,研究人員面臨哪些挑戰?當前BIAI技術中存在哪些差距,未來可以在哪些方面開展工作?通過回答這些問題,我們希望研究人員能夠加深對BIAI系統的理解,并提高他們為不同應用設計更合適的BIAI算法的能力。

**1.3 貢獻

本文的覆蓋范圍如圖1所示。我們的主要貢獻總結如下:

  • 我們引入了神經科學和人類行為研究中的知識和見解,強調了AI如何從神經結構、學習機制、注意力和焦點、記憶與回憶、認知過程以及人類大腦中觀察到的創造力和想象力中學習。
  • 我們將BIAI研究分為兩大類:物理結構啟發型模型和人類行為啟發型模型,為理解該領域的不同方法提供了框架。
  • 我們探討了BIAI模型的多種應用,包括它們在機器人技術、醫療保健、情感感知和創意內容生成中的應用,展示了這些模型在各個領域中的廣泛潛力。
  • 我們討論了BIAI開發和實施過程中面臨的挑戰,例如理解大腦功能、與神經科學的整合以及構建高效、魯棒、倫理、具有意識且可解釋的模型。我們還概述了應對這些挑戰的未來研究方向。 本文的其余部分組織如下。第2節總結了可以為AI系統提供信息的神經科學和人類大腦功能知識。接下來,綜述按照圖1所示的分類結構展開。第3節討論了BIAI的主要類別,即物理結構啟發型模型和人類行為啟發型模型。第4節探討了BIAI在各個領域的實際應用。在第5節中,我們概述了當前BIAI方法面臨的一般挑戰。第6節重點介紹了未來研究的幾個有前途的方向。最后,在第7節中總結了本次綜述。

付費5元查看完整內容

視覺與語言導航(VLN)近年來受到越來越多的關注,許多方法已經涌現出來以推動其發展。基礎模型的顯著成就已經塑造了VLN研究的挑戰和提出的方法。在本綜述中,我們提供了一種自上而下的審視方法,采用了一種原則性框架進行具身規劃和推理,并強調了利用基礎模型應對VLN挑戰的當前方法和未來機會。我們希望通過深入的討論提供有價值的資源和見解:一方面,用以標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;另一方面,為基礎模型研究者整理VLN中的各種挑戰和解決方案。

開發能夠與人類及其周圍環境互動的具身代理是人工智能(AI)的長期目標之一(Nguyen et al., 2021; Duan et al., 2022)。這些AI系統在實際應用中具有巨大的潛力,可以作為多功能助手在日常生活中發揮作用,如家庭機器人(Szot et al., 2021)、自動駕駛汽車(Hu et al., 2023)和個人助理(Chu et al., 2023)。一個推進這一研究方向的正式問題設置是視覺與語言導航(VLN)(Anderson et al., 2018),這是一項多模態和協作任務,要求代理根據人類指令探索三維環境,并在各種模糊情況下進行在場通信。多年來,VLN在仿真環境(Chang et al., 2017; Savva et al., 2019; Xia et al., 2018)和實際環境(Mirowski et al., 2018; Banerjee et al., 2021)中都進行了探索,產生了許多基準測試(Anderson et al., 2018; Ku et al., 2020; Krantz et al., 2020),每個基準測試都提出了稍有不同的問題表述。

近年來,基礎模型(Bommasani et al., 2021)從早期的預訓練模型如BERT(Kenton and Toutanova, 2019)到當代的大型語言模型(LLMs)和視覺語言模型(VLMs)(Achiam et al., 2023; Radford et al., 2021)展現出了在多模態理解、推理和跨領域泛化方面的非凡能力。這些模型在海量數據上進行了預訓練,如文本、圖像、音頻和視頻,并可以進一步適應廣泛的具體應用,包括具身AI任務(Xu et al., 2024)。將這些基礎模型整合到VLN任務中標志著具身AI研究的一個關鍵進展,表現出顯著的性能提升(Chen et al., 2021b; Wang et al., 2023f; Zhou et al., 2024a)。基礎模型還為VLN領域帶來了新的機會,例如從多模態注意力學習和策略政策學習擴展到預訓練通用的視覺和語言表征,從而實現任務規劃、常識推理以及泛化到現實環境。

盡管基礎模型對VLN研究產生了最近的影響,以往關于VLN的綜述(Gu et al., 2022; Park and Kim, 2023; Wu et al., 2024)來自基礎模型時代之前,主要關注VLN基準測試和傳統方法,即缺少利用基礎模型解決VLN挑戰的現有方法和機會的全面概述。特別是隨著LLMs的出現,據我們所知,尚未有綜述討論它們在VLN任務中的應用。此外,與以前將VLN任務視為孤立的下游任務的努力不同,本綜述的目標有兩個:首先,標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;其次,在系統框架內為基礎模型研究者組織VLN中的不同挑戰和解決方案。為建立這種聯系,我們采用LAW框架(Hu and Shu, 2023),其中基礎模型作為世界模型和代理模型的骨干。該框架提供了基礎模型中推理和規劃的一般景觀,并與VLN的核心挑戰緊密相關。

具體而言,在每一步導航中,AI代理感知視覺環境,接收來自人類的語言指令,并基于其對世界和人類的表征進行推理,以規劃行動并高效完成導航任務。如圖1所示,世界模型是代理理解周圍外部環境以及其行動如何改變世界狀態的抽象(Ha and Schmidhuber, 2018; Koh et al., 2021)。該模型是一個更廣泛的代理模型的一部分,該代理模型還包含一個人類模型,該模型解釋其人類伙伴的指令,從而告知代理的目標(Andreas, 2022; Ma et al., 2023)。為了回顧VLN領域不斷增長的工作并理解所取得的里程碑,我們采用自上而下的方法進行綜述,重點關注從三個角度出發的基本挑戰:

  • 學習一個世界模型來表示視覺環境并泛化到未見過的環境。
  • 學習一個人類模型以有效地從基礎指令中解釋人類意圖。
  • 學習一個VLN代理,利用其世界和人類模型來實現語言的基礎、溝通、推理和規劃,使其能夠按指示導航環境。

我們在圖2中展示了一個分層和細粒度的分類法,基于基礎模型討論每個模型的挑戰、解決方案和未來方向。為了組織本綜述,我們首先簡要概述該領域的背景和相關研究工作以及可用的基準測試(第2節)。我們圍繞提出的方法如何解決上述三個關鍵挑戰進行結構化審查:世界模型(第3節)、人類模型(第4節)和VLN代理(第5節)。最后,我們討論了當前的挑戰和未來的研究機會,特別是在基礎模型興起的背景下(第6節)。

VLN任務定義

一個典型的視覺與語言導航(VLN)代理在指定位置接收來自人類指令者的(一系列)語言指令。代理使用以自我為中心的視覺視角在環境中導航。通過遵循指令,代理的任務是在一系列離散視圖或較低級別的動作和控制(例如,前進0.25米)上生成軌跡,以到達目的地。如果代理到達距離目的地指定距離(例如3米)以內的位置,則任務被認為成功。此外,代理可以在導航過程中與指令者交換信息,可以請求幫助或進行自由形式的語言交流。此外,人們對VLN代理集成額外任務(如操作任務(Shridhar et al., 2020)和物體檢測(Qi et al., 2020b))的期望也在不斷增加。

基準測試

如表1所示,現有的VLN基準測試可以根據幾個關鍵方面進行分類:(1)導航發生的世界,包括領域(室內或室外)和環境的具體情況。(2)涉及的人機交互類型,包括交互回合(單次或多次)、通信格式(自由對話、限制對話或多重指令)和語言粒度(動作導向或目標導向)。(3)VLN代理,包括其類型(如家庭機器人、自動駕駛車輛或自主飛行器)、動作空間(基于圖形、離散或連續)和額外任務(操作和物體檢測)。(4)數據集的收集,包括文本收集方法(人類生成或模板化)和路徑演示(人類執行或規劃生成)。有代表性的是,Anderson等人(2018)基于Matterport3D模擬器(Chang et al., 2017)創建了Room-to-Room(R2R)數據集,代理需要遵循精細的導航指令到達目標。Room-across-Room(RxR)(Ku et al., 2020)是一個多語言版本,包括英語、印地語和泰盧固語指令。它提供了更大的樣本量,并為虛擬姿態提供了時間對齊的指令,豐富了任務的語言和空間信息。Matterport3D允許VLN代理在離散環境中操作,并依賴預定義的連接圖進行導航,代理通過在相鄰節點之間的傳送在圖上移動,被稱為VLN-DE。為了使簡化的設置更現實,Krantz等人(2020)、Li等人(2022c)、Irshad等人(2021)通過將離散的R2R路徑轉移到連續空間(Savva等人,2019)提出了連續環境中的VLN(VLN-CE)。Robo-VLN(Irshad等人,2021)通過引入在機器人環境中更現實的連續動作空間的VLN,進一步縮小了模擬到現實的差距。最近的VLN基準測試經歷了幾次設計變更和期望,我們在第6節中討論這些變更。

評估指標

三種主要指標用于評估導航路徑規劃性能(Anderson等人,2018):(1)導航誤差(NE),代理最終位置與目標位置之間最短路徑距離的平均值;(2)成功率(SR),最終位置足夠接近目標位置的百分比;(3)成功率加權路徑長度(SPL),通過軌跡長度標準化成功率。一些其他指標用于衡量指令遵循的忠實度和預測軌跡與真實軌跡之間的一致性,例如:(4)按長度加權的覆蓋得分(CLS)(Jain等人,2019);(5)歸一化動態時間規整(nDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰;以及(6)按成功率加權的歸一化動態時間規整(sDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰,并考慮成功率。

付費5元查看完整內容

人工智能(AI)智能體是一種軟件實體,它根據預定義的目標和數據輸入自主執行任務或做出決策。AI智能體能夠感知用戶輸入、推理和計劃任務、執行動作,并在算法開發和任務性能方面取得了顯著進展。然而,它們所帶來的安全挑戰仍未得到充分探索和解決。本綜述深入探討了AI智能體面臨的新興安全威脅,將其分為四個關鍵知識空白:多步用戶輸入的不可預測性、內部執行的復雜性、操作環境的多變性以及與不可信外部實體的交互。通過系統性地審視這些威脅,本文不僅突出了在保護AI智能體方面所取得的進展,還揭示了現有的局限性。所提供的見解旨在激發進一步的研究,以解決與AI智能體相關的安全威脅,從而促進更加健全和安全的AI智能體應用的發展。

人工智能(AI)智能體是通過自主性、反應性、主動性和社交能力展示智能行為的計算實體。它們通過感知輸入、推理任務、規劃行動和使用內部和外部工具執行任務,與其環境和用戶互動以實現特定目標。以GPT-4等大型語言模型(LLMs)為動力的AI智能體,在包括醫療、金融、客戶服務和智能體操作系統等各個領域的任務完成方式上實現了革命性變化。這些系統利用LLMs在推理、規劃和行動方面的先進能力,使它們能夠以卓越的性能執行復雜任務。

//www.zhuanzhi.ai/paper/2cdbfa599ada6be5d12a7ba7d7606445

盡管AI智能體取得了顯著進展,但其日益復雜化也引入了新的安全挑戰。由于AI智能體部署在各種關鍵應用中,確保其安全至關重要。AI智能體安全指的是旨在保護AI智能體免受可能損害其功能、完整性和安全性的漏洞和威脅的措施和實踐。這包括確保智能體能夠安全處理用戶輸入、執行任務,并與其他實體交互,而不會受到惡意攻擊或意外有害行為的影響。這些安全挑戰源于四個知識空白,如果不加以解決,可能導致漏洞和潛在的濫用。

如圖1所示,AI智能體的四個主要知識GAP分別是:1)多步用戶輸入的不可預測性,2)內部執行的復雜性,3)操作環境的多變性,4)與不可信外部實體的交互。以下幾點詳細說明了這些知識空白。 - 空白1. 多步用戶輸入的不可預測性。用戶在與AI智能體互動中起著關鍵作用,不僅在任務啟動階段提供指導,還通過多輪反饋在任務執行過程中影響方向和結果。用戶輸入的多樣性反映了不同背景和經驗,引導AI智能體完成多種任務。然而,這些多步輸入也帶來了挑戰,尤其是在用戶輸入描述不足時,可能導致潛在的安全威脅。用戶輸入的不充分說明不僅會影響任務結果,還可能引發一系列意外反應,導致更嚴重的后果。此外,存在故意引導AI智能體執行不安全代碼或操作的惡意用戶,這增加了額外的威脅。因此,確保用戶輸入的清晰性和安全性對于AI智能體的有效和安全運行至關重要。這需要設計高度靈活的AI智能體生態系統,能夠理解和適應用戶輸入的多樣性,同時確保有健全的安全措施以防止惡意活動和誤導性用戶輸入。 - 空白2. 內部執行的復雜性。AI智能體的內部執行狀態是一個復雜的鏈式結構,包括從提示的重格式化到LLM任務規劃和工具的使用。許多內部執行狀態是隱含的,難以觀察詳細的內部狀態。這導致許多安全問題無法及時發現。AI智能體安全需要審核單個AI智能體的復雜內部執行。

- 空白3. 操作環境的多變性。在實踐中,許多智能體的開發、部署和執行階段跨越各種環境。這些環境的多變性可能導致行為結果的不一致。例如,執行代碼的智能體可能在遠程服務器上運行給定代碼,可能導致危險操作。因此,跨多個環境安全完成工作任務是一個重大挑戰。

- 空白4. 與不可信外部實體的交互。AI智能體的一個關鍵能力是教大模型如何使用工具和其他智能體。然而,當前AI智能體與外部實體的交互過程假設了一個可信的外部實體,導致了廣泛的實際攻擊面,如間接提示注入攻擊。AI智能體與其他不可信實體交互是一個挑戰。

雖然已有一些研究工作針對這些空白,但針對AI智能體安全的全面回顧和系統分析仍然缺乏。一旦這些空白得到彌補,AI智能體將因更清晰和更安全的用戶輸入、增強的安全性和對潛在攻擊的魯棒性、一致的操作環境行為以及用戶的信任和可靠性增加而受益。這些改進將促進AI智能體在關鍵應用中的更廣泛采用和整合,確保它們能夠安全有效地執行任務。

現有關于AI智能體的綜述主要集中在其架構和應用上,未深入探討安全挑戰和解決方案。我們的綜述旨在填補這一空白,通過詳細回顧和分析AI智能體安全,識別潛在解決方案和緩解這些威脅的策略。所提供的見解旨在激發進一步的研究,以解決與AI智能體相關的安全威脅,從而促進更加健全和安全的AI智能體應用的發展。

在本綜述中,我們基于四個知識空白系統性地回顧和分析了AI智能體安全的威脅和解決方案,覆蓋了廣度和深度方面。我們主要收集了從2022年1月到2024年4月期間在頂級AI會議、頂級網絡安全會議和高度引用的arXiv論文。AI會議包括但不限于NeurIPs、ICML、ICLR、ACL、EMNLP、CVPR、ICCV和IJCAI。網絡安全會議包括但不限于IEEE S&P、USENIX Security、NDSS和ACM CCS。

本文組織如下。第二節介紹了AI智能體的概述。第三節描述了與空白1和空白2相關的單智能體安全問題。第四節分析了與空白3和空白4相關的多智能體安全問題。第五節提出了該領域發展的未來方向。

### 2.1 統一概念框架下的AI智能體概述

術語

為了便于理解,我們在本文中介紹以下術語。如圖2所示,用戶輸入可以使用輸入格式化工具重新格式化,以通過提示工程提升輸入質量。這一步也稱為感知。推理指的是設計用于分析和推導信息的大型語言模型,幫助從給定提示中得出邏輯結論。另一方面,規劃指的是一個大型語言模型,旨在通過評估可能的結果并優化特定目標,幫助制定策略和決策。用于規劃和推理的LLMs的組合被稱為大腦。外部工具調用則統稱為行動。在本綜述中,我們將感知、大腦和行動的組合稱為內部執行。另一方面,除了內部執行,AI智能體還可以與其他AI智能體、記憶和環境互動;我們稱之為交互。這些術語也可以在文獻[186]中詳細探討。 1986年,Mukhopadhyay等人的研究提出了多個智能節點文檔服務器,通過用戶查詢有效地從多媒體文檔中檢索知識。隨后的一項工作[10]也發現了計算機助手在用戶與計算機系統交互中的潛力,突出了計算機科學領域的重要研究和應用方向。隨后,Wooldridge等人[183]將表現出智能行為的計算機助手定義為智能體。在人工智能發展的領域中,智能體被引入為具有自主性、反應性、主動性和社交能力的計算實體[186]。如今,得益于大型語言模型的強大能力,AI智能體已成為幫助用戶高效完成任務的主要工具。如圖2所示,AI智能體的一般工作流程通常包括兩個核心組成部分:內部執行和交互。AI智能體的內部執行通常表示在單一智能體架構內運行的功能,包括感知、大腦和行動。具體來說,感知向大腦提供有效的輸入,而行動則通過LLM的推理和規劃能力處理這些輸入并進行子任務。然后,這些子任務由行動按順序運行以調用工具。①和②表示內部執行的迭代過程。交互指的是AI智能體與其他外部實體互動的能力,主要通過外部資源。這包括在多智能體架構內的合作或競爭、在任務執行過程中檢索記憶,以及從外部工具中部署環境及其數據使用。請注意,在本綜述中,我們將記憶定義為外部資源,因為大多數與記憶相關的安全風險源于外部資源的檢索。 從核心內部邏輯的角度來看,AI智能體可以分為基于強化學習的智能體和基于大型語言模型的智能體。基于RL的智能體使用強化學習,通過與環境互動學習和優化策略,旨在最大化累積獎勵。這些智能體在具有明確目標的環境中效果顯著,例如指令執行[75, 124]或構建世界模型[108, 140],它們通過試錯進行適應。相反,基于LLM的智能體依賴于大型語言模型[92, 173, 195],它們在自然語言處理任務中表現出色,利用大量文本數據掌握語言復雜性,以實現有效的溝通和信息檢索。每種類型的智能體都有不同的能力,以實現特定的計算任務和目標。

### 2.2 AI智能體的威脅概述

目前,有幾篇關于AI智能體的綜述[87, 105, 160, 186, 211]。例如,Xi等人[186]提供了一個針對基于LLM的智能體應用的全面系統回顧,旨在審查現有研究和未來可能性。在文獻[105]中總結了當前AI智能體的架構。然而,它們沒有充分評估AI智能體的安全性和可信度。Li等人[87]未能考慮多智能體場景的能力和安全性。一項研究[160]僅總結了科學LLM智能體固有的潛在風險。Zhang等人[211]則僅調查了AI智能體的記憶機制。

我們的主要關注點是與四個知識空白相關的AI智能體的安全挑戰。如表1所示,我們總結了討論AI智能體安全挑戰的論文。威脅來源列識別了在AI智能體通用工作流程的各個階段使用的攻擊策略,分為四個空白。威脅模型列識別了潛在的對手攻擊者或易受攻擊的實體。目標效果總結了與安全相關問題的潛在結果。 我們還提供了AI智能體威脅的新分類法(見圖3)。具體來說,我們根據其來源位置識別威脅,包括內部執行和交互。

付費5元查看完整內容

在蓬勃發展的大型語言模型(LLMs)領域,開發一種健全的安全機制,也就是俗稱的“保護措施”或“護欄”,已成為確保LLMs在規定范圍內倫理使用的當務之急。本文對這一關鍵機制的當前狀態進行了系統的文獻綜述。文章討論了其主要挑戰,并探討了如何將其增強為一個全面的機制,以應對各種情境下的倫理問題。首先,本文闡明了主要LLM服務提供商和開源社區所采用的現有保護機制的現狀。接著,本文介紹了評估、分析和增強護欄可能需要執行的一些(不)理想屬性的技術,例如幻覺、公平性、隱私等。在此基礎上,我們回顧了繞過這些控制(即攻擊)、防御攻擊以及強化護欄的技術。盡管上述技術代表了當前的狀態和活躍的研究趨勢,我們還討論了一些不能輕易用這些方法處理的挑戰,并提出了我們對如何通過充分考慮多學科方法、神經-符號方法和系統開發生命周期來實現全面護欄的愿景。

近年來,生成式人工智能(GenAI)顯著加快了人類邁向智能時代的步伐。像ChatGPT和Sora [1]這樣的技術已經成為推動新一代產業轉型的關鍵力量。然而,大型語言模型(LLMs)的快速部署和整合引發了關于其風險的重大關注,包括但不限于倫理使用、數據偏見、隱私和魯棒性 [2]。在社會背景下,擔憂還包括惡意行為者通過傳播虛假信息或協助犯罪活動等方式的潛在濫用 [3]。在科學背景下,LLMs可以在專業領域使用,并需要專門考慮科學研究中的倫理問題和風險 [4]。

為了解決這些問題,模型開發者實施了各種安全協議,以將這些模型的行為限制在更安全的功能范圍內。LLMs的復雜性,包括復雜的網絡和眾多參數,以及閉源性質(如ChatGPT),都帶來了巨大的挑戰。這些復雜性需要不同于前LLM時代的策略,當時主要關注白盒技術,通過各種正則化和架構調整來增強模型訓練。因此,除了從人類反饋中進行強化學習(RLHF)和其他訓練技能如上下文訓練外,社區還傾向于采用黑盒、事后策略,特別是護欄 [5], [6],它們監控和過濾訓練后的LLMs的輸入和輸出。護欄是一種算法,它將一組對象(例如LLMs的輸入和輸出)作為輸入,并確定是否以及如何采取某些強制措施來減少對象中嵌入的風險。如果輸入與兒童剝削有關,護欄可能會阻止輸入或調整輸出以變得無害 [7]。換句話說,護欄用于在查詢階段識別潛在的濫用,并防止模型提供不應給出的答案。

構建護欄的難點往往在于確定其要求。不同國家的AI法規可能不同,在公司背景下,數據隱私可能不如公共領域那么嚴格。然而,LLMs的護欄可能包括一個或多個類別的要求:幻覺、公平性、隱私、魯棒性、毒性、合法性、分布外、不確定性等。本文不包括典型的要求,即準確性,因為它們是LLMs的基準,嚴格來說不是護欄的責任。也就是說,LLMs和護欄之間在責任(尤其是魯棒性)方面可能沒有明確的界限,兩者應協作以實現共同的目標。然而,對于具體應用,需要精確定義要求及其相應的度量標準,并需要采用多學科方法。緩解給定的要求(如幻覺、毒性、公平性、偏見等)已經很復雜,如第5節所討論的那樣。當涉及多個要求時,這種復雜性更加嚴重,特別是當一些要求可能相互沖突時。這樣的復雜性需要復雜的解決方案設計方法來管理。在護欄設計方面,雖然可能沒有“一統天下”的方法,但一種可行的護欄設計是神經-符號的,學習代理和符號代理在處理LLMs的輸入和輸出方面協作。多種類型的神經-符號代理 [8]。然而,現有的護欄解決方案,如Llama Guard [9]、Nvidia NeMo [10]和Guardrails AI [11]使用的是最簡單、松散耦合的解決方案。鑒于護欄的復雜性,探討其他更深度耦合的神經-符號解決方案設計將是有趣的。

像安全關鍵軟件一樣,需要一個系統化的過程來涵蓋開發周期(從規范、設計、實施、集成、驗證、確認到生產發布),以謹慎地構建護欄,如ISO-26262和DO-178B/C等工業標準所示。本綜述從第2節的一些背景介紹開始。目標是(1)了解現有的護欄框架,這些框架用于控制LLM服務中的模型輸出,以及評估、分析和增強護欄以應對特定理想屬性的技術(第3節);(2)了解用于克服這些護欄的技術,以及防御攻擊和強化護欄的技術(第4節);然后討論如何實現完整的護欄解決方案,包括為特定應用背景設計護欄的一些系統化設計問題(第5節)。

大型語言模型的背景

大型語言模型(LLMs)主要基于Transformer架構 [12],由多個Transformer塊組成的深度神經網絡構成。每個塊集成了一個自注意力層和一個通過殘差連接的前饋層。特定的自注意力機制使模型在分析特定詞元時能夠專注于鄰近詞元。最初,Transformer架構是專為機器翻譯開發的。新開發的利用Transformer架構的語言模型可以進行微調,從而無需針對特定任務的專用架構 [13]。通常,這些網絡包含數千億(或更多)的參數,并在大規模文本語料庫上進行訓練。示例包括ChatGPT-3 [14]、ChatGPT-4 [1]、LLaMA [15]和PaLM [16]。

LLMs被用于各種復雜任務,如對話式AI [17]、翻譯 [18]和故事生成 [19]。當前的LLMs利用的架構和訓練目標類似于較小語言模型,如Transformer架構和以語言建模為中心的任務。然而,LLMs在模型尺寸、數據量、應用范圍的廣度和計算成本等方面顯著擴大。構建離線模型包括三個主要階段 [2]:預訓練、適應性調優和使用改進。通常,預訓練階段類似于傳統的機器學習訓練,包括數據收集、選擇架構和進行訓練。適應性調優包括指令調優 [20]和對齊調優 [21],以從任務特定指令中學習并遵循人類價值觀。最后,使用改進可以增強用戶交互,包括上下文學習 [14]和思維鏈學習 [22]。

在訓練完LLM后,其性能是否符合預期非常重要。此評估通常包括三個維度:評估基本性能,進行安全分析以了解實際應用中的潛在后果,以及利用公開可用的基準數據集。主要的性能評審集中在語言生成和復雜推理等基本能力上。安全分析深入研究LLM與人類價值觀的對齊、與外部環境的交互以及整合到更廣泛應用中的情況,如搜索引擎。此外,基準數據集和可訪問工具支持這一綜合評估。評估結果決定了LLM是否符合預定標準并準備部署。如果不符合,則回到早期訓練階段之一,以解決發現的問題。在部署階段,LLM可以在網頁平臺上用于直接用戶交互,如ChatGPT,或整合到搜索引擎中,如新Bing。無論應用如何,標準做法是在LLM和用戶之間的交互中實施護欄,以確保遵守AI法規。

**護欄的設計與實施技術 **

本節介紹了由LLM服務提供商或開源社區提出的幾種現有護欄技術。然后,我們回顧了根據期望的理想屬性評估、分析和增強LLMs的方法。

護欄框架和支持軟件包

LLM護欄構成了一套旨在監督和規范用戶與LLM應用交互的安全措施。這些措施是可編程的、基于規則的系統,位于用戶和基礎模型之間。其主要功能是確保LLM模型遵守組織的既定原則,并在規定的倫理和操作框架內運行。護欄在用戶與已部署的LLMs交互階段應用,這是LLM生命周期的最后一步。圖1展示了通用護欄機制的生命周期和潛在漏洞。開發者通過數據處理、護欄模型訓練和模型定制或微調(例如,Llama Guard和NeMo Guardrails)完成護欄的開發,如圖1黃色區域所示。這些護欄隨后部署在LLMs中,以促進與用戶的交互。通常,用戶預定義需要保護的內容,也稱為自定義規則。隨后,用戶通過提示與LLMs進行交互并等待生成的響應。護欄根據預定義規則評估輸出以確定其合規性。如果內容被認為不安全,護欄可能會直接阻止或向用戶發出預設警告。相反,如果輸出符合標準,則直接顯示給用戶,如圖1橙色區域所示。值得注意的是,一些現有攻擊方法允許不安全內容繞過護欄保護,如圖1紅框所示;有關這些攻擊方法的詳細討論,請參閱第4節。

欄中(不)理想屬性的技術

在本節中,我們討論幾種不同的屬性,詳細說明它們的標準定義以及如何使用護欄來保護這些屬性。需要注意的是,屬性的數量過于龐大,無法全面覆蓋,因此我們重點關注幻覺、公平性、隱私、魯棒性、毒性、合法性、分布外和不確定性。

克服與增強護欄

如第3節所述,實施先進的保護技術在增強LLMs的安全性和可靠性方面發揮了重要作用。然而,[125]指出,使用護欄并不能增強LLMs抵御攻擊的魯棒性。他們研究了諸如ModerationEndpoint、OpenChatKitModeration Model和Nemo等外部護欄,發現它們僅在一定程度上減少了越獄攻擊的平均成功率。越獄攻擊(“jailbreaks”)旨在通過操縱模型的響應來利用語言模型的固有偏見或漏洞。這些成功的攻擊允許用戶繞過模型的保護機制、限制和對齊,可能導致生成非常規或有害內容,或者任何由對手控制的內容。通過繞過這些約束,越獄攻擊使模型能夠產生超出其安全訓練和對齊邊界的輸出。 因此,本節我們探討了當前用于繞過LLMs護欄的方法。在表2中,我們比較了不同的越獄攻擊: 1. 攻擊者訪問類型: 白盒、黑盒和灰盒。在白盒場景中,攻擊者可以完全查看模型的參數。黑盒情況限制了攻擊者觀察模型的輸出。在灰盒背景下,攻擊者通常對部分訓練數據有部分訪問權限。 1. 提示級別的操控: 用戶提示或系統提示。用戶提示是由用戶指定的輸入提示,允許個性化或針對性的輸入。系統提示則是由模型自動生成的,可能包括攻擊者巧妙設計以欺騙或操縱系統響應的輸出。 1. 核心技術: 用于攻擊LLM的主要技術。 1. 隱蔽性: 高隱蔽性意味著攻擊難以被人類察覺,應該是一些邏輯、語義和有意義的對話,而不是一些無意義的內容。 1. GPT-4 評估: 由于許多越獄攻擊并未直接針對帶有護欄的LLMs,而GPT-4有其默認護欄,因此對GPT-4的評估可以看作是比較的替代指標。 1. 目標操縱的生成響應屬性: 毒性、隱私、公平性和幻覺。

付費5元查看完整內容

本文深入探討了當前頂尖的人工智能技術,即生成式人工智能(Generative AI)和大型語言模型(LLMs),如何重塑視頻技術領域,包括視頻生成、理解和流媒體。文章強調了這些技術在制作高度逼真視頻中的創新應用,這是在現實世界動態和數字創造之間架起橋梁的一大飛躍。研究還深入探討了LLMs在視頻理解方面的高級能力,展示了它們在從視覺內容中提取有意義信息方面的有效性,從而增強了我們與視頻的互動。在視頻流媒體領域,本文討論了LLMs如何有助于更高效和以用戶為中心的流媒體體驗,適應內容交付以滿足個別觀眾偏好。這篇全面的綜述貫穿了當前的成就、持續的挑戰和將生成式AI和LLMs應用于視頻相關任務的未來可能性,強調了這些技術為推動視頻技術領域的進步——包括多媒體、網絡和人工智能社區——所持有的巨大潛力。

影響聲明—本文通過研究生成式人工智能和大型語言模型(LLMs)在視頻生成、理解和流媒體中的集成,為視頻技術領域做出了貢獻。對這些技術的探索提供了它們在增強視頻內容的真實性和互動性方面的潛力和局限性的基礎理解。LLMs在視頻理解方面的探索為可訪問性和互動的進步奠定了基礎,有望提高教育工具的效能、改進用戶界面和推進視頻分析應用。此外,文章強調了LLMs在優化視頻流媒體服務中的作用,導致更個性化和帶寬高效的平臺。這可能會顯著惠及娛樂行業,提供適應個人偏好的自適應流媒體解決方案。通過識別關鍵挑戰和未來研究方向,文章指導了將AI與視頻技術融合的持續努力,同時提高了人們對潛在倫理問題的認識。其影響力超越了學術界,鼓勵在視頻技術中負責任地發展AI和制定政策,平衡技術進步與倫理考量。

近年來,由于視頻相關技術的激動人心的進步,視頻內容的創建、分析和傳遞都經歷了重大突破。學術界和工業界已共同推動視頻處理領域可能性的極限,從創建逼真的視頻到理解復雜的視覺環境以及優化視頻流媒體以改善用戶體驗。整合生成式AI和大型語言模型(LLM)可以在視頻相關領域開辟激動人心的可能性。 隨著創造逼真且上下文一致的視頻的能力,視頻創作已成為一個引人入勝的研究領域。研究人員已在利用深度學習方法如生成對抗網絡(GANs)制作揭示細節且捕捉現實世界動態本質的電影剪輯方面取得了重大進展。然而,如長期視頻合成一致性和對生成內容的精細控制等挑戰仍在探索中。

視頻理解方面也有類似的發展,該領域涉及從視頻剪輯中提取重要信息。傳統技術依賴于手工創建的特征和視頻動態的顯式建模。最近在語言和視覺方面的進步取得了顯著進展。像OpenAI的GPT等預訓練的基于變換器的架構在處理和生成文本數據方面展示了令人印象深刻的才能。這些LLM對于視頻理解任務,如字幕、動作識別和時間定位,具有巨大的潛力。

此外,由****于對高質量、高分辨率和低延遲視頻服務的需求日益增加,改善視頻傳遞已變得越來越重要且具有挑戰性。帶寬限制、網絡抖動和不同用戶偏好顯著阻礙了無縫和沉浸式的流媒體體驗。通過提供感知上下文的視頻分發、實時視頻質量改進和根據用戶偏好的自適應流媒體,LLM提供了一個克服這些困難的激動人心的方法。

鑒于這些進展,本研究徹底分析了生成式AI和LLM在生成、理解和流式傳輸視頻方面的潛力。我們回顧了現有工作,試圖回答以下問題: ? 提出了哪些技術,并正在徹底改變上述視頻研究領域? ? 為了推動上述視頻服務中生成式AI和LLM方法的使用,還有哪些技術挑戰需要解決? ? 由于采用生成式AI和LLM方法,引發了哪些獨特的關注? 我們希望吸引多媒體、網絡和人工智能社區的關注,以鼓勵對這一迷人且迅速發展的領域的未來研究。

我們設想生成式AI和大型語言模型(LLM)在視頻的整個生命周期中發揮關鍵作用,從生成、理解到流媒體。該框架跨越了三個主要的計算機科學社區,即人工智能、多媒體和網絡。人工智能社區正在見證前所未有的發展速度,從2021年到2022年僅用了大約一年的時間就從能夠進行文本到圖像生成的模型發展到能夠進行文本到視頻生成的模型。現在甚至有演示展示了僅使用提示就能創建3D視頻的能力。因此,我們可以想象生成式AI將對視頻生成行業變得更為重要,超越甚至完全替代傳統的生成方法。視頻理解在許多情況下都很有用,例如場景分割、活動監控、事件檢測和視頻字幕,這是一個獲得越來越多關注的新興方向。自2023年以來,像GPT-4和Video-ChatGPT [8]這樣的最先進產品也顯著提升了LLM理解圖像和視頻等多模態輸入的能力。就視頻流媒體而言,LLM還有改進流媒體管道幾個關鍵步驟的有趣潛力。例如,一個理解能力改進的模型可以把握視頻場景的語義意義,并通過相應地改變編碼率來優化傳輸。此外,如點云這樣在XR游戲中廣泛使用的3D視頻流媒體,可以從LLM對周圍環境的理解中受益,預測用戶下一刻的視野范圍(FoV)來進行內容預取。

A. 主要組成部分 生成式AI和LLM之間的協同作用已在視頻生成領域開辟了新的前沿,打造與現實幾乎無法區分的視覺效果。這些技術共同豐富了數字景觀,創造了創新內容如下(第IV-A節): ? 生成對抗網絡(GANs)利用生成網絡和判別網絡之間的創造性對抗過程來理解和復制復雜模式,產生逼真的視頻樣本。 ? 變分自編碼器(VAEs)生成連貫的視頻序列,提供了一個結構化的概率框架,用于無縫地融合敘事上合理的幀。 ? 自回歸模型創建的序列中,每個視頻幀都邏輯上從上一個幀繼承,確保敘事和視覺的連續性,吸引觀眾。 ? 擴散模型將復雜的文本敘述轉換為詳細和高分辨率的視頻,推動文本到視頻合成的界限。 接下來,LLM通過提供富有情境的解釋和描述來增強視頻理解,促進更深入的視頻內容參與(第IV-B節): ? 視頻字幕使用LLM生成富有洞察力和準確的描述,以自然語言捕捉視覺內容的本質,使視頻更易于搜索和訪問。 ? 視頻問答利用LLM的情境理解能力處理復雜的觀眾詢問,提供增值且深入的觀看體驗的回應。 ? 視頻檢索和分割由LLM革新,它們解析和分類視頻內容為可理解的段落,簡化了龐大視頻庫的可搜索性和導航性。 最后,LLM可以通過優化帶寬使用、個性化內容交付和增強觀眾互動等方式重新定義流媒體景觀(第IV-C節): ? 帶寬預測通過分析過去和現在的網絡數據的LLM進行改進,預測未來需求以主動分配資源,從而確保流暢的流媒體。 ? 視點預測通過LLM對內容和用戶行為的理解增強,預測視頻中的下一個焦點區域,提供量身定制且沉浸式的觀看體驗。 ? 視頻推薦和資源分配通過LLM的分析能力得到提升,將觀眾偏好與內容匹配并管理網絡資源,提供定制化且高效的流媒體服務。

付費5元查看完整內容

近年來,大型語言模型(LLM)的集成徹底改變了機器人技術領域,使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLM對機器人學的多方面影響,討論了利用這些模型的關鍵挑戰和機遇。通過對LLM在機器人核心元素——通信、感知、規劃和控制中的應用進行分類和分析,我們旨在為尋求將LLM集成到其機器人系統中的研究者提供可行的見解。

我們的研究主要集中在GPT-3.5之后開發的LLM上,主要是基于文本的模式,同時也考慮了用于感知和控制的多模態方法。我們提供全面的指導原則和示例,以便初學者能夠輕松接觸基于LLM的機器人解決方案。通過教程級別的示例和結構化的提示構建,我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本綜述為研究人員在不斷發展的LLM驅動的機器人技術領域中的導航提供了路線圖,提供了全面的概述和實用的指導,以利用語言模型在機器人開發中的潛力。

在過去的十年中,我們見證了機器人學領域在應用語言模型(LMs)方面取得了顯著的進展。這些進展不僅包括類似人類的交流能力,還包括機器人的理解和推理能力,從而顯著提高了它們在從家庭雜務到工業操作等各種任務中的效率。在早期工作中,這些成功源于統計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令,理解上下文,表征世界,并與人類互動,盡管理解的深度有限。隨后,采用了具有自我注意機制的Transformer架構,尤其是像BERT這樣的預訓練語言模型,提高了捕捉復雜模式的能力,同時為特定任務進行微調。然而,這些模型的性能通常取決于有限的數據集,限制了它們把握更深層次上下文理解和在不同場景中泛化的能力。

隨著大型語言模型(LLMs)的發展,基于語言的機器人引入了各個領域的創新變化,如信息檢索、推理任務、環境適應、持續學習和改進等。這些LLMs,以其龐大的參數規模和在互聯網規模數據集上的訓練為特征,為下游任務提供了零次和少次學習能力,而不需要額外的參數更新。這些顯著的進步來自于文獻中定義為“在小模型中不存在但在大模型中出現的能力”的突現能力。這些能力顯著增強了機器人在理解、推斷和響應開放式指令方面的性能,利用了廣泛的常識知識。此外,稱為提示工程的提示創建技術使LLMs能夠通過自由形式的語言描述或互動對話,整合更豐富的上下文信息,促進了泛化推理。引入上下文學習能力使LLMs能夠根據提供的指示或示例中的提示生成預期格式的輸出,如JSON、YAML或PDDL,甚至代碼。最近的LLMs,如GPT-4,通過與外部機器人工具(如規劃器或翻譯器)的整合,進一步擴展了能力。

盡管LLMs具有多樣的能力,但它們的利用面臨幾個挑戰。首先,LLMs經常生成不準確或意外的響應。由于機器人執行的安全性是最重要的部署因素,基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次,如上下文學習等突現能力尚不可預測且不一致。即使是對輸入文本的輕微更改也可能導致響應的不可預測變化。第三,精心設計的提示使機器人能夠有效地利用LLMs的能力,但缺乏支持機器人系統關鍵組件的系統化指導,阻礙了無縫集成。因此,我們需要研究LLMs在機器人中的逐部件參與,以了解其限制和安全性。 當前,各種綜述已開始探索LLMs與機器人的交集,主要關注LLM驅動的機器人應用或互動維度。然而,仍然存在在機器人系統的關鍵元素,包括通信、感知、規劃和控制方面提供全面評論和可操作見解的空白。此外,研究者們還在探索廣泛的預訓練大容量模型領域,稱為基礎模型,尋求跨模態Transformer模型的泛化能力。然而,這一廣闊領域涵蓋了廣泛的機器人學和多樣的方法論,使得新興研究者錯過深入的評論和指導。 在本文中,如圖1所示,我們旨在分類和分析LLMs如何增強機器人系統的核心元素,以及我們如何指導新興研究者在每個領域內整合LLMs,以促進智能機器人的發展。我們根據三個關鍵問題結構化本文: ? Q1: LLMs在每個機器人領域中如何被利用? ? Q2: 研究人員如何克服LLMs的集成限制? ? Q3: 在每個領域產生最低功能所需的基本提示結構是什么?

為了回答這些問題,我們專注于在引入GPT-3.5之后開發的LLMs。我們主要考慮基于文本的模式,但也審查了感知和控制領域的多模態。然而,為了進行深入審查,我們將調查限制在LLMs而非基礎模型上。 此外,我們提供了全面的提示工程指南和示例,旨在使初學者能夠訪問基于LLM的機器人解決方案。我們的教程級示例展示了如何通過引入四種類型的示例提示——對話提示用于互動定位,指令提示用于場景圖生成,計劃提示用于少次計劃,以及代碼生成提示用于獎勵生成——增強或替換機器人組件的基本功能。通過提供提示構建的規則和技巧,我們概述了生成預期格式輸出的良好設計提示的過程。這些原則確保了機器人應用中有效的LLM引導增強,無需參數調整。

本文的其余部分安排如下。第2節概述了機器人學中LMs和LLMs的歷史背景。第3節評審了LLMs賦能機器人通過語言理解和生成進行交流的方式。第4節調查了LLMs如何感知各種傳感器模態并推進感知行為。第5節和第6節分別組織了基于LLM的計劃和控制研究。在第7節中,我們提供了提示工程的全面指南,作為LLM在機器人中集成的起點。最后,第8節總結了這篇綜述。

付費5元查看完整內容

生成人工智能(GenAI)標志著人工智能從“識別”能力轉變為能夠為廣泛任務“生成”解決方案的能力。隨著生成的解決方案和應用變得日益復雜和多面,解釋性(XAI)的新需求、目標和可能性也隨之涌現。在本工作中,我們詳細討論了隨著GenAI興起,XAI為何變得重要及其對解釋性研究的挑戰。我們還揭示了解釋應滿足的新興和出現的期望,例如涵蓋可驗證性、互動性、安全性和成本方面。為此,我們專注于綜述現有工作。此外,我們提供了一個相關維度的分類體系,使我們能更好地描述現有的XAI機制和GenAI的方法。我們討論了從訓練數據到提示的不同途徑以確保XAI。我們的論文為非技術讀者提供了簡短但精確的GenAI技術背景,重點介紹文本和圖像以更好地理解為GenAI新穎或調整的XAI技術。然而,由于關于GenAI的作品眾多,我們決定忽略與評估和使用解釋相關的XAI的詳細方面。因此,該手稿既適合技術導向的人員,也適合其他學科,如社會科學家和信息系統研究者。我們的研究路線圖提供了超過十個未來調查的方向。

生成人工智能(GenAI)展示了引起全球廣泛關注的顯著能力,涉及多個領域——從監管機構(歐洲聯盟,2023年),教育工作者(Baidoo-Anu和Ansah,2023年),程序員(Sobania等人,2023年)到醫療人員(Thirunavukarasu等人,2023年)。對于企業(Porter,2023年),GenAI有潛力每年解鎖數萬億美元的價值(麥肯錫公司,2023年)。同時,它也被認為是對人類的威脅(《衛報》,2023年)。這些相反的觀點是理解和解釋GenAI的關鍵動力。生成人工智能代表了由基礎模型驅動的AI的下一個層次(Schneider等人,2024b),AI能夠創造文本、圖像、音頻、3D解決方案和視頻(Gozalo-Brizuela和Garrido-Merchan,2023年;Cao等人,2023年),可以通過文本提示(White等人,2023年)由人類控制——參見表1,了解公共GenAI系統的示例。這是AI從主要能“識別”到能“生成”的重大進步。GenAI展示了前所未有的能力,如通過大學級考試(Choi等人,2021年;Katz等人,2024年)。它在被認為不適合機器的領域也取得了顯著的成果,例如創造力(Chen等人,2023a)。它對每個人都是可訪問的,如商業系統ChatGPT(Achiam等人,2023年)和Dall-E(Betker等人,2023年;Ramesh等人,2022年)所示。早期的生成人工智能方法,如生成對抗網絡(GANs),也能生成作品,但通常比現代模型如變壓器和擴散架構更難以控制。 對于GenAI的可解釋人工智能(GenXAI)技術能夠生成幫助理解AI的解釋,例如針對單個輸入或整個模型的輸出。傳統上,解釋由于多種需求而服務于多種目的;例如,它們可以增加信任并支持模型的調試(Meske等人,2022年)。對AI的理解需求在前GenAI時代更為廣泛。例如,解釋可以支持生成內容的可驗證性,從而有助于解決GenAI的主要問題之一:幻覺(如第3.1節所論述)。不幸的是,盡管過去幾年試圖設計解決方案來解決這些問題,可解釋人工智能(即使是前GenAI模型)仍然存在一些尚未解決的問題(Longo等人,2024年;Meske等人,2022年)。例如,最近一項關于XAI對人機交互影響的方法比較(Silva等人,2023年)發現,最好的方法(反事實)和最差的方法(僅使用概率分數)之間的得分差距僅為20%,這暗示復雜的現有方法與更復雜的方法相比優勢有限。因此,XAI技術距離最佳狀態仍有很大差距。其他工作甚至公開稱解釋性研究的“現狀大體上是無效的”(R¨auker等人,2023年)。因此,還有很多工作要做,了解當前的努力并在此基礎上進行改進是至關重要的——尤其是在減少高風險(《衛報》,2023年)的同時利用機會(Schneider等人,2024b)。 這篇研究手稿是朝這個方向進展的真誠嘗試。我們的目標不僅是(僅)列出和結構現有的XAI技術,因為在當前領域階段,需要解決更基本的問題,如識別GenXAI的關鍵挑戰和期望。為此,我們因此選擇了更多敘述性的審查方法(King和He,2005年)并伴隨著來自信息系統領域的分類發展方法(Nickerson等人,2013年)。已有多篇關于XAI的綜述關注前GenAI時代,主要是技術焦點(Adadi和Berrada,2018年;Zini和Awad,2022年;Dwivedi等人,2023年;Schwalbe和Finzel,2023年;R¨auker等人,2023年;Saeed和Omlin,2023年;Speith,2022年;Minh等人,2022年;Bodria等人,2023年;Theissler等人,2022年;Guidotti等人,2019年;Guidotti,2022年)和跨學科或社會科學焦點(Miller,2019年;Meske等人,2022年;Longo等人,2024年)。特別是,通過利用這些綜述,我們進行了一項元綜述來構建我們的方法,同時也借鑒了前GenAI的知識。然而,我們也揭示了與GenAI相關的尚未涵蓋的新方面。許多綜述調查了GenAI的各個方面(不包括XAI)(Xu等人,2023年;Lin等人,2022年;Xing等人,2023年;Yang等人,2023b;Zhang等人,2023a,c;Pan等人,2023年)。我們利用這些綜述為我們的技術背景。GenAI的某些子領域,例如知識識別和編輯(Zhang等人,2024年),使用孤立的XAI技術作為工具,但不旨在一般性地詳細論述它。雖然我們未能識別任何討論GenAI的XAI的綜述,但一些研究手稿對大型語言模型(LLM)的XAI采取了更全面、部分帶有觀點的觀點(Singh等人,2024年;Liao和Vaughan,2023年)或顯式綜述LLM的XAI(Zhao等人,2023a;Luo和Specia,2024年)。以前的工作沒有提供一份全面的GenAI XAI的期望、動機和挑戰清單和分類。特別是,我們的許多新方面在之前的工作中找不到。除此之外,即使只關注LLM,我們與以前的工作也有相當大的不同。 我們首先提供技術背景。 為了推導出貢猩,我們按照圖1所述進行:然后,我們提供了GenAI的XAI的動機和挑戰,尤其指向GenAI帶來的新方面,如GenAI在整個社會的廣泛影響和用戶需要交互調整通常復雜、難以評估的輸出的需求。基于此,我們推導出期望,即解釋應 ideally fulfill的要求,如支持互動和驗證輸出。然后,我們為GenAI的現有和未來的XAI技術推導出一個分類,為了分類XAI,我們使用與GenXAI技術的輸入、輸出和內部屬性相關的維度,這些維度將它們與前GenAI區分開來,例如自我解釋以及不同的來源和XAI的驅動因素,例如提示和訓練數據。 使用識別的挑戰和期望,本手稿的其余部分專注于討論GenXAI的新維度和 RESULTING TAXONOMY,討論與GenAI相關的XAI方法。最后,我們提供未來的方向 我們的關鍵貢獻包括描述GenAI的XAI需求、解釋的期望和包括新維度的機制和算法的分類。

付費5元查看完整內容

摘要 —— 隨著ChatGPT的興起,大型模型的使用顯著增加,迅速在整個行業中脫穎而出,并在互聯網上廣泛傳播。本文是對大型模型微調方法的全面綜述。本文研究了最新的技術進展以及在諸如任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調和動態微調等方面應用先進方法。 索引術語 —— 大型語言模型(LLMs)、任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調、動態微調 I. 引言 變換器(Transformer)模型的出現標志著自然語言處理(NLP)領域的一個重要里程碑。變換器架構最初是為了解決循環神經網絡(RNNs [143])和卷積神經網絡(CNNs [55])在處理長距離依賴關系中的局限而設計的,該架構由Vaswani等人在2017年引入[126],徹底改變了我們處理語言理解和生成任務的方式。 變換器架構背景:變換器模型源于對比傳統模型更有效處理序列數據的需求。其獨特的架構,不依賴遞歸和卷積,利用注意力機制來抽取輸入與輸出之間的全局依賴關系,顯著提高了處理效率和模型性能。 編碼器[19]、解碼器[95] [96] [13]以及編解碼器[100]架構:變換器架構主要由其編碼器和解碼器組成。編碼器處理輸入序列,創建每個詞的豐富上下文表征。相比之下,解碼器通常在語言翻譯任務中生成輸出序列,使用編碼信息。 兩者的區別在于它們的角色:編碼器是輸入的上下文感知處理器,而解碼器基于編碼輸入生成預測。編解碼器架構常用于序列到序列的任務,結合這兩個組件,便于處理復雜任務,如機器翻譯,編碼器處理源語言,解碼器生成目標語言。 大型模型中的微調興起:微調大型語言模型的概念源于將這些模型從訓練于龐大、多樣的數據集適應到特定任務或領域的挑戰。微調調整模型的權重,針對特定任務,增強其從廣泛語言模式到特定應用需求的泛化能力。隨著模型規模和復雜性的增長,這種方法變得越來越重要,需要更精細的適應技術來充分發揮其潛力。 本文的結構旨在提供關于微調大型語言模型的方法論和進展的全面概覽。后續部分的組織如下: 文獻回顧:審視語言模型的發展,突出變換器架構的關鍵發展和基礎概念。 理論基礎:深入探討變換器模型的理論基礎,包括注意力機制、編碼器和解碼器的機制。 微調策略:討論各種微調方法,如任務特定、領域特定的適應和高級技術,如小樣本學習和動態微調。 挑戰與未來方向:識別微調方法中的當前挑戰,并探索這一迅速發展領域的潛在未來研究方向。 本文介紹了基于變換器架構的大型語言模型的范式,并提供了常用的大模型微調方法的詳細概述。文章以一個比較實驗結束,聚焦于六個文本分類數據集上的模型大小和LoRA微調范式。實驗代碼已在GitHub上提供。

付費5元查看完整內容

在快速發展的自然語言生成(NLG)評估領域中,引入大型語言模型(LLMs)為評估生成內容質量開辟了新途徑,例如,連貫性、創造力和上下文相關性。本綜述旨在提供一個關于利用LLMs進行NLG評估的全面概覽,這是一個缺乏系統分析的新興領域。我們提出了一個連貫的分類體系來組織現有的基于LLM的評估指標,提供了一個結構化的框架來理解和比較這些方法。我們的詳細探索包括批判性地評估各種基于LLM的方法論,以及比較它們在評估NLG輸出時的優勢和局限性。通過討論尚未解決的挑戰,包括偏見、穩健性、領域特定性和統一評估,本綜述旨在為研究人員提供洞見,并倡導更公平、更先進的NLG評估技術。

自然語言生成(NLG)處于現代AI驅動通信的前沿,近期在大型語言模型(LLMs)方面的進展徹底改變了NLG系統的能力(Ouyang et al., 2022; OpenAI, 2023)。這些模型,依靠深度學習技術和大量的訓練數據,展現出在廣泛應用中生成文本的卓越能力。隨著NLG技術的快速發展,建立可靠的評估方法以準確衡量生成內容的質量變得越來越重要。

傳統的NLG評估指標,如BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和TER(Snover et al., 2006),主要關注表面層面的文本差異,通常在評估語義方面存在不足(Freitag et al., 2020)。這一局限性已被指出阻礙了研究進展,并可能導致誤導性的研究結論。此外,其他使用神經嵌入來計算分數的方法(Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020),盡管在評估諸如語義等價性和流暢性方面有所考慮,但它們的靈活性有限,適用范圍受限(Freitag et al., 2021a)。此外,這些傳統方法與人類判斷的一致性較低(Liu et al., 2023c),且對分數的解釋性不足(Xu et al., 2023)。這些缺點突顯了NLG領域需要更細膩和全面的評估方法的需求。

大型語言模型(LLMs)涌現的能力為基于LLM的NLG評估提供了有前景的途徑,例如Chain-of-Thought(CoT)(Wei et al., 2022b)、零次學習指令跟隨(Wei et al., 2022a)、更好地與人類偏好相一致(Ouyang et al., 2022)等。這些特性使LLMs成為評估NLG輸出的有力工具,與傳統方法相比提供了更為復雜和更好地與人類一致的評估(Liu et al., 2023c;Kocmi and Federmann, 2023;Fu et al., 2023)。例如,LLMs可以生成合理的解釋來支持最終評分(Xu et al., 2023),而利用人類反饋的強化學習(RLHF)可以使LLMs的偏好更好地與人類一致(Ouyang et al., 2022;Zheng et al., 2023)。如圖1所示,這些方法的關鍵策略涉及指示LLMs使用提示來從不同方面評估生成的文本,無論是否有參考資料和來源。然而,眾多基于LLM的NLG評估方法,針對不同的任務和目標,缺乏統一的概述。

鑒于LLMs在NLG評估領域的工作量不斷增加,迫切需要一個綜合總結來導航這一領域內的復雜性和多樣化方法。本綜述旨在提供這一有前景領域的全面概述,呈現一個用于組織現有工作的連貫分類體系。我們詳細勾勒了關鍵研究及其方法論,并深入分析了這些方法的各種優點、局限性和獨特屬性。此外,我們探索了該領域內尚未解決的挑戰和開放性問題,從而為未來的學術探索勾畫出潛在的途徑。這一全面探索旨在激發讀者對LLM在NLG評估中方法的細微差別和不斷變化的動態有深入的了解。

本綜述的組織我們呈現了利用LLMs進行NLG評估的首個全面綜述。首先,我們建立了NLG評估的正式框架,并提出了一個分類體系來分類相關工作(第2節)。隨后,我們深入并詳細闡述這些工作(第3節)。此外,我們對評估LLM評估者有效性的各種元評估基準進行了系統回顧(第4節)。鑒于這一領域的快速發展,我們確定并討論了一些可能指導未來研究的潛在開放問題(第5節)。在結束這一系統綜述時,我們倡導通過開發更公正、更穩健、更專業和統一的基于LLM的評估者來推動這一領域的發展。此外,我們強調整合其他評估方法,如人類判斷,以實現更全面和多面的評估框架。

在大型語言模型(LLMs)迅速發展的背景下,越來越多的研究將重點放在利用這些模型作為NLG任務的評估者。這種關注特別源于LLMs的高容量生成能力,導致出現了使用它們來對NLG文本進行質量評估的工作——我們將這種范式稱為生成性評估。這一類別大致分為基于提示的評估和基于微調的評估,其核心在于LLM評估者的參數是否需要微調。基于提示的評估通常涉及使用精心設計的提示指導強大的基礎LLMs來評估生成的文本。另一方面,基于微調的評估依賴于專門為NLG評估校準的開源LLMs。這兩種方法都適用于不同的評估協議,用于衡量生成文本的質量。

當前方法考慮不同的評分協議來判斷生成假設文本的質量。一些嘗試部署LLM評估者產生連續的標量分數,代表單個生成文本的質量——稱為? 基于分數的評估。其他方法計算基于提示、來源或參考文本(可選)的生成文本的生成概率作為評估指標,稱為? 基于概率的評估。在多樣化的領域中,某些工作將NLG評估轉化為分類任務,使用類似李克特量表的多級別對文本質量進行分類。在這種情況下,LLM評估者通過將生成的文本分配到特定的質量級別來評估其質量——稱為? 李克特風格評估。同時,? 成對比較方法涉及使用LLM評估者比較一對生成文本的質量。此外,? 組合評估方法利用多個不同LLMs或提示的LLM評估者,協調評估者之間的溝通以產生最終評估結果。最后,一些最新的研究探索了? 高級評估方法(考慮細粒度標準或結合連續思考或上下文學習的能力),旨在獲得更全面和細致的評估結果。

本節深入探討了這兩個主要類別的評估方法,每種方法都伴隨其相應的評估協議。表2提供了當前基于提示和基于微調評估方法的全面概述。該表詳細說明了它們各自的適應任務、基礎模型、評分協議和評估方面,以便于清晰參考。

基于LLM的評估者已在多種NLG任務中找到應用。與此同時,眾多現有和近期引入的元評估基準用于驗證這些評估者的有效性。這些基準包括了對生成文本質量的人類注釋,以及評估自動評估者和人類偏好之間一致性的程度。根據涉及的任務,這些基準可以被分類為單一場景示例,如機器翻譯和摘要,以及多場景基準。本節將提供這些NLG任務及其相關元評估基準的概述。

結論

在本綜述中,我們詳盡地調查了LLMs在NLG評估中的作用。我們全面的分類體系按三個主要維度對作品進行分類:評估功能、評估參考和評估任務。這個框架使我們能夠系統地分類和理解基于LLM的評估方法論。我們深入探討了各種基于LLM的方法,審視它們的優勢并比較它們的差異。此外,我們總結了NLG評估的普遍元評估基準。

在我們的研究中,我們強調了這一快速發展領域的進步和現存挑戰。盡管LLMs在評估NLG輸出方面提供了開創性的潛力,但仍有一些未解決的問題需要關注,包括偏見、穩健性、混合評估方法的整合,以及LLM評估者內部對特定領域和統一評估的需求。我們預計,解決這些挑戰將為更通用、有效和可靠的NLG評估技術鋪平道路。這樣的進步將顯著促進NLG評估的發展以及LLMs的更廣泛應用。

付費5元查看完整內容
北京阿比特科技有限公司