亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,大型語言模型(LLM)的集成徹底改變了機器人技術領域,使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLM對機器人學的多方面影響,討論了利用這些模型的關鍵挑戰和機遇。通過對LLM在機器人核心元素——通信、感知、規劃和控制中的應用進行分類和分析,我們旨在為尋求將LLM集成到其機器人系統中的研究者提供可行的見解。

我們的研究主要集中在GPT-3.5之后開發的LLM上,主要是基于文本的模式,同時也考慮了用于感知和控制的多模態方法。我們提供全面的指導原則和示例,以便初學者能夠輕松接觸基于LLM的機器人解決方案。通過教程級別的示例和結構化的提示構建,我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本綜述為研究人員在不斷發展的LLM驅動的機器人技術領域中的導航提供了路線圖,提供了全面的概述和實用的指導,以利用語言模型在機器人開發中的潛力。

在過去的十年中,我們見證了機器人學領域在應用語言模型(LMs)方面取得了顯著的進展。這些進展不僅包括類似人類的交流能力,還包括機器人的理解和推理能力,從而顯著提高了它們在從家庭雜務到工業操作等各種任務中的效率。在早期工作中,這些成功源于統計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令,理解上下文,表征世界,并與人類互動,盡管理解的深度有限。隨后,采用了具有自我注意機制的Transformer架構,尤其是像BERT這樣的預訓練語言模型,提高了捕捉復雜模式的能力,同時為特定任務進行微調。然而,這些模型的性能通常取決于有限的數據集,限制了它們把握更深層次上下文理解和在不同場景中泛化的能力。

隨著大型語言模型(LLMs)的發展,基于語言的機器人引入了各個領域的創新變化,如信息檢索、推理任務、環境適應、持續學習和改進等。這些LLMs,以其龐大的參數規模和在互聯網規模數據集上的訓練為特征,為下游任務提供了零次和少次學習能力,而不需要額外的參數更新。這些顯著的進步來自于文獻中定義為“在小模型中不存在但在大模型中出現的能力”的突現能力。這些能力顯著增強了機器人在理解、推斷和響應開放式指令方面的性能,利用了廣泛的常識知識。此外,稱為提示工程的提示創建技術使LLMs能夠通過自由形式的語言描述或互動對話,整合更豐富的上下文信息,促進了泛化推理。引入上下文學習能力使LLMs能夠根據提供的指示或示例中的提示生成預期格式的輸出,如JSON、YAML或PDDL,甚至代碼。最近的LLMs,如GPT-4,通過與外部機器人工具(如規劃器或翻譯器)的整合,進一步擴展了能力。

盡管LLMs具有多樣的能力,但它們的利用面臨幾個挑戰。首先,LLMs經常生成不準確或意外的響應。由于機器人執行的安全性是最重要的部署因素,基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次,如上下文學習等突現能力尚不可預測且不一致。即使是對輸入文本的輕微更改也可能導致響應的不可預測變化。第三,精心設計的提示使機器人能夠有效地利用LLMs的能力,但缺乏支持機器人系統關鍵組件的系統化指導,阻礙了無縫集成。因此,我們需要研究LLMs在機器人中的逐部件參與,以了解其限制和安全性。 當前,各種綜述已開始探索LLMs與機器人的交集,主要關注LLM驅動的機器人應用或互動維度。然而,仍然存在在機器人系統的關鍵元素,包括通信、感知、規劃和控制方面提供全面評論和可操作見解的空白。此外,研究者們還在探索廣泛的預訓練大容量模型領域,稱為基礎模型,尋求跨模態Transformer模型的泛化能力。然而,這一廣闊領域涵蓋了廣泛的機器人學和多樣的方法論,使得新興研究者錯過深入的評論和指導。 在本文中,如圖1所示,我們旨在分類和分析LLMs如何增強機器人系統的核心元素,以及我們如何指導新興研究者在每個領域內整合LLMs,以促進智能機器人的發展。我們根據三個關鍵問題結構化本文: ? Q1: LLMs在每個機器人領域中如何被利用? ? Q2: 研究人員如何克服LLMs的集成限制? ? Q3: 在每個領域產生最低功能所需的基本提示結構是什么?

為了回答這些問題,我們專注于在引入GPT-3.5之后開發的LLMs。我們主要考慮基于文本的模式,但也審查了感知和控制領域的多模態。然而,為了進行深入審查,我們將調查限制在LLMs而非基礎模型上。 此外,我們提供了全面的提示工程指南和示例,旨在使初學者能夠訪問基于LLM的機器人解決方案。我們的教程級示例展示了如何通過引入四種類型的示例提示——對話提示用于互動定位,指令提示用于場景圖生成,計劃提示用于少次計劃,以及代碼生成提示用于獎勵生成——增強或替換機器人組件的基本功能。通過提供提示構建的規則和技巧,我們概述了生成預期格式輸出的良好設計提示的過程。這些原則確保了機器人應用中有效的LLM引導增強,無需參數調整。

本文的其余部分安排如下。第2節概述了機器人學中LMs和LLMs的歷史背景。第3節評審了LLMs賦能機器人通過語言理解和生成進行交流的方式。第4節調查了LLMs如何感知各種傳感器模態并推進感知行為。第5節和第6節分別組織了基于LLM的計劃和控制研究。在第7節中,我們提供了提示工程的全面指南,作為LLM在機器人中集成的起點。最后,第8節總結了這篇綜述。

付費5元查看完整內容

相關內容

大語言模型是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務,如文本摘要、問答、翻譯等。2023年,大語言模型及其在人工智能領域的應用已成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處,更加深入地理解人類語言的復雜性。在過去的一年里,大語言模型在吸納新知識、分解復雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟,它將不斷拓展其應用范圍,為人類提供更加智能化和個性化的服務,進一步改善人們的生活和生產方式。

本文深入探討了當前頂尖的人工智能技術,即生成式人工智能(Generative AI)和大型語言模型(LLMs),如何重塑視頻技術領域,包括視頻生成、理解和流媒體。文章強調了這些技術在制作高度逼真視頻中的創新應用,這是在現實世界動態和數字創造之間架起橋梁的一大飛躍。研究還深入探討了LLMs在視頻理解方面的高級能力,展示了它們在從視覺內容中提取有意義信息方面的有效性,從而增強了我們與視頻的互動。在視頻流媒體領域,本文討論了LLMs如何有助于更高效和以用戶為中心的流媒體體驗,適應內容交付以滿足個別觀眾偏好。這篇全面的綜述貫穿了當前的成就、持續的挑戰和將生成式AI和LLMs應用于視頻相關任務的未來可能性,強調了這些技術為推動視頻技術領域的進步——包括多媒體、網絡和人工智能社區——所持有的巨大潛力。

影響聲明—本文通過研究生成式人工智能和大型語言模型(LLMs)在視頻生成、理解和流媒體中的集成,為視頻技術領域做出了貢獻。對這些技術的探索提供了它們在增強視頻內容的真實性和互動性方面的潛力和局限性的基礎理解。LLMs在視頻理解方面的探索為可訪問性和互動的進步奠定了基礎,有望提高教育工具的效能、改進用戶界面和推進視頻分析應用。此外,文章強調了LLMs在優化視頻流媒體服務中的作用,導致更個性化和帶寬高效的平臺。這可能會顯著惠及娛樂行業,提供適應個人偏好的自適應流媒體解決方案。通過識別關鍵挑戰和未來研究方向,文章指導了將AI與視頻技術融合的持續努力,同時提高了人們對潛在倫理問題的認識。其影響力超越了學術界,鼓勵在視頻技術中負責任地發展AI和制定政策,平衡技術進步與倫理考量。

近年來,由于視頻相關技術的激動人心的進步,視頻內容的創建、分析和傳遞都經歷了重大突破。學術界和工業界已共同推動視頻處理領域可能性的極限,從創建逼真的視頻到理解復雜的視覺環境以及優化視頻流媒體以改善用戶體驗。整合生成式AI和大型語言模型(LLM)可以在視頻相關領域開辟激動人心的可能性。 隨著創造逼真且上下文一致的視頻的能力,視頻創作已成為一個引人入勝的研究領域。研究人員已在利用深度學習方法如生成對抗網絡(GANs)制作揭示細節且捕捉現實世界動態本質的電影剪輯方面取得了重大進展。然而,如長期視頻合成一致性和對生成內容的精細控制等挑戰仍在探索中。

視頻理解方面也有類似的發展,該領域涉及從視頻剪輯中提取重要信息。傳統技術依賴于手工創建的特征和視頻動態的顯式建模。最近在語言和視覺方面的進步取得了顯著進展。像OpenAI的GPT等預訓練的基于變換器的架構在處理和生成文本數據方面展示了令人印象深刻的才能。這些LLM對于視頻理解任務,如字幕、動作識別和時間定位,具有巨大的潛力。

此外,由****于對高質量、高分辨率和低延遲視頻服務的需求日益增加,改善視頻傳遞已變得越來越重要且具有挑戰性。帶寬限制、網絡抖動和不同用戶偏好顯著阻礙了無縫和沉浸式的流媒體體驗。通過提供感知上下文的視頻分發、實時視頻質量改進和根據用戶偏好的自適應流媒體,LLM提供了一個克服這些困難的激動人心的方法。

鑒于這些進展,本研究徹底分析了生成式AI和LLM在生成、理解和流式傳輸視頻方面的潛力。我們回顧了現有工作,試圖回答以下問題: ? 提出了哪些技術,并正在徹底改變上述視頻研究領域? ? 為了推動上述視頻服務中生成式AI和LLM方法的使用,還有哪些技術挑戰需要解決? ? 由于采用生成式AI和LLM方法,引發了哪些獨特的關注? 我們希望吸引多媒體、網絡和人工智能社區的關注,以鼓勵對這一迷人且迅速發展的領域的未來研究。

我們設想生成式AI和大型語言模型(LLM)在視頻的整個生命周期中發揮關鍵作用,從生成、理解到流媒體。該框架跨越了三個主要的計算機科學社區,即人工智能、多媒體和網絡。人工智能社區正在見證前所未有的發展速度,從2021年到2022年僅用了大約一年的時間就從能夠進行文本到圖像生成的模型發展到能夠進行文本到視頻生成的模型。現在甚至有演示展示了僅使用提示就能創建3D視頻的能力。因此,我們可以想象生成式AI將對視頻生成行業變得更為重要,超越甚至完全替代傳統的生成方法。視頻理解在許多情況下都很有用,例如場景分割、活動監控、事件檢測和視頻字幕,這是一個獲得越來越多關注的新興方向。自2023年以來,像GPT-4和Video-ChatGPT [8]這樣的最先進產品也顯著提升了LLM理解圖像和視頻等多模態輸入的能力。就視頻流媒體而言,LLM還有改進流媒體管道幾個關鍵步驟的有趣潛力。例如,一個理解能力改進的模型可以把握視頻場景的語義意義,并通過相應地改變編碼率來優化傳輸。此外,如點云這樣在XR游戲中廣泛使用的3D視頻流媒體,可以從LLM對周圍環境的理解中受益,預測用戶下一刻的視野范圍(FoV)來進行內容預取。

A. 主要組成部分 生成式AI和LLM之間的協同作用已在視頻生成領域開辟了新的前沿,打造與現實幾乎無法區分的視覺效果。這些技術共同豐富了數字景觀,創造了創新內容如下(第IV-A節): ? 生成對抗網絡(GANs)利用生成網絡和判別網絡之間的創造性對抗過程來理解和復制復雜模式,產生逼真的視頻樣本。 ? 變分自編碼器(VAEs)生成連貫的視頻序列,提供了一個結構化的概率框架,用于無縫地融合敘事上合理的幀。 ? 自回歸模型創建的序列中,每個視頻幀都邏輯上從上一個幀繼承,確保敘事和視覺的連續性,吸引觀眾。 ? 擴散模型將復雜的文本敘述轉換為詳細和高分辨率的視頻,推動文本到視頻合成的界限。 接下來,LLM通過提供富有情境的解釋和描述來增強視頻理解,促進更深入的視頻內容參與(第IV-B節): ? 視頻字幕使用LLM生成富有洞察力和準確的描述,以自然語言捕捉視覺內容的本質,使視頻更易于搜索和訪問。 ? 視頻問答利用LLM的情境理解能力處理復雜的觀眾詢問,提供增值且深入的觀看體驗的回應。 ? 視頻檢索和分割由LLM革新,它們解析和分類視頻內容為可理解的段落,簡化了龐大視頻庫的可搜索性和導航性。 最后,LLM可以通過優化帶寬使用、個性化內容交付和增強觀眾互動等方式重新定義流媒體景觀(第IV-C節): ? 帶寬預測通過分析過去和現在的網絡數據的LLM進行改進,預測未來需求以主動分配資源,從而確保流暢的流媒體。 ? 視點預測通過LLM對內容和用戶行為的理解增強,預測視頻中的下一個焦點區域,提供量身定制且沉浸式的觀看體驗。 ? 視頻推薦和資源分配通過LLM的分析能力得到提升,將觀眾偏好與內容匹配并管理網絡資源,提供定制化且高效的流媒體服務。

付費5元查看完整內容

智能規劃又叫自動規劃,主要研究在復雜環境下,如何通過自動化的方式生成可行的行動序列,以實現從初始狀態到達目標狀態。大語言模型是指使用大量文本數據訓練的深度學習生成式模型,可以生成自然語言文本或理解語言文本的含義。當前圍繞如何讓大語言模型在強大的常識性知識基礎上獲得生成式智能規劃能力已然成為當下研究的熱潮。本文從大語言模型的視角入手,首先對智能規劃的定義和發展進行概述、簡要介紹了傳統智能規劃的方法;其次基于大語言智能體與智能規劃的緊密關系,介紹了大語言模型的架構和典型的大模型智能體;再次重點圍繞大模型的智能規劃,梳理了規劃語言學習、思維鏈推理、反饋優化和流程自動化共4類規劃方法;最后結合當前的挑戰與困難,介紹大模型進行智能規劃的前沿研究展望。

付費5元查看完整內容

近期在基礎模型上的發展,如大型語言模型(LLMs)和視覺-語言模型(VLMs),它們基于大量數據訓練,促進了跨不同任務和模態的靈活應用。它們的影響覆蓋了多個領域,包括健康護理、教育和機器人技術。本文提供了基礎模型在現實世界機器人應用中的概覽,主要強調在現有機器人系統中替換特定組件。總結包括了基礎模型中輸入輸出關系的視角,以及它們在機器人技術領域內的感知、運動規劃和控制中的作用。本文最后討論了實際機器人應用面臨的未來挑戰和含義。

近期在人工智能領域的進步顯著擴展了機器人的操作能力,使它們能夠承擔多種多樣的活動【1-5】。雖然最初機器人的部署主要限于大規模生產環境【6-11】,但現在工業機器人的適用性已經擴展到小批量和高多樣性生產領域,包括室內空間和災難現場【12-15】。這種擴散不僅僅限于環境多樣性的增加;它還擴展到了任務范圍的擴大,包括日常活動,如整理【16-18】、洗滌【19,20】、擦拭【21,22】和烹飪【23,24】。機器學習為滿足這些機器人系統的需求提供了一種方式。然而,僅僅在特定領域數據上訓練每個模型對于多樣的機器人、任務和環境來說是不夠的。越來越多地需要開發可以使用單一的、預訓練的系統或模塊應用于各種機體、任務和環境的機器人。 解決這一挑戰的一個方案是引入基礎模型【25】。基礎模型是在大量數據上訓練的模型,可以通過上下文學習、微調或甚至零樣本的方式輕松應用于廣泛的下游任務【26,27】。顯著的例子包括大型語言模型(LLMs)如GPT【27】和視覺-語言模型(VLMs)如CLIP【28】,其中語言是結合各種類型模態的粘合劑。這些基礎模型的影響是顯著的,有幾篇綜述文章討論了它們在不同領域的影響【29-32】。Wang等人【29】和Zeng等人【30】進行了關于大型語言模型在機器人學中應用的綜述,而Firoozi等人【31】和Hu等人【32】進行了更廣泛的綜述,關注于基礎模型在機器人學中的應用。在本文中,我們總結了基礎模型對現實世界機器人的適用性,旨在加速它們在實際機器人應用中的采用。與其他綜述文章相比,我們提供了如何從基礎模型的輸入輸出關系以及機器人學中的感知、運動規劃和控制的角度,用基礎模型替換現有機器人系統中的特定組件的總結。 本研究的結構如圖1所示。在第2節中,我們將描述基礎模型本身。特別地,我們將根據它們使用的模態類型,例如視覺【33,34】、語言【35-41】等,以及它們可以應用的下游任務類型進行分類。在第3節中,我們將基于當前應用【2,3,42】描述如何將基礎模型應用于機器人學。一般來說,機器人需要配備感知模塊、規劃模塊和控制模塊。從這個角度,我們分類了可以將基礎模型應用于現實世界機器人學的方式,包括低級感知、高級感知、高級規劃和低級規劃。此外,我們還將解釋在訓練直接連接低級感知和低級規劃的映射時,對機器人學的數據增強。在第4節中,我們將描述包括機器人實體在內的基礎模型,即機器人基礎模型,包括關于如何就模型架構、數據集和學習目標制作這些機器人基礎模型的討論。在第5節中,我們將描述使用基礎模型的機器人、任務和環境。我們將任務分類為導航、操縱、帶有操縱的導航、運動和交流。最后,我們將討論未來的挑戰并提出我們的結論。

“基礎模型”一詞最初在【25】中被引入。在這項綜述中,我們將簡單描述在機器人應用中使用的基礎模型的類型,以及下游任務,將關于基礎模型本身的討論推遲到【25】。在2012年,深度學習因ILSVRC-2012比賽的獲勝模型而獲得機器學習社區的主流關注【43】。2017年,由【44】介紹的Transformer模型,促進了自然語言處理(NLP)【45】和計算機視覺【46】領域的重大進步。到2021年,一個經過大量數據訓練、能夠輕松應用于廣泛下游任務的模型被稱為“基礎模型”【25】。基礎模型的特點主要有三個:

上下文學習 * 規模定律 * 同質化

上下文學習使得僅用幾個例子就能完成新任務成為可能,無需重新訓練或微調。規模定律允許隨著數據、計算資源和模型大小的增加而持續提升性能。同質化允許某些基礎模型架構以統一的方式處理多種模態。 在這一章中,我們從在機器人學中的適用性的角度對基礎模型進行分類。機器人利用基礎模型的最關鍵標準是選擇使用哪些模態。本章從語言、視覺、音頻、3D表示和各種其他模態的角度討論了基礎模型的類型和它們可以執行的下游任務。在利用每種模態的背景下,我們進一步從網絡輸入和輸出的角度對基礎模型進行分類。概覽顯示在圖2中。請注意,我們的目標不是在這里全面覆蓋基礎模型;我們的重點仍然在于解決模態差異和基礎模型的分類。

通常,機器人的行為由感知、規劃和控制組成。在本研究中,我們將感知分為兩個類別:低級感知和高級感知。同時,我們將規劃和控制分別稱為高級規劃和低級規劃。加上對學習這些組成部分的數據增強,我們將機器人對基礎模型的利用分為以下五個類別。 * 低級感知 * 高級感知 * 高級規劃 * 低級規劃 * 數據增強

這些類別之間的關系如圖3所示。用于低級感知的基礎模型包括在圖像或3D表示中的語義分割和邊界框提取,以及在各種模態中的特征提取。用于高級感知的基礎模型涉及將從低級感知獲得的結果轉換和利用成如地圖、獎勵和運動約束等形式。用于高級規劃的基礎模型執行更高級別的抽象任務規劃,不包括直接控制。用于低級規劃的基礎模型執行較低級別的運動控制,包括關節和末端執行器控制。用于數據增強的基礎模型在執行連接低級感知和低級規劃的學習時,通過數據增強增強魯棒性。 在實踐中,通過組合這五種利用方法創建了各種應用。主要分為四種類型,如圖4所示。 (i) 進行低級感知,然后用高級規劃規劃行為。 (ii) 通過低級感知和高級感知提取獎勵和運動約束,并用于強化學習和軌跡優化。 (iii) 通過低級感知和高級感知生成地圖、場景圖等,并將它們作為任務規劃的基礎。 (iv) 使用數據增強,穩健地進行直接關聯低級感知的特征提取和控制輸入的端到端學習。 值得注意的是,也有一些研究方法不適用于這一框架。 從這些角度出發,我們選取了幾篇具有代表性的論文并在表1中進行了總結。

付費5元查看完整內容

近年來, 基于環境交互的強化學習方法在機器人相關應用領域取得巨大成功, 為機器人行為控制策略優化提供一個現實可行的解決方案. 但在真實世界中收集交互樣本存在高成本以及低效率等問題, 因此仿真環境被廣 泛應用于機器人強化學習訓練過程中. 通過在虛擬仿真環境中以較低成本獲取大量訓練樣本進行策略訓練, 并將 學習策略遷移至真實環境, 能有效緩解真實機器人訓練中存在的安全性、可靠性以及實時性等問題. 然而, 由于仿真環境與真實環境存在差異, 仿真環境中訓練得到的策略直接遷移到真實機器人往往難以獲得理想的性能表現. 針對這一問題, 虛實遷移強化學習方法被提出用以縮小環境差異, 進而實現有效的策略遷移. 按照遷移強化學習過 程中信息的流動方向和智能化方法作用的不同對象, 提出一個虛實遷移強化學習系統的流程框架, 并基于此框架 將現有相關工作分為 3 大類: 基于真實環境的模型優化方法、基于仿真環境的知識遷移方法、基于虛實環境的策略迭代提升方法, 并對每一分類中的代表技術與關聯工作進行闡述. 最后, 討論虛實遷移強化學習研究領域面臨的 機遇和挑戰. 當前, 強化學習 (reinforcement learning, RL)[1]方法在一系列復雜決策問題上取得了巨大成功, 如棋牌[2?4]和實 時戰略類游戲[5,6]、推薦系統[7?9]、自動駕駛[10,11]等. 在諸如機器人運動控制[12,13]、機器人操控[14?17]、運動導航[18?21] 和機器人足球[22,23]等任務上, 強化學習也取得了令人矚目的進展. 為了得到有效機器人控制策略, 強化學習依賴大 量交互樣本進行訓練, 而在真實環境中獲取樣本具有較高的成本代價與安全風險; 此外, 由于機器人結構復雜且真 實世界動態變化, 在機器人控制中運用強化學習依然面臨有效性、安全性以及實時性等問題. 為減輕真實樣本的 需求, 仿真環境被廣泛用于機器人策略學習當中. 基于仿真的機器人策略學習有如下優點: (1**) 廉價性**: 仿真環境的 物理引擎能夠以比實時更快的速度對真實環境進行計算模擬, 以較低成本生成訓練樣本用于機器人策略學習, 從 而提高機器人策略的訓練效率. (2) 真實性: 仿真環境不但能模擬機器人的完整運動特性, 如關節及關節之間的運 動關聯等, 還能模擬機器人和環境作用之間的物理屬性, 如重力、壓力、摩擦力等, 從而為真實世界建立逼真的物 理模型. (3) 多維性: 在特定的機器人任務中可以利用多個仿真環境對真實世界進行不同粒度建模, 從不同層次反 映真實場景的環境屬性, 提供與真實世界相關的數據與信息以滿足不同的應用需求. (4) 安全性: 在仿真環境中的 試錯行為沒有實際風險, 可以重復不斷地執行現實世界中耗時且危險的任務.

綜上可知, 基于仿真的強化學習在機器人控制中具有一定優勢. 為使機器人成功地完成現實世界中的一系列 操作, 需要將仿真環境中學習的策略遷移至真實世界中. 然而, 由于仿真環境和真實世界之間存在現實差距 (reality gap)[24] , 包括在不同平臺中機器人動力模型的差異以及環境物理屬性的差異 (如動作感知延遲、地面狀況與大氣 狀況等[25?27] ), 即使最高逼真度的仿真環境也難以對真實世界進行完全一致的建模. 因此, 將仿真環境中學到的策 略直接遷移到真實機器人上, 效果通常難以達到預期. 為了彌合仿真環境和現實之間的差異, 基于虛實遷移 (sim-toreal transfer)[24,28?30]的機器人強化學習方法通過解決仿真環境和真實環境之間的差異性問題, 從而實現學習策略的 有效遷移. 近年來, 一系列虛實混合遷移強化學習方法被提出, 包括系統識別[31?33]、域隨機化[34?37]、域自適應[38?40]、 多保真度學習[41?43]等, 廣泛地應用于運動控制、運動操控以及運動導航等機器人任務上, 取得了巨大的成功, 為機 器人行為控制策略優化提供了一個現實可行的解決方案. 已有一些工作對現有的機器人虛實遷移學習方法進行了總結. Zhao 等人[30]對虛實遷移中基本概念與具體技 術進行了簡要的介紹. Dimitropoulos 等人[29]按照是否需要真實數據將現有虛實遷移方法分類為模擬器方法以及 自適應方法, 前者不依賴真實數據, 后者則需要真實數據用于策略遷移. Salvato 等人[24]將虛實遷移方法分為 3 類: 域隨機化、對抗強化學習以及遷移學習方法. Zhu 等人[28]按照不同的應用目標, 將仿生機器人研究中使用的虛實 遷移方法分為 4 類: 基于精準的模擬器、基于運動學和動力學模型、基于分層與分布式控制器、基于演示的方 法. 盡管這些工作對現有的虛實遷移學習研究工作進行了總結, 但缺乏一個通用的框架對現有工作進行全面梳理 和分類. 因此, 本文對當前研究進行全面梳理, 從方法執行過程中信息流動和智能化方法作用對象的角度建立一個 通用的虛實遷移學習框架, 并基于此框架將當前主要的虛實遷移強化學習方法劃分為 3 類: 基于真實環境的模型優化方法、基于仿真環境的知識遷移方法和基于虛實環境的策略迭代提升方法, 并對相關具體理論和應用進行討論. 本文第 2 節介紹強化學習與遷移學習中重要的概念. 第 3 節深入探討為了縮小仿真與現實之間的差異所采取 的不同方法, 并提出一個通用的虛實遷移學習框架, 對遷移步驟中的數據信息流動和智能化方法作用的對象進行 闡述與分析, 并在此基礎上對現有方法進行分類, 分析它們的基本差異與優缺點. 第 4 節對該領域的目前的挑戰進 行分析, 并對于未來研究進行展望. 最后, 第 5 節對本文工作進行總結.

虛實遷移強化學習

虛實遷移[24,30,100]指機器人在仿真環境中進行訓練, 獲得的策略被遷移部署至真實機器人控制系統中, 其中仿 真環境作為源域, 真實環境作為目標域, 機器人的控制策略作為遷移對象, 核心內容是實現環境信息與控制信息在 真實環境與仿真環境之間的遷移. 虛實遷移對遷移效果提出了 4 個重要的目標: 有效性、效率性、安全性、泛化 性. 有效性[101,102]是指在仿真環境中學到的策略能在真實世界中發揮預期作用, 即在仿真環境中獲得高回報的策略 在真實環境中也能獲得較高回報, 針對有效性的研究大多從縮小環境差異角度著手. 效率性[103,104]從采樣的時間與 經濟成本出發, 強調在真實世界中進行盡可能少的探索采樣, 針對效率性的研究關注對真實樣本中環境信息的充 分挖掘與利用. 安全性[105,106]強調現實中的探索與直接的策略部署具有潛在的安全風險及較高的成本代價, 需要指 導真實機器人進行安全的探索與樣本收集. 泛化性[107,108]針對多任務遷移場景, 強調獲得的策略能在盡可能少的微 調下快速適應不同環境的任務. 本文主要關注圍繞虛實遷移的有效性以及效率性開展的相關研究工作, 在此基礎 上對現有方法進行梳理總結. 本文從遷移學習過程中的信息流動和智能化方法作用對象的角度提出了一個通用的虛實遷移強化學習系統 流程框架, 如圖 1 所示. 首先將策略學習與遷移過程分為以下 5 個主要步驟: 基于真實環境的仿真模型優化、仿真 策略優化、基于仿真環境的知識遷移、真實環境探索與評估, 以及基于虛實環境的策略迭代提升.  (1) 基于真實環境的仿真模型優化: 通過修正或調整仿真模型來縮小仿真環境與真實環境的差異. (2) 仿真環境策略優化: 通過仿真環境的交互樣本對策略進行學習訓練. (3) 基于仿真環境的知識遷移: 將仿真環境中獲取的學習知識向真實環境遷移.(4) 真實環境探索與評估: 對真實環境進行充分探索以及部署策略性能評估. (5) 基于虛實環境的策略迭代提升

:上述 4 個步驟的循環迭代實現策略的不斷提升. 真實環境信息包含了真實任務場景中的動力學模型以及獎勵模型, 前者受復雜的環境參數, 如溫度、濕度、 摩擦力系數等影響, 后者則由最終的任務目標及獎勵結構決定. 復雜的真實環境難以被精準且完整地表征, 但蘊含 于樣本數據、評估指標以及人類對任務的先驗認知中的真實環境信息能夠被有效利用, 這些信息蘊藏于人類在建 立仿真環境時所用的物理方程、環境參數的估計以及對參數范圍的約束中. 基于真實環境的仿真模型優化通過真 實世界的樣本數據修正或調整仿真環境, 其本質是將仿真模型中的先驗但不精確信息與真實樣本中的真實但局部 信息相融合以還原真實環境. 在仿真環境策略優化中, 機器人與仿真環境進行高效交互生成大量廉價樣本并利用 當前已有的深度強化學習算法如 DDPG[49]、PPO[50]等實現策略優化, 在此過程中融合真實環境信息后的仿真環境 信息被轉化成仿真控制策略中的控制信息. 在基于仿真環境的知識遷移中, 仿真環境中優化得到的策略控制信息 通過分解、組合或者直接遷移等手段從仿真策略中被提煉并遷移到真實策略. 最后, 遷移得到的真實策略又用于 真實環境探索與評估, 通過樣本采集以及策略評估從真實環境中提取局部信息, 通過真實策略的控制信息引導機器人探索真實環境的未知部分以建立更加精準的環境模型. 虛實遷移中的仿真環境策略優化、真實環境探索與評估是傳統強化學習領域中獨立的研究方向. 現有的虛實 遷移強化學習方法通常針對基于真實環境的仿真模型優化、基于仿真環境的知識遷移以及基于虛實環境的策略 迭代提升這 3 個部分開展, 所以本文著重從上述 3 個角度出發對虛實遷移方法及代表工作進行分類與總結, 并闡 述每類方法內在動機與關聯.****

本文總結了有關于機器人虛實遷移學習的主要工作, 從遷移學習過程中數據信息流動和智能化方法作用對象 的角度提出一個虛實遷移的流程框架, 并在此基礎上提出了當前虛實遷移學習技術的 3 個主要方向: 基于真實環 境的仿真模型優化、基于仿真環境的知識遷移、基于虛實環境的策略迭代提升. 接著, 對每個方向中的主要方法 以及相關工作進行闡述, 并對比了一些代表性工作的實驗內容. 最后, 介紹虛實遷移學習領域未來面臨的挑戰, 給 出了相應的解決思路與發展方向. 值得說明的是, 除了機器人領域, 虛實遷移強化學習相關思想與技術也可廣泛應 用于其他領域, 以避免高風險的真實環境交互并提高訓練效率. 如在金融交易中, 虛實遷移強化學習可應用于虛擬 金融市場環境中的交易策略開發和優化, 以提高交易策略的性能和魯棒性, 并將其應用于實際市場中進行交易. 另 外, 在醫療決策場景中, 虛實遷移強化學習可用于在虛擬環境中訓練智能代理來模擬醫療治療決策, 并將其遷移到 實際臨床實踐中, 以提高醫療決策的準確性和效果. 我們希望通過對當前相關工作的分類與總結, 為相關研究人員 提供一種新的視角解讀虛實遷移強化學習領域的研究現狀與方向.

付費5元查看完整內容

基于智能體的建模與仿真已發展成為模擬復雜系統的強大工具,提供了對涌現行為和多樣智能體之間互動的洞見。將大型語言模型整合到基于智能體的建模和仿真中,為增強仿真能力提供了有希望的途徑。本文調研了在基于智能體的建模與仿真中利用大型語言模型的領域格局,考察了它們的挑戰和有希望的未來方向。在這項綜述中,由于這是一個跨學科領域,我們首先介紹基于智能體的建模與仿真以及大型語言模型賦能智能體的背景。然后,我們討論將大型語言模型應用于基于智能體的仿真的動機,并系統分析在環境感知、人類協調、行為生成和評估中的挑戰。最重要的是,我們提供了大型語言模型賦能的基于智能體的建模與仿真在多種場景下的最新工作綜述,這些場景可分為四個領域:網絡、物理、社會和混合,涵蓋了現實世界和虛擬環境的仿真。最后,由于這個領域是新的且快速發展的,我們討論了開放性問題和有希望的未來方向。

//www.zhuanzhi.ai/paper/a5b311fe2576ef865dbdcbb6c6eacda5

仿真作為一種計算工具,涵蓋了通過使用數學公式、算法或計算機生成的表示來模擬現實世界過程或系統,以模仿其行為或特征。基于智能體的建模與仿真專注于通過模擬個體智能體及其在環境中的相互作用來模擬復雜系統[135]。它通過賦予這些智能體特定的行為、屬性和決策能力來運作,使我們能夠檢查由智能體相互作用和環境動態產生的涌現現象。仿真的重要性跨越多個領域,是理解、分析和預測實際生活中可能難以或無法直接觀察的復雜現象的寶貴工具。它促進了實驗、假設測試和情景分析,提供了在不同條件下系統行為的洞見,并在經濟學、生物學、社會學和生態學等領域的決策過程中提供幫助。獲得和使用語言的能力是區分人類和其他生物的關鍵方面[90]。大型語言模型(LLMs)的出現是機器學習中的一個最新里程碑,展示了在自然語言處理任務和文本生成方面的巨大能力[235]。利用它們強大的能力,LLMs在通過更細膩和現實的方式表示智能體的決策過程、溝通和適應模擬環境方面顯示出了提升基于智能體仿真的前景。將LLMs整合到基于智能體的建模和仿真中,有潛力豐富仿真的真實性和復雜性,可能會深入洞察系統行為和涌現現象的原因如下: 首先,LLM 智能體可以根據環境做出自適應反應并執行任務,而無需預定義的明確指令 [193, 226]。其次,LLM 智能體具有很強的智能,可以像人一樣做出反應,甚至主動采取具有自導向的規劃和調度的行動 [208, 219]。LLM 智能體的行動空間既不局限于文本,對于文本,工具用法和內部行動模塊允許代理采取各種行動 [171]。最后,LLM 智能體可以與人類或其他智能體進行互動和交流 [152]。憑借以上三點優勢,LLM 智能體已被廣泛接受使用[153、122、117、152、111、125、111、73、105、27、29]。從這個角度看,LLM 智能體顯然可以作為一種新的模擬范例,賦予代理以人類水平的智能。由于 LLM 智能體的巨大潛力,近來這一領域的研究工作呈現出蓬勃發展的態勢。然而,迄今為止,還沒有一份綜述能系統地總結相關工作、討論尚未解決的問題,并為重要的研究方向提供一瞥。在本綜述中,我們分析了為什么大型語言模型在仿真的基本問題中至關重要,尤其是對于基于智能體的仿真而言。在討論了如何在這一新范式中設計智能體之后,我們仔細而廣泛地討論并介紹了各個領域的現有著作,其中大部分是近期發表的。本綜述的貢獻可歸納如下

  • 我們首先回顧了基于大型語言模型的智能體建模與仿真的現有著作。與現有方法相比,我們系統地分析了為什么大型語言模型可以作為基于智能體建模與仿真的先進解決方案。具體而言,我們首先從自主性、社會能力、反應性和主動性四個方面廣泛闡述了基于智能體的建模與仿真對智能體能力的要求。然后,我們分析了大型語言模型如何應對這些挑戰,包括感知、推理和決策、適應性和異質性。

-** 我們將基于智能體的建模與仿真分為物理、網絡、社會和混合四個領域,這四個領域可以涵蓋主流的仿真場景和任務**,之后我們介紹了相關的工作,對如何設計仿真環境以及如何構建由大型語言模型驅動的仿真代理進行了詳細的討論。

  • 除了這一新領域的現有工作外,我們還討論了四個重要的研究方向,包括改進仿真的擴展性、開放仿真平臺、魯棒性、倫理風險等,相信這將對未來的研究有所啟發大型語言模型和 LLM 驅動的智能體

大型語言模型(LLMs),如 ChatGPT [149]、Gemini [55]、LLaMA [199]、Alpaca [192] 和 GLM [227],是語言模型的最新范式,從早期的統計語言模型 [23] 發展到神經語言模型 [144],再到預訓練語言模型 [31],最后發展到大型語言模型 [235]。憑借數十億個參數和廣泛的預訓練語料庫,LLM 不僅在文本生成、總結、翻譯等自然語言處理任務 [116, 232] 中表現出驚人的能力,而且在解決數學問題等復雜推理和規劃任務 [11] 中也表現出驚人的能力。在大規模語料庫上進行的預訓練為零點泛化奠定了基礎。此外,預訓練模型還可以針對特定任務進一步微調,以適應特定的應用場景 [103]。此外,在過去一年中,大型語言模型(如 ChatGPT 和 GPT-4)的進步已經實現了類似人類的推理能力,這是一個里程碑,現在被認為是人工通用智能(AGI)的種子。具體來說,獲取和使用語言的能力是我們人類區別于其他生物的一個關鍵方面[198]。語言是我們與環境互動的最重要機制之一,語言為高級能力奠定了基礎[90]。

因此,由于在感知環境和做出決策方面具有類似人類的智能,構建大型語言模型賦能的智能體是大有可為的[208, 219]。首先,LLM 智能體能夠根據環境做出自適應反應并執行任務,而無需預定義的明確指令 [193, 226]。此外,在模擬過程中,LLM 智能體甚至可以形成新的想法、解決方案、目標等[71]。例如,AutoGPT [193] 在給出一組可用工具和最終任務目標時,可以自動安排計劃,體現了 LLM 在構建智能體方面的巨大潛力。同時,BabyAGI [226] 創建了一個運行無限循環的 LLM 驅動腳本,該腳本持續維護任務列表,其中每個任務都由 ChatGPT API [149] 根據任務上下文完成。其次,LLM 智能體具有足夠的智能,可以像人類一樣做出反應,甚至主動采取行動,進行自我導向的規劃和調度 [208, 219]。環境輸入并不局限于文本,最近的多模態融合模型還可以輸入其他類型的信息,如圖像或音頻 [239]。LLM 智能體的行動空間既不局限于文本,對于文本,工具使用能力允許智能體采取更多行動 [171]。最后,LLM 智能體具有與人類或其他人工智能智能體互動和交流的能力 [152]。在仿真,尤其是基于智能體的仿真中,代理的交流能力將個體仿真提升到了群體層面[80]。一個 LLM 驅動的智能體可以生成文本,另一個智能體可以接收并理解文本,進而為智能體之間或人類與智能體之間可解釋的交流提供基礎[152]。此外,社區層面的模擬需要智能體的異質性,而 LLM 智能體可以滿足這些要求,在社會中扮演不同的角色 [163]。由 LLM 智能體構建的人工社會可以進一步揭示具有集體智能體行為的蜂群智能體的出現 [73, 152],類似于人類社會中的群體智慧 [190]。如上所述,仿真系統廣泛采用了基于智能體的建模范式,這就要求智能體具有高級能力,很好地激發了大語言模式智能體在仿真場景中的應用。

基于智能體建模和仿真的 LLM 關鍵能力

基于智能體建模與仿真的大語言模式關鍵能力 如上所述,基于智能體的建模與仿真是許多領域仿真的基本方法[135, 65],但它仍然面臨幾個關鍵挑戰。大語言模式驅動的智能體不僅能滿足基于智能體的仿真要求,還能依靠其強大的感知、推理、決策和自我進化能力來解決這些限制,如圖 1 所示。 **感知 **

基于智能體的建模與仿真的核心是模擬單個智能體如何與環境進行交互[135],這就要求智能體能夠準確感知來自上述環境的各類信息。至于大語言模型賦能的智能體,語言能力能使智能體直接或間接地理解和應對多樣化的環境。一方面,理解和生成文本的基本能力使智能體能夠進行復雜的對話、談判和信息交換,并支持直接交互。另一方面,智能體與環境之間的界面可以通過文本進行操作 [194],從而實現間接交互。當然,除了智能體與環境的視角外,這種能力也支持不同智能體之間的交流。 值得一提的是,僅僅具備與環境和其他智能體互動的能力還不足以實現類人模擬。更具體地說,還要求基于大型語言模型的智能體 "設身處地",從而讓智能體想象自己確實身處環境之中。也就是說,LLM 智能體應能從 "第一視角視線"[178]出發,理解、感知并響應不同情境下的不同需求、情感和態度。這種能力能使模型更好地理解來自環境或其他智能體的信息,并產生更真實的反應。

推理和決策

傳統基于代理的仿真面臨的一個關鍵挑戰是,基于規則甚至基于神經網絡的代理不夠智能[48]。也就是說,智能體無法做出正確或最優決策,如在交通仿真中選擇擁擠的道路,或在社交網絡仿真中發送錯誤的信息。這可以解釋為,傳統的基于神經網絡的人工智能仍不如真人智能[97, 130, 139, 94]。相比之下,大語言模型賦能的智能體則表現出更強的推理能力,使其能夠在模擬中做出更明智的決策并選擇合適的行動。盡管能做出合適的決策,但大型語言模型賦能的智能體支持更好的基于智能體的建模和仿真的另一個關鍵優勢是自主性[72]。只需有限的指導、規定和目標,配備大型語言模型的智能體就能自主采取行動,為給定目標制定計劃,甚至實現新目標,而無需顯式編程或預定義規則[152]。也就是說,自主性使 LLM 智能體能夠根據實際情況動態調整自己的行動和策略,有助于提高仿真的真實性。

自適應學習和演化

對于基于智能體的建模與仿真而言,系統始終具有不確定性和不可控性[135]。換句話說,與模擬初始階段相比,環境和智能體的狀態可能完全不同。正如《瑞普-范-溫克爾》(Rip Van Winkle)的古老故事所講述的那樣,一個人在山中睡著了,醒來后發現周圍的世界在他沉睡期間發生了巨大的變化。也就是說,在長期的社會網絡模擬中,環境是不斷變化的[73];智能體應該能夠適應新的環境,制定的決策策略可能會大大偏離其原來的策略。顯然,自適應學習和進化對于傳統方法來說具有挑戰性,但幸運的是,基于大型語言模型的智能體可以解決這個問題 [132]。具體來說,憑借不斷從新數據中學習并適應不斷變化的語境的能力,LLM 智能體可以隨著時間的推移不斷演化行為和決策策略。智能體可以吸收新信息,分析數據中新出現的模式,并根據情境中的學習[60]相應地修改自己的反應或行動,這反映了現實世界實體的動態性質。這種適應性通過模擬智能體在應對不同刺激時的學習曲線和行為演變,增強了模擬的真實性。

異質性和個性化

俗話說,一人之肉,眾人之毒。對于基于智能體的仿真來說,具有異質個體的復雜社會[30]或經濟系統[26],智能體的異質性至關重要。具體來說,在基于智能體的建模和仿真中,智能體的異質性涉及表現個體之間的不同特征、行為和決策過程。與傳統仿真方法相比,基于智能體的仿真因其能夠適應不同的規則或參數而脫穎而出,具體討論如下。首先,現有方法的參數設置極其復雜[64, 135]。在這些模型中,影響智能體行為的變量繁多--從個人特征到環境因素--使得選擇和校準這些參數變得十分困難。這種復雜性往往會導致過度簡化,影響模擬在描述真實異質性方面的準確性[135]。此外,獲取準確、全面的數據為參數選擇提供信息也是另一項挑戰。也就是說,現實世界中能捕捉到不同情境下不同個體行為的數據可能很有限,或者很難收集到。此外,根據真實世界的觀察結果驗證所選參數以確保其可靠性,也增加了另一層復雜性。其次,規則或模型無法涵蓋異質性的所有方面,因為現實世界中的個體非常復雜[135]。使用規則驅動智能體行為只能捕捉到異質性的某些方面,但可能缺乏深度,無法囊括多樣化行為、偏好和決策過程的全部內容。此外,隨著模型能力的提高,試圖在單一模型中涵蓋異質性的所有方面未免過于理想化。因此,如何平衡模型的簡潔性和智能體建模的準確性成為基于智能體建模和仿真的關鍵挑戰,從而導致對智能體異質性某些方面的過度簡化或忽視。與傳統方法不同的是,基于 LLM 的智能體支持:1)通過內部類似人類的認知復雜性來捕捉復雜的內部特征;2)通過提示、上下文學習或微調來實現專業化和定制化特征。

結語

基于智能體的建模與仿真是各領域復雜系統建模的重要方法之一。大型語言模型的最新進展重塑了基于智能體的建模與仿真范式,為構建類似人類的智能體而不是由簡單規則或有限智能神經模型驅動的智能體提供了新的視角。在本文中,我們首先對基于智能體的大語言模型建模與仿真進行了綜述。我們系統地分析了基于智能體的建模與仿真為什么需要 LLM 智能體,以及如何應對關鍵挑戰。隨后,我們廣泛總結了網絡、物理、社會和混合四個領域的現有工作,仔細闡述了如何設計仿真環境、如何構建大語言模型賦能的智能體,以及基于智能體的仿真要觀察和實現什么。最后,考慮到現有研究尚未解決的局限性和這一快速發展的新領域,我們討論了有待解決的問題,并指出了重要的研究方向,希望能對未來的研究有所啟發。

付費5元查看完整內容

本文提供了一個關于大型語言模型(LLMs)在軟件工程(SE)中應用的新興領域的調查。它還提出了將LLMs應用于軟件工程師面臨的技術問題的開放性研究挑戰。LLMs的新興屬性帶來了創新性和創造力,其應用覆蓋了軟件工程活動的全譜,包括編碼、設計、需求、修復、重構、性能提升、文檔和分析。然而,這些同樣的新興屬性也帶來了重大的技術挑戰;我們需要能夠可靠地剔除錯誤的解決方案,如幻覺。我們的調查揭示了混合技術(傳統的SE與LLMs相結合)在開發和部署可靠、高效和有效的基于LLM的SE中的關鍵作用。本文調查了基于LLM的SE的最近發展、進展和實證結果;即大型語言模型(LLMs)在軟件工程(SE)應用的應用。我們使用這次調查來突出這個迅速發展但尚屬初級階段的研究文獻中的空白。基于文獻中的空白和技術機會,我們還確定了軟件工程研究社區的開放問題和挑戰。盡管對這樣一個迅速擴張的領域的任何調查都既不能渴望也不能聲稱是全面的,但我們希望這次調查能為這個令人興奮的新軟件工程子學科——基于LLM的軟件工程提供一個有用且相對完整的早期概述。盡管該領域的科學和技術結構仍在形成中,但我們已經可以識別出趨勢、對未來研究的有益方向以及需要解決的重要技術挑戰。特別是,我們已經能夠辨別出與軟件工程內的現有趨勢和既定方法及子學科的重要連接(和共鳴)。盡管總的來說,我們找到了很多樂觀的理由,但仍然存在重要的技術挑戰,這些挑戰很可能在未來幾年內影響研究議程。許多作者都從科學和軼事的角度指出,LLMs普遍存在幻覺問題[1],而且它對基于LLM的SE也帶來了特定的問題[2]。與人類智慧一樣,幻覺意味著LLM可以產生虛構的輸出。在軟件工程的背景下,這意味著創造的工程制品可能是錯誤的,但看起來是合理的;LLMs可能引入錯誤。然而,與LLMs的許多其他應用不同,軟件工程師通常有可自動化的真實依據(軟件執行),大部分軟件工程制品都可以基于此進行評估。此外,軟件工程研究社區已經花了很多時間開發自動化和半自動化技術,以檢查人類可能產生的錯誤結果。這意味著,對于這個學科和研究社區,當面對像幻覺這樣的問題所帶來的挑戰時,有大量的經驗和專業知識可以借鑒。

顯然,自動化測試技術 [3]–[5] 將在確保正確性中發揮核心作用,就像它們已經為人工設計的制品所做的那樣。在生成全新的功能和系統時,由于缺乏可自動化的oracle [6](一種自動技術,用于確定給定輸入刺激的輸出行為是否正確),自動測試數據生成受到限制。考慮到LLMs的幻覺傾向,Oracle問題仍然非常相關,對它的解決方案將變得更加有影響力。但是,一些SE應用關心現有軟件系統的適應、改進和開發,對于這些應用,有一個現成的可自動化的oracle:原始系統的功能行為。在本文中,我們稱其為“自動回歸Oracle”,這種方法已在遺傳改進領域得到證明是有益的 [7]。自動回歸Oracle簡單地使用軟件系統的現有版本作為參考,以對任何后續的適應和更改的輸出進行基準測試。當然,有“烘焙”功能錯誤的風險,因為自動回歸Oracle無法檢測系統應該做什么,只能捕捉它當前做什么。因此,自動回歸Oracle只能測試功能退化,所以它最適合于需要保持現有功能的用例。例如,對于性能優化和語義保持不變的重構。LLM的輸入將成為越來越多研究的焦點,我們可以預期關于prompt工程和prompt優化文獻的迅速發展 [8]。在這次調查中,我們突出了關于軟件工程的幾個特定方面的prompt工程的現有工作和開放挑戰。LLM的輸出不僅可以限于代碼,還可以包括其他軟件工程制品,如需求、測試用例、設計圖和文檔。總的來說,LLM的基于語言的特性使其能夠生成任何語言定義的軟件工程制品。我們通常認為軟件工程制品是LLM的主要輸出,但它不是唯一的輸出。與主要輸出一起提供的解釋也是LLM的重要輸出。我們的調查突出了需要進行更多的研究的需求,不僅要優化prompt工程(專注于LLM的輸入),還要優化與主要輸出一起提供的解釋的工作。LLMs本質上是非確定性的:相同的prompt在不同的推斷執行中產生不同的答案(除非溫度設為零,這在多次執行中經常被發現是次優的)[9]。此外,無論溫度設置如何,prompt的微妙變化都可能導致非常不同的輸出[9]。除了激勵‘prompt工程’和輸出處理,這種非確定性行為為基于LLM的軟件工程的科學評估帶來了挑戰:如果每次我們運行整個工程過程時結果都會變化,我們如何確定所提議的技術是否超越了現有的技術?這是一個在經驗軟件工程[10]和基于搜索的軟件工程(SBSE)[11]的背景下已經被深入研究的問題。特別是,SBSE與基于LLM的軟件工程有很多相似之處,在存在嘈雜、非確定性和不完整的結果[12]、[13]的情況下實現穩健的科學評估都與之有關。因此,已經有一個成熟的軟件工程文獻專門研究適用于基于LLM的科學評估所需的穩健的科學評估技術。例如,參數和非參數的推斷統計技術現在經常被用來在SBSE學科中提供在高度非確定性算法存在的情況下的穩健的科學結論。為了找出與LLM相關的計算機科學論文,我們過濾了出版物,將其細分為以下子類別:人工智能 (cs.AI)、機器學習 (cs.LG)、神經和進化計算 (cs.NE)、軟件工程 (cs.SE) 和編程語言 (cs.PL)。我們使用查詢“Large Language Model”、“LLM”和“GPT”在標題或摘要中進行篩選(我們手動排除了重載縮寫,例如將GPT誤認為是通用規劃工具),結果是L列。最后,我們使用相同的查詢來識別基于LLM的軟件工程論文,這些論文位于軟件工程 (cs.SE) 和編程語言 (cs.PL) 類別中。這些查詢本質上是近似的,因此我們只局限于基于總體趨勢得出的結論,而這些總體趨勢有強有力的證據支持,而不是觀察到的數字的具體細節。盡管如此,我們報告了觀察到的原始數字,以支持其他人的復制。

圖2展示了arXiv上發布的計算機科學論文數量(|A|,以藍色表示)和LLM相關論文的數量(|L|,以橙色表示)的增長。特別是與軟件工程和LLM相關的論文以綠色表示(|L ∩ S|)。考慮到總體發表量的快速增長,我們為縱軸使用了對數刻度。不出所料,我們看到了計算機科學出版物數量的整體增長。同時,鑒于LLM最近受到的關注增多,LLM相關論文數量的指數增長也相對不足為奇。或許更有趣的是LLM在軟件工程應用中的快速采納,如圖中的綠色所示。為了更詳細地檢查這一趨勢,我們在圖3中畫出了LLM出版物(L)與所有計算機科學出版物(A)的比例(以藍色表示),以及基于LLM的軟件工程出版物(L ∩ S)與所有LLM出版物的比例(以橙色表示)。如圖所示,自2019年以來,基于LLM的軟件工程論文的比例已經急劇上升。目前,所有關于LLM的論文中已有超過10%與基于LLM的軟件工程有關。由于這一增長,我們可以預期將有更多其他的基于LLM的軟件工程調查。文獻的快速擴展使得進一步的全面軟件工程研究不太可能適應單篇論文的空間限制,但我們可以預期會有許多關于感興趣的子領域的全面調查,以及針對系統評審中的主要文獻提出具體研究問題的系統文獻回顧(SLRs)。例如,Hou等人[14]提供了一個出色的最新SLR,涵蓋了2017年至2023年的229篇研究論文,報告了所處理的軟件工程任務、數據收集和預處理技術,以及優化LLM性能的策略(例如提示工程)。本文的其余部分按照主要的頂級軟件開發活動和研究領域進行組織。圖1顯示了軟件開發活動、研究領域和我們論文結構之間的映射。

付費5元查看完整內容

行為識別是當前計算機視覺方向中視頻理解領域的重要研究課題。從視頻中準確提取人體動作的特征并識別動作,能為醫療、安防等領域提供重要的信息,是一個十分具有前景的方向。本文從數據驅動的角度出發,全面介紹了行為識別技術的研究發展,對具有代表性的行為識別方法或模型進行了系統闡述。行為識別的數據分為RGB模態數據、深度模態數據、骨骼模態數據以及融合模態數據。首先介紹了行為識別的主要過程和人類行為識別領域不同數據模態的公開數據集;然后根據數據模態分類,回顧了RGB模態、深度模態和骨骼模態下基于傳統手工特征和深度學習的行為識別方法,以及多模態融合分類下RGB模態與深度模態融合的方法和其他模態融合的方法。傳統手工特征法包括基于時空體積和時空興趣點的方法(RGB模態)、基于運動變化和外觀的方法(深度模態)以及基于骨骼特征的方法(骨骼模態)等;深度學習方法主要涉及卷積網絡、圖卷積網絡和混合網絡,重點介紹了其改進點、特點以及模型的創新點。基于不同模態的數據集分類進行不同行為識別技術的對比分析。通過類別內部和類別之間兩個角度對比分析后,得出不同模態的優缺點與適用場景、手工特征法與深度學習法的區別和融合多模態的優勢。最后,總結了行為識別技術當前面臨的問題和挑戰,并基于數據模態的角度提出了未來可行的研究方向和研究重點。 //www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221101&flag=1

付費5元查看完整內容

多模態人機交互旨在利用語音、圖像、文本、眼動和觸覺等多模態信息進行人與計算機之間的信息交換。在生理心理評估、辦公教育、軍事仿真和醫療康復等領域具有十分廣闊的應用前景。本文系統地綜述了多模態人機交互的發展現狀和新興方向,深入梳理了大數據可視化交互、基于聲場感知的交互、混合現實實物交互、可穿戴交互和人機對話交互的研究進展以及國內外研究進展比較。本文認為拓展新的交互方式、設計高效的各模態交互組合、構建小型化交互設備、跨設備分布式交互、提升開放環境下交互算法的魯棒性等是多模態人機交互的未來研究趨勢。

受益于物聯網的發展,人機交互設備在人們的 日常生活中得到了廣泛應用。 近年來,計算機視覺、 手勢識別和人工智能等技術蓬勃發展,頭戴式設備、 顯示屏和傳感器等硬件技術取得了明顯的進步,人 機交互不再局限于單一感知通道(視覺、觸覺、聽 覺、嗅覺和味覺)的輸入輸出模態(Bourguet,2003)。 多模態人機交互旨在利用語音、圖像、文本、眼 動和觸覺等多模態信息進行人與計算機之間的信息 交換。 其中包括人到計算機的多模態信息輸入與計 算機到人的多模態信息呈現,是與認知心理學、人機 工程學、多媒體技術和虛擬現實技術等密切相關的 綜合學科。 目前,多模態人機交互與圖像圖形領域 中的各類學術和技術聯合得越來越緊密。 多模態人 機交互技術作為人—機—物的技術載體,在大數據 與人工智能時代,其學術和技術發展前沿與圖像圖 形學、人工智能、情感計算、生理心理評估、互聯網大 數據、辦公教育和醫療康復等領域發展息息相關。 多模態人機交互研究最早出現在 20 世紀 90 年代, 多項工作提出了將語音和手勢融合在一起的交互方 法 ( Pavlovic 等, 1997; Ando 等, 1994; Cassell 等, 1994)。 近幾年,沉浸式可視化( Jansen 等,2014)的 出現為人機交互提供了一個新的多模態交互界面: 一個融合了視覺、聽覺和觸覺等多個感知通道的沉 浸式環境。

在學術 界, 多 模 態 人 機 交 互 的 學 術 成 果 在 IEEE-TPAMI( IEEE Transactions on Pattern Analysis and Machine Intelligence)、IEEE-TIP( IEEE Transaction on Image Processing)、IEEE-TASLP( IEEE / ACM Transactions on Audio, Speech and Language Processing)、IEEE-TNNLS(IEEE Transactions on Neural Networks and Learning Systems )、 ACM-TOCHI ( ACM Transactions on Computer-Human Interaction) 等國際 期刊和 CHI(Computer-Human Interaction)、UbiComp (Ubiquitous computing)、CSCW(ACM Conference on Computer-Supported Cooperative Work and Social Computing)等國際會議呈現穩步增長,創新成果層 出不窮。 在產業界,語音、人臉和手勢等新型交互的應用 從噱頭轉趨理性,聚焦于車載、直播等特定場景。 觸 屏搭配一種新模態的交互方式,是當前多模態交互 產品落地的主要形態。 增強現實等新型輸出/ 顯示 模態的技術逐漸成為未來多模態人機交互產品新的 主要場景。 各國政府高度重視多模態人機交互。 在“十三 五”期間,我國設立多項重大重點項目支持多模態 人機交互方向的研究。 例如,國家重點研發計劃項 目“基于云計算的移動辦公智能交互技術與系統”、 “多模態自然交互的虛實融合開放式實驗教學環 境”等。 美國海軍開始構建下一代艦艇多模態人機 交互模式,采用全息化的指揮模式,通過佩戴視覺和 觸覺傳感器對艦船進行控制。 英國海軍公布的 T2050 未來水面艦艇概念,以多模態人機交互的方 式,有效提高工作效率。

本文旨在綜述多模態人機交互的最新進展,幫 助初學者快速了解和熟悉多模態人機交互領域;對 多模態人機交互方式進行分類整理,幫助該領域的 研究者更好地理解多模態人機交互中的各種技術; 對多模態人機交互領域面臨的機遇和挑戰進行梳 理,啟發相關研究者做出更有價值的多模態人機交 互工作。 本文將從多模態信息輸入與多模態信息輸出兩 方面對多模態交互技術進行綜述。 其中,多模態信 息輸入過程涉及可穿戴交互技術以及基于聲場感知 的輸入交互技術。 多模態信息呈現過程涉及大數據 可視化交互技術、混合現實交互技術以及人機對話 交互技術。 下面分別從大數據可視化交互、基于聲 場感知的交互、混合現實實物交互、可穿戴交互和人 機對話交互 5 個維度介紹多模態人機交互的研究進 展。 內容框架如圖 1 所示。

付費5元查看完整內容

顯著性目標檢測旨在對圖像中最顯著的對象進行檢測和分割,是計算機視覺任務中重要的預處理步驟之一,且在信息檢索、公共安全等領域均有廣泛的應用.本文對近期基于深度學習的顯著性目標檢測模型進行了系統綜述,從檢測粒度的角度出發,綜述了將深度學習引入顯著性目標檢測領域之后的研究成果.首先,從三個方面對顯著性目標檢測方法進行了論述:稀疏檢測方法,密集檢測方法以及弱監督學習下的顯著性目標檢測方法.然后,簡要介紹了用于顯著性目標檢測研究的主流數據集和常用性能評價指標,并對各類主流模型在三個使用最廣泛的數據集上進行了性能比較分析.最后,本文分析了顯著性目標檢測領域目前存在的問題,并對今后可能的研究趨勢進行了展望.

付費5元查看完整內容

數據融合是最大程度發揮大數據價值的關鍵,深度學習是挖掘數據深層特征信息的技術利器,基于深度學習的數據融合能夠充分挖掘大數據潛在價值,從新的深度和廣度拓展對世界的探索和認識。本文綜述了近幾年基于深度學習的數據融合方法的相關文獻,以此了解深度學習在數據融合中應用所具有的優勢。首先,分類闡述常見的數據融合方法,同時指出這些方法的優點和不足;接著,從基于深度學習特征提取的數據融合方法、基于深度學習融合的數據融合方法、基于深度學習全過程的數據融合方法三個方面對基于深度學習的數據融合方法進行分析,并做了對比研究與總結;最后,總結全文,討論了深度學習在數據融合中應用的難點和未來需要進一步研究的問題。

//kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=JSGG20201119008&v=UVJbamaWiqPhx%25mmd2F%25mmd2BOu5dHCwhPPmxv19yW5mC2ZX1%25mmd2Bqh0bZ9gpg2gmEH78ZzOsc7eT

付費5元查看完整內容
北京阿比特科技有限公司