亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

當前集群無人系統(UxS)高度依賴人工操作支持。平臺有限的"智能"特性既制約其潛在價值又增加整體成本。亟需人工智能(AI)解決方案實現單人指揮大規模集群。受生物學啟發的牧群引導機制——通過少數牧羊犬控制大群綿羊——為此提供思路。通過設計扮演牧羊犬角色的AI代理,操作員可仿效牧民指揮生物牧羊犬的方式引導集群。具備情境感知能力的AI牧羊犬代理突破現有研究對集群同質性的限制假設,支持異質集群管理,并增強人機協作效能。 本研究提出本體論驅動的架構設計以增強集群控制代理的情境感知能力。該架構通過提升AI牧羊犬代理的情境認知,實現對異質化集群行為的特征提取與響應。配套方法與算法突破傳統研究局限,構建了新型集群行為引導框架。研究開發了系列量化指標與方法論,用于識別集群影響力源頭、區分異質代理行為特征,并設計AI算法實現行為模式識別。這些創新將推動新一代高自主性UxS構建更高效的人-集群協作系統(HSTs)。

群體代理同質性

傳統牧群引導研究普遍假設集群代理具有同質性,這構成顯著理論缺口[33]。現有集群控制代理設計主要基于三個同質假設:執行能力、感知能力及決策模型(包括行動決策與環境作用力向量生成)的一致性[14]。然而自然界普遍存在決策機制與能力異質的群體系統[34],機器人學界對此關注度持續提升[35]。隨著新型集群系統研究深入,生物啟發式方法必須考慮能力差異化的代理。但現有文獻中的控制代理普遍默認集群同質化,忽視代理機構與能力構成的差異性。本研究通過引入本體論指導分析指標選擇,開發可辨識集群代理機構的信息標記(第五章詳述),突破同質性假設桎梏。這些標記有助于解析代理間的社會層級結構,為認知能力增強的集群系統構建類人化組織架構奠定基礎。

群體控制代理態勢感知

通過有效提取與識別集群代理特征,可構建控制代理的態勢感知框架。傳統同質集群控制代理依賴特定情境要素(如集群質心空間分布[14]或連接性指標[36])制定控制策略。本研究創新性開發集群標記系統,通過識別代理隱含屬性推斷行為模式。這些標記聚焦影響控制策略選擇的關鍵要素:集群響應模式、影響力分布及其表現形式。通過賦予代理集群情境辨識與推理能力,控制代理可動態優化策略選擇。

群體控制代理情境感知

集群情境識別能力使控制代理可實施最優響應策略。本研究突破傳統系統在異質/同質集群場景下的自適應局限,集成行為調制模塊實現策略參數化配置與任務導向行為規劃。實驗證明,該架構顯著提升控制代理在異常場景下的魯棒性。以經典牧群引導模型為例,當集群圍繞目標點循環移動時,傳統系統需人工介入識別,而本研究通過整合目標距離與行為歷史數據至識別預測算法,實現自主異常檢測與應對。該方法為未來自主系統應對對抗場景等復雜態勢提供技術路徑。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

具身智能(Embodied AI)旨在發展能夠具備物理形態、并能在真實環境中進行感知、決策、行動與學習的智能系統,這為通用人工智能(AGI)的實現提供了一條有前景的路徑。盡管經過數十年的探索,具身智能體在開放動態環境中執行通用任務時,仍然難以達到人類水平的智能。近年來,大模型的突破性進展徹底革新了具身智能,顯著增強了其在感知、交互、規劃與學習方面的能力。 本文對大模型賦能的具身智能進行了全面綜述,重點聚焦于自主決策具身學習。在決策方面,我們探討了分層決策端到端決策兩類范式:具體而言,大模型如何增強分層決策中的高層規劃、低層執行與反饋機制;以及大模型如何提升視覺-語言-行動(Vision-Language-Action, VLA)模型以支持端到端決策。在具身學習方面,我們介紹了主流的學習方法,并深入闡述大模型如何提升模仿學習強化學習。首次地,我們將**世界模型(World Models)**納入具身智能的綜述,介紹其設計方法及其在增強決策與學習中的關鍵作用。 盡管該領域已取得了實質性進展,但仍然存在諸多挑戰。本文最后對這些挑戰進行了討論,并展望了未來可能的研究方向。 附加關鍵詞與短語:具身智能,大模型,分層決策,端到端,模仿學習,強化學習,世界模型

1 引言

具身智能(Embodied AI)[209] 旨在發展具備物理形態的智能系統,使其能夠在真實環境中進行感知、決策、行動與學習。該領域認為,真正的智能源于智能體與環境的交互,因此為實現通用人工智能(AGI)[184] 提供了一條前景可期的路徑。盡管具身智能的探索已經持續了數十年,但要賦予智能體類人水平的智能,使其能夠在開放、非結構化且動態的環境中執行通用任務,仍然面臨巨大挑戰。 早期的具身智能系統[21, 200] 基于符號推理與行為主義,依賴僵化的預編程規則,因而表現出有限的適應性與表層智能。盡管機器人已廣泛應用于制造、物流和特定操作,但它們的功能依然局限于可控環境。機器學習[133],尤其是深度學習[99] 的進展,為具身智能帶來了重要轉折點。基于視覺引導的規劃和基于強化學習的控制[173] 顯著降低了智能體對精確環境建模的依賴。然而,這些模型往往依賴任務特定的數據集進行訓練,在泛化性與可遷移性方面仍然存在不足,限制了其在多樣化場景下的適應能力。 近年來,大模型[149, 150, 182, 183] 的突破性進展顯著提升了具身智能的能力。憑借更強的感知、交互與規劃能力,這些模型為通用型具身智能體[137] 的發展奠定了基礎。然而,大模型賦能的具身智能仍處于萌芽階段,在泛化性、可擴展性以及無縫環境交互方面依舊面臨挑戰[177]。因此,亟需對近年來大模型賦能具身智能的研究進行全面、系統的綜述,以揭示其差距、挑戰與機遇,從而推動 AGI 的實現。 通過對相關領域的系統調研,我們發現現有研究分散、主題復雜,但缺乏系統性分類。已有綜述大多聚焦于大模型自身,例如大語言模型(LLM)[29, 151, 225] 與視覺語言模型(VLM)[104, 113, 191],而較少關注大模型與具身智能體的協同作用。即便有些綜述涉及該方向,它們也往往集中于特定組件,如規劃[188]、學習[7, 26, 204]、模擬器[201]與應用[157, 201, 209],而缺乏對整體范式及各組件如何交互以提升智能的系統性分析。此外,一些較早的綜述遺漏了最新進展,尤其是自 2024 年以來迅速興起的視覺-語言-行動(Vision-Language-Action, VLA)模型[117]與端到端決策。例如,綜述 [119] 對 VLA 模型進行了詳細介紹,但缺少與分層范式的比較以及對學習方法的深入探討。同時,由于該領域發展迅速,早期的綜述[48, 220] 已難以跟上最新研究。 在本文中,我們聚焦于大模型賦能的具身智能中的決策與學習,對相關研究進行分析與分類,厘清最新進展,指出尚存挑戰與未來方向,為研究者提供清晰的理論框架與實踐指導。我們與相關綜述的對比見表1。 本文的主要貢獻如下: 1. 從具身智能視角探討大模型賦能。 在分層決策方面,具身智能涉及高層規劃、低層執行與反饋增強,我們據此對相關工作進行回顧與分類。在端到端決策方面,具身智能依賴于 VLA 模型,因此我們綜述 VLA 模型及其增強方法。在具身學習方面,我們重點考察模仿學習(IL)與強化學習(RL):在 IL 中,大模型如何賦能策略與網絡構建;在 RL 中,大模型如何賦能獎勵函數設計與策略網絡構建。 1. 全面綜述具身決策與具身學習。 本文不僅回顧了大模型賦能下的分層與端到端決策范式并進行對比,還系統性地討論了具身學習方法,包括模仿學習、強化學習,以及遷移學習與元學習。此外,我們首次將**世界模型(World Models)**納入具身智能的綜述,探討其在決策與學習中的作用。 1. 采用水平與垂直結合的雙重分析方法。 水平分析比較了多種方法,包括不同類型的大模型、分層與端到端決策、模仿學習與強化學習,以及多樣化的具身學習策略;垂直分析則追蹤核心模型或方法的演化過程,闡述其起源、進展與開放問題。這一雙重方法論既提供了宏觀綜述,也帶來了對主流方法的深入洞察。

本文的組織結構如圖1所示:第2節介紹具身智能的概念,綜述大模型并討論其通用能力提升,隨后分析大模型與具身智能的協同關系。第3節探討分層決策范式,詳細闡述大模型如何增強動態高層規劃、低層執行與基于反饋的迭代優化。第4節聚焦端到端決策,先介紹并分解 VLA 模型,再探討在感知、動作生成與部署效率方面的最新增強,并在最后與分層決策進行系統對比。第5節介紹具身學習方法,特別是大模型增強的模仿學習與強化學習。第6節討論世界模型及其在具身智能決策與學習中的作用。第7節總結開放挑戰與未來前景,第8節給出結論。

付費5元查看完整內容

在傳統由人類主導的決策領域,人工智能(AI)正逐步接管多項任務。對此,與AI系統交互的人類決策者可能難以對AI生成信息建立信任。當前決策被概念化為證據積累的建構過程,但此過程可能因交互設計差異呈現不同演化路徑。本研究旨在探究通過對AI建議進行中間判斷時信任的時間演化特征。在線實驗(N=192)發現信任隨時間呈現波動,且對AI建議的中間判斷具有信任強化效應。此外,研究發現參與者行為違背全概率定律,現有建模技術無法捕捉此類現象。因此,采用量子開放系統建模方法(將信任表示為單一概率分布的時間函數)相比傳統馬爾可夫方法,能更優地模擬對AI系統的信任演化。研究成果可優化AI系統行為,引導人類決策者趨向貝葉斯最優理性(在復雜任務環境的時效性決策中尤為重要)。

美國政府內外研究表明,AI信任是復雜概念,但美國防部(DOD)仍將其視為人本AI設計的核心認知過程。AI技術持續發展,在指揮控制(C2)等復雜環境中擴展能力。除功能增強外,AI可主動改變決策空間并實施信息干預(Strich等,2021年)。預測顯示人類將日益依賴AI輸出進行決策(Fuchs等,2023年)。

理解AI技術如何影響人類決策具有必要性。軍事機構正經歷AI驅動的技術與組織變革(Wrzosek,2022年)。多起先進技術事故揭示了自動化系統的潛在危害:伊拉克愛國者導彈誤擊事件(Hawley & Mares,2012年)、文森斯號擊落客機事件(Bisantz等,2000年;Hestad,2001年;Marsh & Dibben,2003年)、美軍黑鷹直升機誤擊事件(Snook,2011年),以及近期阿富汗平民誤殺事件(Denning & Arquilla,2022年),均表明誤解自動化系統信息的災難性后果。這些悲劇的共同點在于自動化技術對人類決策的影響。更令人擔憂的是,人類決策正被機器決策周期主導而非系統輔助(Blair等,2021年)。因此,理解AI對人類決策的影響機制是改進人機交互研究的必經之路。

當前,決策過程普遍被概念化為證據積累的建構性過程。然而,該建構過程可能因交互設計的不同而呈現差異化的演化路徑。本研究通過分析對AI建議的中間判斷,探究信任隨時間演變的特征。在線實驗(N=192)發現:信任度隨時間呈波動狀態,且對AI建議進行判斷會觸發信任強化效應;參與者行為存在現行建模技術無法捕捉的全概率定律違背現象。盡管多種定量與定性方法已部分揭示AI信任及其與系統效能的關系,但結合信任時間演化特征的生成性理論可深化對此的全面理解。因此,采用開放系統建模方法(將信任表征為單一概率分布的時間函數),較傳統馬爾可夫方法與量子技術更能優化AI系統的信任建模。

馬爾可夫動態與量子動態的相互作用為決策動態建模(尤其是人機協同決策)提供了新視角。若人類決策確遵循量子開放系統路徑,開發更優的人機交互策略可能產生突破性成果(Snow等,2022年)。研究成果可優化AI系統行為,引導人類決策偏好趨向貝葉斯最優理性(在復雜任務環境的時效性決策中尤為重要)。盡管研究前景廣闊,仍需深入探索技術細節并驗證其普適性邊界。

開發人在回路人工智能(HITL-AI)系統仍面臨重大挑戰。如何將人類融入AI增強的態勢感知與決策(或反向整合),將呈現多樣化形態。研究表明人機共享決策將持續存在(Blaha,2018年;van den Bosch & Bronkhorst,2018年),核心問題在于決策權的讓渡邊界及組織多重理性的協調機制。量子開放系統理論在HITL-AI設計中的應用,亦為重新評估既有研究開啟新路徑。

AI系統開發與應用始終涉及人類決策流程。任何形式的AI采用都將保留人類決策元素,但研究者與實踐者需明確界定適宜委托機器智能的范疇(Floridi & Cowls,2019年)。需清醒認知:AI無法超越訓練數據提供新功能(Kauffman & Roli,2022年),亦無法預判反事實結果(Pearl & Mackenzie,2018年)。此類局限不應阻礙AI提升決策的實踐,但需將HITL-AI視為需聯合優化的復雜社會技術系統(如構建結構理性決策框架)。因此,人類在HITL-AI系統中的角色響應機制將呈現多元化演進。應對這些挑戰,需確保概念演進與技術進步同步,持續監控以保證決策的結構理性與多方利益攸關者的共贏。

付費5元查看完整內容

在高度受限與擁擠環境中協調機器人集群的復雜任務,常因機器人獲取精確環境狀態信息的能力受限而受阻——此類信息對引導群體達成目標至關重要。挑戰源于環境中固有的不確定性與不可預測性,影響智能體與環境的交互。然而,密集活性物質研究表明,協調行為可通過自組織原則涌現,即簡單的局部社交互動催生復雜全局構型與模式。本論文旨在利用密集活性物質的必然特征,實現無全局控制與顯式他機狀態信息下的機器人集群自發協同。具體而言,自適應堵塞控制技術通過非計劃接觸交互促成集群涌現性協調。該技術依賴機器人間的接觸與碰撞(基于位置噪聲估計與環境變化)。通過自主方向調整與個體任務參與度調節,可化解狹窄隧道中的持續性堵塞。進一步改進算法以應對個體故障對群體效能的負面影響:主動接觸響應(ACR)算法為堵塞控制機制注入容錯性,將故障機器人重定位至低干擾位態,確保隧道內交通流持續暢通與任務完成。

擁擠受限系統的這些特性同時應對多智能體強化學習(MARL)的基礎性挑戰。通過共享環境建立間接通信通道,智能體可估計并推理其他智能體活動的統計特征,從個體視角直接降低環境的非平穩性。數值仿真表明,利用局部物理交互與環境隱式通信可提升多智能體強化學習場景的收斂性與可擴展性。

最終構建數學模型闡釋并驗證自然集群在擁擠狹窄自生隧道中(無需全局控制或顯式通信)表現的自組織行為。該模型與生物實驗中觀測的多階段掘進速率相吻合,揭示接觸與局部交互對自然群體自調控行為的關鍵調控作用。

? 第二章介紹了生物與機器人集群中利用局部交互作為協調技術的背景與文獻綜述,涵蓋共識主動性(stigmergy)在多智能體強化學習場景中的應用,并綜述多智能體系統容錯技術。
? 第三章提出自適應協議方法,用于學習預防受限多機器人掘進任務中的擁堵問題,展示長期真實機器人實驗的實證結果。
? 第四章詳述主動接觸響應方法,增強第三章所述堵塞控制算法的容錯性,呈現真實機器人實驗結果并與基線算法對比。
? 第五章轉向深度強化學習在擁擠受限環境中的多智能體協調,探討通過虛擬信息素或共識主動性提升收斂性的方法論,并與既有基線算法進行比較。
? 第六章展示活體集群協調與適應技術的最新發現,構建螞蟻掘洞實驗的分析與仿真模型。
? 第七章總結全文,強調核心貢獻并展望未來研究方向。

付費5元查看完整內容

隨著工作邊界的擴展與未來形態的演進,人類與機器將共享更具協作性的工作空間,實現成員間的自由協同。在此背景下,需明確信息在團隊成員間的流通機制,以確保人機信息交互的高效性與準確性。共享態勢感知(SSA)——即個體獲取并解析非自身信息源信息的程度——為構建上述信息交換的設計準則提供了有效框架。本研究提出增強/虛擬現實(AR/VR)環境下共享態勢感知的初步設計原則,旨在幫助設計者:(1)基于基礎原則構建高效界面;(2)通過系統性文獻綜述開發的測量工具評估候選界面設計效能。研究目標通過以下專項實驗達成:1) 論證AR支持任務中SSA的重要性;2) 闡述支撐SSA所需的設計指南與測量工具;3) 采用SSA衍生的AR界面開展用戶研究,驗證文獻提煉準則的有效性。

本文通過互補性章節深入解析SSA構成要素及相關設計準則,探討SSA與AR/VR系統信號檢測的關聯性,以及用戶與界面SSA測量對目標成果的促進作用。最終章節整合各章研究成果,系統回應本論文的核心研究問題與目標。

第二章論述初始用戶研究,通過合作搜索任務分析人類績效,初步識別SSA信息在同類任務中的效用價值。非SSA導向的界面設計缺陷分析為SSA初步準則的提煉提供了啟示。本章同時介紹一種輔助測量工具,該工具雖作為人類SSA間接度量指標開發,亦可作為AR/VR頭顯設備的通用可用性評估或生物力學測量工具。

第三章開發AR/VR頭戴式顯示器(HWD)角急動度測量指標,使設計者能基于特定AR界面評估用戶運動質量。該指標既可識別界面用戶需求特征,也可作為AR/VR普適化進程中疲勞度與損傷風險的量化依據。延續此研究脈絡,第四章聚焦AR/VR HWD力與扭矩復合測量方法的開發與驗證。結合角急動度指標,該測量體系通過提供用戶工作負荷、疲勞度等客觀基準數據,深化AR/VR HWD運動數據分析,同時具備安全監控與其他數據測量功能。基于此類數據,機器成員可深度認知用戶的疲勞度、損傷傾向等影響即時能力的要素,進而優化人機協作效能。

第五章系統梳理SSA文獻體系,初步構建基于SSA原則的界面評級工具。該工具類似于SAGAT型評估體系,可供開發者量化用戶SSA水平,檢驗界面設計對SSA的增強效果。后續研究中,本調查工具將用于驗證本章開發的界面準則對用戶SSA的提升作用。

最終章節通過實證研究完善SSA原則體系并驗證測量指標。本研究采用VR界面,整合前期實驗數據與第五章文獻綜述成果,系統驗證已確立的原則與測量方法。研究成果不僅支持SSA增強型團隊協作的預防性設計,還可實現設計方案的實時與回溯評估,推動界面迭代優化。相較于第二章初始研究,本測試平臺顯著增強交互性,通過提升搜索任務復雜度迫使用戶深度依賴系統組件,從而在主動強化SSA的同時驗證其有效性(詳見章節詳述)。

付費5元查看完整內容

大語言模型(LLMs)為可解釋人工智能(XAI)提供了一種前景廣闊的研究路徑——通過將復雜的機器學習輸出轉化為易于理解的敘述,使模型預測更貼近用戶認知,從而彌合先進模型行為與人類可解釋性之間的鴻溝。 當前,最先進的神經網絡與深度學習模型等AI系統常因缺乏透明度被視為“黑箱”。由于用戶無法充分理解模型的決策邏輯,其對AI結論的信任度往往不足,進而導致決策效率降低、責任歸屬模糊以及潛在偏見難以察覺。因此,如何構建可解釋AI(XAI)模型以贏取用戶信任并揭示模型的內在機制,已成為關鍵研究挑戰。隨著大語言模型的發展,我們得以探索基于人類語言的LLMs在模型可解釋性領域的應用潛力。

本綜述系統性回顧了LLMs賦能XAI的現有方法體系與解釋生成評估技術,剖析了相關挑戰與局限,并考察了實際應用案例。 最后,我們展望未來研究方向,強調需通過LLMs發展更具可解釋性、自動化、以用戶為中心且融合多學科智慧的XAI新范式。

1 引言 近年來,人工智能(AI)技術的飛速進步推動了深度學習等復雜模型的快速發展。AI模型已在醫療、金融等諸多領域展現出卓越能力[72][30]。然而,隨著模型復雜度的提升,其決策過程因缺乏透明度而難以追溯[12]——這種被稱為"黑箱"的問題嚴重制約了用戶信任,尤其在醫療和金融等關鍵領域的應用推廣[15]。盡管學界持續致力于提升AI模型的可解釋性[59],但缺乏機器學習背景的專家仍難以理解系統決策邏輯。

透明度的缺失將直接導致三重困境:

在醫療場景中,醫生可能無法理解模型推薦特定治療方案的原因,導致難以采信其建議;

在金融領域,分析師若無法解讀AI市場預測的依據,則可能對模型輸出猶豫不決;

更廣泛而言,這會降低決策效率、模糊責任歸屬,并掩蓋潛在偏見。

可解釋人工智能(XAI)正通過創新方法提升神經網絡等前沿模型(如圖像識別中的卷積神經網絡CNN、序列數據處理中的循環神經網絡RNN、圖像生成中的對抗生成網絡GAN)的可解釋性,力求在保持準確率等性能指標的同時增強透明度[12]。XAI的核心在于平衡模型效能與可理解性,這一挑戰貫穿所有應用場景[119][144][27]。有效的解釋機制能建立用戶信任、確保責任追溯,并促進AI倫理應用。

大語言模型(LLMs)的革新價值: 作為連接復雜AI系統與XAI的橋梁,LLMs憑借其自然語言處理能力[90]正在多個領域發揮關鍵作用:

醫療:輔助診斷與個性化診療[130],例如在醫學影像分析中,LLMs可解釋模型為何將肺部掃描標記為異常,并指出特定疾病關聯特征;

金融:支持風險評估與市場預測[143];

自然語言處理(NLP):賦能文本分類、摘要生成與情感分析等任務。

LLMs通過以下方式推動XAI發展:

動態解釋生成:理解用戶問題后生成情境化解釋[109][123][125];

架構可視化:直接解析復雜機器學習模型的結構與輸出邏輯[77];

反事實推演:通過簡單提示即可識別預測關鍵特征并生成對比解釋(如研究[16][97]所示)。

這些實踐印證了LLMs在提升AI決策透明度和可信度方面的巨大潛力,為構建跨領域可解釋AI系統開辟了新路徑。

如圖2與表1所示,本研究系統探討了基于大語言模型(LLMs)的可解釋性實現路徑,重點論述以下三類方法:

  1. 事后解釋法(Post-hoc Explanations) 對應因果可解釋性,通過分析特定輸入如何導致特定輸出,為機器學習(ML)模型的預測結果提供歸因解釋。例如:當圖像分類模型將某病理切片判定為惡性腫瘤時,該方法可定位影響決策的關鍵圖像區域。

  2. 內在可解釋設計(Intrinsic Explainability) 面向工程師的可解釋性需求,通過LLMs參與機器學習模型架構設計,使模型自身具備解釋能力。典型實踐包括:利用注意力機制可視化神經網絡決策路徑,或構建模塊化推理鏈條。

  3. 人本敘事生成(Human-Centered Narratives) 旨在建立信任導向的可解釋性,借助自然語言將模型輸出轉化為符合用戶認知的敘事。以醫療場景為例:當AI預測患者未來五年高血壓風險較高時(基于高膽固醇史、家族病史、年齡體重等因素),即使當前血壓正常,系統可生成如下解釋:

"盡管患者目前血壓值在正常范圍內,但結合其高膽固醇病史(+37%風險權重)、一級親屬高血壓家族史(+28%風險權重)及BMI指數(+15%風險權重),模型預測五年內患病概率達68%。建議加強生活方式干預與定期監測。" 此類敘事幫助醫生理解預測依據,從而建立決策信任。

本綜述還將探討解釋效果的評估技術及其在實際場景中的應用范式。

圖片 挑戰與局限分析 如圖3所示,我們圍繞三個維度討論LLMs實現AI可解釋性的瓶頸:

隱私與社會規范沖突:醫療數據脫敏需求與解釋詳盡性之間的平衡;

系統復雜性管理:多模態模型(如結合CT影像與電子病歷的診斷系統)的跨模態解釋生成;

領域適配難題:金融領域術語(如"量化寬松")與法律文書語義的精準轉換。

通過圖4的顯著圖(Saliency Maps)對比,我們進一步分析不同LLM架構(如Transformer、MoE)在可解釋性側重上的差異。最后提出未來研究方向:通過模型架構創新與敘事策略的協同優化,構建兼具性能與透明度的新一代可解釋AI系統。

付費5元查看完整內容

隨著太空探索的加速發展,以及在極端環境中工作的機器人和人類數量的增加,我們必須實施多智能體自主協調,以確保在本質上通信不友好環境中可安全操作。據所知,目前尚無多智能體調度算法能夠獨立推理通信延遲。一個必須解決的關鍵缺口是開發一種單智能體調度器,能夠在不確定的觀察下決定何時行動,這可以成為分布式多智能體調度的基礎。現有研究已經提供了關于時間推理的見解,即建模觀察不確定性和在時間約束下調度事件。我們既需要在存在不確定觀察延遲時決定何時調度事件,也需要在智能體之間進行穩健的協調。面對不確定性調度事件是一個挑戰,原因在于不可控制的外部事件、未知的觀察延遲以及智能體之間不確定的通信所導致的復合不確定性。本論文提出了一系列貢獻,最終展示了一個穩健的單智能體任務執行器,該執行器使用我們的調度器在多智能體環境中進行協調,盡管存在觀察延遲。實現這一點需要深入理解如何檢查具有不確定延遲的時間約束的可控性,定義一個對不確定觀察延遲具有魯棒性的調度器,將該調度器集成到現有的高層任務執行器中,并制定多智能體的協調策略。我們展示了該調度器具有預期的性能特征,并通過一個受人類太空飛行啟發的場景,在實驗室中進行了多智能體在不確定通信下的執行演示。

本論文的結構如下。第 2 章將提供更詳細的問題陳述,包括用于測試不確定通信的分布式協作和協調的場景描述。第 3 章將概述我們解決該問題的方法。第 4 章將提供本論文的第一項技術貢獻,首先是解決觀察延遲建模問題,然后提供一個可用于檢查具有觀察延遲的時間約束是否可滿足的程序。第 5 章介紹了延遲調度器,這是一種新穎的策略,用于決定在觀測延遲的情況下何時采取行動。在第 6 章中,我們將延遲調度器定位為可部署到實際硬件中的高級任務執行器。第 7 章最后介紹了一種用于不確定通信環境的多智能體協調架構。第 8 章中的討論為本論文畫上了句號,為本研究中的決策提供了更多背景信息。

付費5元查看完整內容

隨著人工智能(AI)的出現,基于個人經驗和判斷進行行動和思考的自主概念為未來的自主決策鋪平了道路。這種未來可以解決相互依存的多計算系統這一復雜領域的問題,而這些系統面臨的主要挑戰是,它們之間的相互作用會產生不可預測且往往不穩定的結果。為相互依存計算系統設想和設計人工智能驅動的自主性至關重要,它涵蓋了從物聯網(IoT)到網絡安全等各種用例。這可以通過克隆人類決策過程來實現,克隆過程要求人類在決定如何行動之前,先感知未知的隨機環境,執行行動,最后評估感知到的反饋。每個人都會根據自己的行為特征和推理,主觀地評估反饋是否令人滿意。上述步驟的重復迭代構成了人類的學習過程。因此,其核心思想是將人類的認知注入到相互依存的計算系統中,使其轉變為人工智能決策體,模仿人類的理性行為屬性,自主優化其主觀標準。

無人駕駛飛行器(UAV)或多接入邊緣計算服務器(MEC)等相互依賴的計算系統的快速發展帶來了海量數據和嚴格的服務質量(QoS)要求。當這些系統以自主方式行動時,它們會表現出競爭行為,因為每個系統都想自私地優化自己的主觀標準。這就引入了非合作環境中交互決策的概念,即每個系統的反饋都取決于其他系統可能相互沖突的行動。因此,本文利用博弈論來有效捕捉非合作環境中相互依賴的計算系統之間的戰略互動,并證明存在解決方案,即穩定的均衡點。均衡點被認為是穩定的解決方案,因為每個系統都沒有單方面改變自身行動的戰略動機。為了以分布式方式確定這些均衡點,我們采用了強化學習(RL)技術,該技術可使相互依存的自主計算系統在隨機環境中利用自身行動和經驗的反饋,通過試錯進行智能學習。此外,傳統的強化學習方法還加入了獎勵重塑技術,通過契約理論考慮自主互聯計算系統之間類似勞動經濟學的安排,并通過貝葉斯信念模型考慮它們的行為特征。同時利用博弈論和強化學習與獎勵重塑技術,是向自感知人工智能(SAAI)邁出的一步。本文證明,它極有可能成為構建基于人工智能的自主決策相互依賴計算系統的主要組成部分,并能有效地應用于各種應用領域。

圖 1.1: 總體決策框架

本文貢獻點

本文首先分析了所使用的數學工具的理論基礎。此外,除了傳統的單智能體環境,還引入了多個非集中式低復雜度框架,根據人工智能原理將相互依存的多智能體計算系統轉化為自主決策者。在多智能體應用環境中,提出了以第 1.1 節所述 IDU 約束為特征的非合作博弈,并應對了由此帶來的挑戰。具體來說,博弈論與強化學習的融合帶來了新穎的低復雜度分布式學習框架。此外,通過注入人類認知屬性,傳統的 RL 框架得到了豐富,從而使決策過程更加有效。證明了納什均衡點的存在,并表明基于人工智能的自主相互依存計算系統能夠接近這些均衡點,而無需集中式閉合解決方案。通過建模和仿真,在各種實際應用案例中對所提出的框架進行了評估。本論文的主要貢獻如下。

1.引入了新穎的低復雜度分布式決策框架,將傳統的資源有限、相互依賴的計算系統轉變為自主、智能的計算系統。我們研究了兩種情況: (a) 完整信息情景,即計算系統可以交換所有必要信息,并以分布式方式收斂到均衡點;以及 (b) 不完整信息情景,即利用強化學習讓智能相互依賴計算系統以自主方式接近均衡點。對這兩種情況下的運行性能進行了實證評估。

2.在處理非合作博弈的應用領域,通過證明博弈是潛在的或子/超模的方式,用數學方法證明納什均衡點的存在。如果環境是完全可觀察的,則采用傳統的閉式求解方法,如最佳響應動力學,反之,則采用各種強化學習算法,從經驗上接近納什均衡點。

3.通過利用契約理論和貝葉斯信念,將人類認知和行為特征分別納入決策框架。此外,當在信息不對稱的環境中運用契約理論時,提供了優化問題的閉式激勵解的完整證明,這反過來又從一個非凸問題正式轉化為一個凸問題。通過適當地將這些人類意識屬性納入獎勵重塑的強化學習框架,計算系統可以自主優化其主觀目標并做出有效決策。這是向增強型自我意識人工智能邁出的一步。

4.除了多智能體設置,還將強化學習應用于單智能體問題,例如離線深度強化學習,表明基于 RL 的決策智能體比許多替代策略(例如基于機器學習(ML)的方法)能帶來更好的結果。

5.通過在廣泛的應用領域進行大規模模擬,對所提出的決策方法進行了實證評估,突出了這些方法的主要操作特點。此外,還引用了與其他方法的詳細比較評估,強調了所引入框架的優越性。

圖 3.7:移動邊緣計算中的人工智能無人機數據卸載框架

付費5元查看完整內容

無人駕駛技術的采用促進了對機器人蜂群系統的多學科研究,尤其是在軍事領域。受生物群解決問題能力的啟發,這些系統具有從局部互動中產生全局行為的優勢,從而減少了對集中控制的依賴。在機器人蜂群中創造突發行為的傳統方法要求蜂群具有可預測和可控制的特性,同時具有明確的局部規則和對所有智能體的全面了解。在反蜂群交戰中,蜂群系統需要一種全局策略,這種策略應具有魯棒性并能適應動態環境,同時盡量減少對完整知識的依賴。本研究探討的是一個反向問題:設計局部規則,以近似于通常基于每個無人機的完整知識和通信的突發行為。目標是創建分散區域,在這些區域中,防御方無人機利用在模擬數據基礎上廣泛訓練的神經網絡模型。從涉及三個攻擊方和一個防御方的交戰中提取的數據被組織成代表不同特征的各種輸入集。訓練后的回歸分析確定了與甲骨文算法相比能生成最佳防御方航向角的特征集。結果表明,神經網絡模型比oracle更有效地優化了更短的交戰時間,驗證了使用經過訓練的網絡代替傳統算法的可行性。

付費5元查看完整內容

現有的決策計算模型往往局限于特定的實驗設置。造成這種限制的主要原因是無法捕捉決策者對情況的不確定性。本文提出了一個計算框架,用于研究神經科學和心理學中不確定情況下的決策制定。框架主要側重于決策者對世界狀況的概率評估,即他們的 “信念”。具體來說,它基于部分可觀測馬爾可夫決策過程(POMDPs),結合貝葉斯推理和獎勵最大化來選擇行動。利用感知決策和社會決策方面的各種實驗數據,證明了基于信念的決策框架的可行性。框架解釋了感知決策實驗中決策者的實際表現與他們對實際表現的信念(即決策信心)之間的關系。它還說明了為什么在許多情況下這種評估會偏離現實。這種偏差通常被解釋為次優決策的證據,或選擇和信心的不同過程。我們的框架對這些解釋提出了挑戰,它表明,一個優化收益的規范貝葉斯決策者也會產生同樣的偏差。此外,在定量預測人類在社會決策任務中的行為方面,方法優于現有模型,并提供了對潛在過程的洞察。結果表明,在涉及大型群體的決策任務中,人類采用貝葉斯推理來模擬 “群體心理”,并對他人的決策做出預測。最后,將方法擴展到關于他人的多個推理層次(心智理論層次),并將服從作為群體決策的一種策略聯系起來。這個擴展框架可以解釋人類在各種集體群體決策任務中的行為,為大型群體中的合作與協調提供了新的理論。

圖 1.1: 基于信念的決策框架。智能體通過行動、觀察和獎勵與世界互動。智能體無法完全觀測到世界的狀態,只能根據觀測結果和智能體的內部世界模型,以概率方式表示世界的狀態。智能體的目標是根據當前狀態的概率分布來制定策略,即所謂的信念

付費5元查看完整內容

多智能體自主系統與實時規劃有關的研究日益增多,本論文就是對這一研究的貢獻。多年來,由移動智能體組成的自主系統已被證明是用于探索(如太空機器人)、軍事(如搜救行動)和工業應用(如谷歌自動駕駛汽車)的高效、穩健和多功能工具。隨著自主技術日趨成熟,部署多個自主智能體來完成復雜的任務在許多不同的應用中都受到了廣泛關注。如果單個智能體可以完成一項任務,那么多個智能體就有可能更快地完成任務。然而,引入多個智能體會使整個系統變得更加復雜,因為現在的智能體需要能夠有效地相互協作。在沒有有效協作機制的情況下隨機引入智能體,可能會對生產率產生負面影響。

本論文的研究目標是使多智能體自主系統在現實應用中無處不在。我們采用了自下而上的方法來開發算法機制,以應對我們在實現這一目標的道路上所面臨的挑戰。

對于在動態環境中運行的智能體來說,能否成功執行任務取決于它能否有效地導航到目標位置。如果我們在環境中引入更多的智能體,路徑規劃的要求就會更高,因為現在智能體之間必須把彼此當作動態障礙物來對待。路徑規劃算法不僅需要避開障礙物,還需要足夠快的速度,以便在移動智能體在導航過程中遇到意外障礙時重新規劃。此外,路徑規劃算法還需要保證智能體能夠在滿足機械約束條件的情況下穿越路徑。

我們開發了一種基于隨機優化的同步重規劃矢量粒子群優化算法(SRVPSO),通過避開靜態和動態障礙物來找出成本最優的路徑。所提出的算法通過應用同步重新規劃策略,減少了路徑規劃的計算時間。SRVPSO 算法還能在一些車輛約束條件下工作,如車輛尺寸和轉向角。此外,還開發了一種不同地形的可穿越性評估方法,以便在未知環境中進行無風險、穩健的導航,同時優化總成本。

由移動智能體群組成的自主系統需要一個有效的任務規劃器來成功完成一系列任務。任務規劃器所面臨的挑戰是如何為每個智能體確定最優化的任務數量和相關任務。為了解決多智能體自主系統任務規劃過程中的任務分解和任務分配問題,我們開發了一個折中視圖(CV)模型和一個基于最近鄰搜索(NNS)的模型。結果表明,這些模型因其反應式管理結構而非常有效,能成功完成任務。NNS 模型能有效地解決智能體的分解問題。它還具有任務切換能力。

任務規劃器的多目標優化框架可確定任務所需的智能體數量。任務規劃器利用所開發的任務分解方法,最大限度地減少完成任務的時間以及智能體的數量。多目標框架的輸出是帕累托最優值,然后將其作為決策框架的輸入,根據用戶定義的一些約束條件和優先事項確定優化的智能體數量。在測量完成任務的時間時,任務規劃器利用先前開發的路徑規劃器模擬智能體在環境中的導航軌跡,以提供最準確的估計。

然而,正在進行的任務可能會受到突發事件的影響(如一些天氣事件、智能體的意外維護要求等)。未來任務的規劃取決于正在進行的任務,因為它提供了對資源可用性的估計。需要一個現實的預測模型,利用過去任務的信息,對當前任務的完成情況進行統計估計。

我們開發了一個基于人工神經網絡的預測模型,根據以往任務的信息預測任務的完成時間。該預測模型旨在為潛在的任務規劃者提供指導。利用這一數值模型,未來的規劃者可以預測所需的資源,而無需經過優化過程。上述所有算法工具都通過大量的模擬結果和實時實驗進行了演示。

付費5元查看完整內容
北京阿比特科技有限公司