亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在傳統由人類主導的決策領域,人工智能(AI)正逐步接管多項任務。對此,與AI系統交互的人類決策者可能難以對AI生成信息建立信任。當前決策被概念化為證據積累的建構過程,但此過程可能因交互設計差異呈現不同演化路徑。本研究旨在探究通過對AI建議進行中間判斷時信任的時間演化特征。在線實驗(N=192)發現信任隨時間呈現波動,且對AI建議的中間判斷具有信任強化效應。此外,研究發現參與者行為違背全概率定律,現有建模技術無法捕捉此類現象。因此,采用量子開放系統建模方法(將信任表示為單一概率分布的時間函數)相比傳統馬爾可夫方法,能更優地模擬對AI系統的信任演化。研究成果可優化AI系統行為,引導人類決策者趨向貝葉斯最優理性(在復雜任務環境的時效性決策中尤為重要)。

美國政府內外研究表明,AI信任是復雜概念,但美國防部(DOD)仍將其視為人本AI設計的核心認知過程。AI技術持續發展,在指揮控制(C2)等復雜環境中擴展能力。除功能增強外,AI可主動改變決策空間并實施信息干預(Strich等,2021年)。預測顯示人類將日益依賴AI輸出進行決策(Fuchs等,2023年)。

理解AI技術如何影響人類決策具有必要性。軍事機構正經歷AI驅動的技術與組織變革(Wrzosek,2022年)。多起先進技術事故揭示了自動化系統的潛在危害:伊拉克愛國者導彈誤擊事件(Hawley & Mares,2012年)、文森斯號擊落客機事件(Bisantz等,2000年;Hestad,2001年;Marsh & Dibben,2003年)、美軍黑鷹直升機誤擊事件(Snook,2011年),以及近期阿富汗平民誤殺事件(Denning & Arquilla,2022年),均表明誤解自動化系統信息的災難性后果。這些悲劇的共同點在于自動化技術對人類決策的影響。更令人擔憂的是,人類決策正被機器決策周期主導而非系統輔助(Blair等,2021年)。因此,理解AI對人類決策的影響機制是改進人機交互研究的必經之路。

當前,決策過程普遍被概念化為證據積累的建構性過程。然而,該建構過程可能因交互設計的不同而呈現差異化的演化路徑。本研究通過分析對AI建議的中間判斷,探究信任隨時間演變的特征。在線實驗(N=192)發現:信任度隨時間呈波動狀態,且對AI建議進行判斷會觸發信任強化效應;參與者行為存在現行建模技術無法捕捉的全概率定律違背現象。盡管多種定量與定性方法已部分揭示AI信任及其與系統效能的關系,但結合信任時間演化特征的生成性理論可深化對此的全面理解。因此,采用開放系統建模方法(將信任表征為單一概率分布的時間函數),較傳統馬爾可夫方法與量子技術更能優化AI系統的信任建模。

馬爾可夫動態與量子動態的相互作用為決策動態建模(尤其是人機協同決策)提供了新視角。若人類決策確遵循量子開放系統路徑,開發更優的人機交互策略可能產生突破性成果(Snow等,2022年)。研究成果可優化AI系統行為,引導人類決策偏好趨向貝葉斯最優理性(在復雜任務環境的時效性決策中尤為重要)。盡管研究前景廣闊,仍需深入探索技術細節并驗證其普適性邊界。

開發人在回路人工智能(HITL-AI)系統仍面臨重大挑戰。如何將人類融入AI增強的態勢感知與決策(或反向整合),將呈現多樣化形態。研究表明人機共享決策將持續存在(Blaha,2018年;van den Bosch & Bronkhorst,2018年),核心問題在于決策權的讓渡邊界及組織多重理性的協調機制。量子開放系統理論在HITL-AI設計中的應用,亦為重新評估既有研究開啟新路徑。

AI系統開發與應用始終涉及人類決策流程。任何形式的AI采用都將保留人類決策元素,但研究者與實踐者需明確界定適宜委托機器智能的范疇(Floridi & Cowls,2019年)。需清醒認知:AI無法超越訓練數據提供新功能(Kauffman & Roli,2022年),亦無法預判反事實結果(Pearl & Mackenzie,2018年)。此類局限不應阻礙AI提升決策的實踐,但需將HITL-AI視為需聯合優化的復雜社會技術系統(如構建結構理性決策框架)。因此,人類在HITL-AI系統中的角色響應機制將呈現多元化演進。應對這些挑戰,需確保概念演進與技術進步同步,持續監控以保證決策的結構理性與多方利益攸關者的共贏。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

強化學習是人工智能領域的一個分支,研究智能體在特定系統中通過試錯學習采取行動的方法。其著名案例包括控制真實機器人或在多數人類熱門高難度游戲中實現超人類表現。為開展此類研究,學者通常使用標準化“環境”(如機器人仿真或電子游戲)評估學習方法性能。本文涵蓋以下內容:

  • PettingZoo:提供標準化API與多智能體強化學習參考環境集的庫,已獲廣泛應用;

  • SuperSuit:提供易用標準化預處理封裝器的庫,用于對接學習框架;

  • 街機學習環境(Arcade Learning Environment)擴展:該流行工具被強化學習研究者用于Atari 2600游戲交互,本擴展支持多人游戲模式。

基于上述工具,本文還利用多智能體強化學習開發了一種自然科學研究新方法。“涌現行為”指智能體群體的協調行為(如人行道行人、鳥群編隊、交通車流或股市交易者),代表諸多科學領域中普遍未解的重要現象。本研究首次提出通過多智能體強化學習(MARL)系統搜索多智能體系統中所有可能良性(“成熟”)涌現行為的數學形式化框架,并構建基于深度強化學習的初級實現,可應用于任意環境。實驗表明,在12個多智能體系統中,該方法可發現超百種涌現行為,其中多數為環境設計者此前未知。此類方法有望解答各類開放科學問題,例如:“該系統可能存在哪些行為?”、“何種系統條件促成此類涌現行為?”或“如何調整系統以抑制特定涌現行為?”

付費5元查看完整內容

隨著AI系統在人類事務中的作用日益增強,基于人類行為洞察構建系統的重要性愈發凸顯。特別是遵循人類合理性原則開發的模型,更可能產生產生可問責且可解釋的結果,從而更好地確保系統行為與利益相關者期望的一致性。本論文將呈現基于人類合理性原則的三個應用研究:

(i)合理表征:提出優先級調整后繼表征回復(PARSR)算法——一種融合優先級回放與后繼表征學習的單智能體強化學習算法。兩種機制的結合使算法更具生物學合理性,能夠模擬人類將先前任務知識遷移與泛化至新任務的能力。

(ii)合理推理:構建弱證據效應的實用解釋模型,揭示社會認知中當人類必須考量說服性目標時整合他人證據的反直覺現象。由此推導出遞歸貝葉斯模型,闡釋AI系統與人類利益相關者在存在既定利益時的雙向理解機制。

(iii)合理評估:提出多智能體系統合作行為的可量化普適測度,該測度具有反事實對比性、情境依賴性及環境參數可定制性特征。其核心價值在于區分集體福利的實現路徑——源自真實合作或個體自利行為(兩者可能導致相同結果)。

付費5元查看完整內容

利用僅能部分觀測系統的傳感器,對具有時空演化特征的大規模隨機現象進行建模與監測,是諸多應用領域的核心難題。尤其是在機器人協調與驅動的智能決策中,機器人需基于稀疏測量數據實時預測動態環境全態。本論文旨在推進這一挑戰性問題的研究。緊湊型系統與機器人技術算力的飛速發展,推動了分布式信息物理系統的實際應用爆發式增長。本研究將在理論與實驗層面呈現該領域的進展:首先闡述核觀測器(KO)方法,推導適用于時空演化系統泛化的演化高斯過程(E-GP)模型,論證該方法在非線性流體建模中的有效性,并揭示其與計算流體動力學(CFD)領域公認的Koopman算子理論及動態模態分解(DMD)間的深層理論關聯。進一步研究聚焦動態模型分解分析,以此確定傳感器最優布設位置,實現系統真實狀態的快速精準估計。隨后,論文將探討分布式信息物理系統的具體應用難題——局部環境信息條件下的多智能體協同田間除草。本章在適配E-GP模型的同時,解決動態信息受限環境中智能體任務分配的經典"探索-開發"權衡問題。前述章節構建的理論體系為終章奠定基礎,其中將分析與解決另一挑戰性應用:利用云臺變焦(PTZ)相機實施大規模環境視覺搜索。通過系統化方法整合時空建模與智能決策,本研究為部分可觀測環境下的自主系統優化提供理論支撐與實踐路徑。

本論文提出一種融合基于核的建模、系統理論與貝葉斯濾波的時空監測問題解決框架。監測問題定義如下:基于歷史數據學習獲得的時空現象近似預測模型,在傳感器數量與位置受限條件下,估計存在不確定性的當前潛在現象狀態。本文主張,針對時空現象的預測推理,采用卡爾曼濾波器式預測校正方法(結合最小化傳感器反饋),是應對現實世界不確定性與固有建模誤差的穩健路徑。就該具體問題而言,本研究證明時空函數演化可通過在混合權重上疊加線性動態系統層的平穩核進行建模。相較于現有研究,此方法無需設計復雜時空核,且可適配任意定義域上的正定核(含黎曼流形、字符串、圖結構與圖像等非歐幾里得域)[Jayasumana et al., 2015]。該范式首創研究者[Kingravi et al., 2015a]通過建立基于核模型可觀測性的基礎理論,推導出保障函數演化隱態可通過核模型特征空間內貝葉斯狀態估計器(卡爾曼濾波器)進行估計所需采樣點位數量下限的非保守邊界。作者對該方法的貢獻體現在三方面:其一,通過開發可泛化至相似時空系統(含流體流動等復雜非線性系統)的模型[Whitman and Chowdhary, 2017],為替代高成本數值模擬的高效機器學習模型奠定基礎(服務于設計與自主目的);其二,借助Koopman算子理論分析模型,證明該模型可生成Koopman模態、特征值與特征函數的關鍵理論成果[Whitman et al., 2021b, Jayaraman et al., 2019],由此開發出求解模型線性轉移算子不變子空間的穩健數值算法(克服了傳感器布設前期研究的核心局限)[Whitman et al., 2021b];其三,深入探究時空建模在多智能體動態環境任務執行的實際自主問題中的應用,展示本工作所述方法在不同場景中的適應性與性能提升潛力[McAllister et al., 2020b,Whitman et al., 2021a]。

除時空監測問題的研究外,本論文對自主系統決策領域做出貢獻——該領域與時空監測問題天然關聯,因所選行動不僅影響智能體收益積累,還決定獲取何種傳感器測量。諸多應用場景存在環境已知特征開發與未知特征探索間的權衡(經典"探索-開發"困境),而當測量數據極度稀疏且行動成本高昂時,問題復雜性加劇:自主系統必須基于有限測量推斷全局環境以實現成功。

本工作分析兩個具此特征的現實問題:
其一,工業化農業協同除草問題——面對田間雜草分布與動態生長不確定性,機器人須決策優先處理哪些作物行列;
 其二,云臺變焦相機視覺搜索問題——在大規模城市環境中目標位置不確定條件下,機器人動態決策場景中需高倍率探查的特定區域。

這些應用級自主與控制研究與時空學習預測的理論工作形成互補。

??圖1.1??:對具有復雜不確定動態特性的系統進行建模、監測與控制,是控制學界亟待突破的開放性挑戰。左下象限描述具單尺度動態的線性時不變系統(傳統動態系統反饋控制理論足以應對);右下象限展示隨機單尺度系統(卡爾曼濾波器與高斯優化等方法已獲顯著成功,支撐登月至GPS導航等成就);左上象限表征多尺度動態系統(偏微分方程高效求解是研究熱點);而右上象限所示多尺度隨機信息物理系統(如分布式農業機器人系統、交通網絡、移動/固定傳感器氣象監測系統)的自主決策,仍需基礎理論突破與實踐算法創新。

付費5元查看完整內容

本研究探討人工智能(AI)在決策過程中不斷演變的角色,聚焦AI賦能技術如何與人類決策者互動及其影響。AI系統正加速融入商業管理至信息系統等各行業,或輔助或替代人類判斷。現有文獻強調AI融入生活與工作帶來的變革潛力與挑戰:以ChatGPT為代表的大語言模型憑借數據驅動洞察、效率提升與決策一致性等優勢被廣泛應用,但研究亦揭示需深入理解的領域——AI復制或放大人類偏見的風險、自主決策的倫理影響、人機交互的復雜性。盡管AI輔助、增強或替代人類決策已獲廣泛關注,但通過提示工程與情境應用賦予AI的角色如何影響決策結果、行為模式與建議生成,學界仍缺乏深入探索。

本論文包含四項研究,探討角色定義與目標設定對AI決策行為的影響,揭示精確定義AI角色如何在不同情境中塑造決策結果與人類決策流程。

研究1 通過系統性文獻綜述,論證機器學習與AI工具(如ChatGPT)結合提升文獻分析效率與深度的有效性。研究識別AI整合關鍵領域,揭示研究空白,指出高影響力期刊與主題,為未來研究繪制路線圖。該研究強調跨學科方法對全面理解與發揮AI潛力、應對倫理復雜性的重要性。

研究2 采用"人在回路"(HITL)框架分析AI賦能招聘流程,通過某國際招聘公司18個月質性案例研究,揭示AI工具、招聘專員與尋源分析師協作塑造招聘結果的合作模式。研究表明:AI系統實施需平衡效率與倫理及人本考量,人類判斷、監督與適應力不可或缺;組織領導力、方案適應性與人類自主權是成功關鍵要素。

研究3 通過系列實驗探究AI系統(以ChatGPT為例)被賦予的角色如何影響信息系統(IS)語境下的決策結果。研究發現:當ChatGPT被賦予人類角色時,其決策行為高度復現人類偏見;而作為AI角色時則表現出更高一致性與客觀性。研究揭示提示工程對引導AI系統符合預期決策流程的重要性——無論是模擬人類判斷還是提升決策客觀效率。

研究4 探索AI系統中的"算法厭惡"現象,測試GPT類模型在不同版本與溫度參數下對人工建議與算法輸入的響應差異。研究發現:GPT模型表現出類似人類的算法厭惡傾向,更偏好人工建議,但其表現形式與人類存在差異。該研究將算法厭惡概念擴展至AI系統,強調理解AI如何處理人機建議對設計決策支持系統的重要性,確保AI既能獨立運作又能與人類協作。

總體貢獻

本研究在四方面深化對AI決策角色的理解:

  1. 方法論創新:引入結合AI工具與機器學習的計算文獻綜述方法,識別商業管理領域趨勢、空白與高影響力期刊;
  2. 人機協作洞見:通過招聘案例實證HITL原則,強調人類賦權、自主權與持續適應對有效協作的關鍵作用;
  3. 角色效應驗證:證明大語言模型角色設定顯著影響決策行為——模擬人類角色時復現偏見,AI角色時更趨理性;
  4. 理論邊界拓展:將算法厭惡延伸至AI系統,揭示AI對人機建議的差異化處理機制。

綜上,這些研究為理解AI與人類決策者動態互動提供洞見,強調情境與角色設定對優化AI決策貢獻的重要性,為未來探索AI融入更復雜重大決策場景奠定基礎。

表1.1 研究綜述

研究編號 研究重點 研究路徑、理論基礎與方法論 主要發現 理論貢獻 實踐貢獻
研究1 商業與管理學者如何應對AI在組織中的興起?研究熱點與空白領域為何? 采用結構化主題建模與機器學習方法進行系統性文獻綜述(CLR),結合ChatGPT輔助分析 - 識別44個AI研究熱點(如客戶營銷、AI倫理)
- 揭示體育、應急響應與智慧城市等領域的空白
提出"計算文獻綜述"方法論,結合AI工具提升文獻分析效率 指導研究者鎖定高影響力期刊,優化文獻檢索路徑
研究2 AI賦能的招聘決策中如何平衡效率與倫理?人在回路(HITL)原則如何應用? 對國際招聘機構開展18個月質性案例研究,基于社會技術系統理論與HITL框架 - 發現協作型HITL配置模式
- 揭示行政負擔加重、權力重構等挑戰
拓展HITL理論在AI招聘場景的應用 提出AI招聘實施指南:強效領導力、系統適應性與人本考量
研究3 ChatGPT在信息系統中多大程度能復現人類決策行為?角色設定如何影響決策輸出? 通過提示工程實驗,測試ChatGPT在不同角色設定(人類/AI)下的決策行為 - 人類角色設定下復現決策偏見
- AI角色設定下展現更高客觀性
提出"角色中心決策框架",揭示大語言模型角色工程對決策的影響機制 為提示工程提供設計準則,優化AI決策支持系統的角色配置策略
研究4 AI系統是否存在算法厭惡?GPT模型對人類建議與算法輸入的響應差異如何? 復現經典算法厭惡實驗范式,測試GPT不同版本(3.5/4.0)在多種溫度參數下對建議來源的偏好 - GPT表現出類人算法厭惡傾向
- 對人工建議的偏好強度與溫度參數呈負相關
首次將算法厭惡理論拓展至AI系統,建立"元算法厭惡"概念 為AI協同決策系統設計提供新視角,優化人機建議權重分配機制

付費5元查看完整內容

多機器人協調與協作是提升團隊能力、實現自主建造、農業及廣域未知環境長期作業等新任務的關鍵行為。本研究聚焦多機器人資源分配問題背景下的此類行為,即機器人需被分配至服務區域。我們特別關注適用于大規模機器人集群的容錯方法,引入一種基于圖建模的多機器人資源分配框架,該框架在表征區域間關系與獎勵模型方面具備前所未有的豐富性。首先解決多智能體覆蓋控制問題,通過圖神經網絡(GNN)實施基于圖的計算,利用學習型智能體間通信策略實現性能與可擴展性提升。隨后針對需顯式協調協作的復雜多任務場景,提出基于網絡流的規劃方法,可在數秒內生成大規模問題的高質量解。我們將此方法擴展至在線環境,實現任務失敗與意外觀測條件下的動態重規劃。實驗證明,這些建模方法與算法通過挖掘多機器人問題中的基礎圖結構,推動技術前沿的進步。

第一章
 本章將研究工作置于多機器人資源分配領域進行定位。首先提出多機器人資源分配問題的分類體系,沿任務表征抽象維度梳理問題建模與對應方法(1.3節)。隨后深入綜述推動本研究中覆蓋控制與任務分配工作的核心文獻(1.5與1.6節)。

第二章:基于圖神經網絡的多機器人覆蓋控制
 本章提出一種新型有限感知半徑多機器人覆蓋控制方法,相比傳統基線控制器,通過智能體間通信提升性能與魯棒性。我們在機器人通信網絡上部署圖神經網絡(GNN),訓練其預測中心化全知控制器的控制指令,從而獲得能通過智能體間通信應對覆蓋控制難題的控制器。實驗驗證該方法在性能、擴展性與泛化能力上的優勢。2.6節展示基于全球城市特征數據構建的覆蓋控制數據集,用于算法驗證。本研究首次將GNN學習控制器應用于多機器人覆蓋控制,展現該路徑的廣闊前景。

第三章:具備任務優先級關系的多機器人協調協作
 本章以新型建模框架與解法體系解決多機器人任務分配(MRTA)問題。提出"任務圖"建模框架:將任務抽象為圖節點,任務間優先級關系抽象為邊;構建包含任務關聯性能與編隊規模-任務效能關系的獎勵模型。該框架啟發基于網絡流優化的機器人任務分配解法,實驗表明其求解速度較現有方法提升數倍,且計算復雜度與機器人數量無關——可擴展至無限規模團隊。本研究對任務分配建模框架作出基礎性貢獻,實現求解速度的量級突破。

第四章:在線環境下的多機器人協調協作
 本章將任務圖模型與流解法擴展至在線環境,提升系統魯棒性與性能,并通過高精度仿真驗證。核心在于處理含不確定性的MRTA問題:任務可能隨機失敗或產生預期外獎勵。利用流解法的高速求解特性,建立迭代重規劃機制,依據已完成任務的獎勵觀測動態調整方案。實驗證明該方法在不確定性環境中顯著提升規劃性能,零誤差條件下亦因解空間擴展而優化。通過高精度城市多智能體仿真驗證離線/在線流解法,測量仿真物理現象衍生的任務獎勵。結果表明,本建模方法在復雜不確定任務中有效預測性能,且顯著優于文獻現有方法。在線機制增強系統魯棒性,使性能逼近最優,為任務分配領域后續研究提供極具潛力的框架。

付費5元查看完整內容

多智能體強化學習(MARL)理論的一個核心問題是,了解哪些結構條件和算法原理會導致樣本高效學習保證,以及當我們從少數智能體轉向多數智能體時,這些考慮因素會發生怎樣的變化。我們在多智能體互動決策的一般框架中研究了這一問題,包括具有函數逼近的馬爾可夫博弈和具有強盜反饋的正態博弈。我們的重點是均衡計算,其中集中式學習算法旨在通過控制與(未知)環境交互的多個智能體來計算均衡。我們的主要貢獻如下

  • 提供了多智能體決策最優樣本復雜度的上下限,其基礎是決策估計系數(Decision-Estimation Coefficient)的多智能體廣義化;決策估計系數是 Foster 等人(2021 年)在與我們的設置相對應的單智能體中引入的一種復雜度度量。與單智能體環境下的最佳結果相比,我們的上界和下界都有額外的差距。我們的研究表明,任何 “合理 ”的復雜性度量都無法彌補這些差距,這凸顯了單個智能體與多個智能體之間的顯著差異。

  • 表征多智能體決策的統計復雜性,等同于表征單智能體決策的統計復雜性,只不過獎勵是隱藏的(無法觀察到的),這個框架包含了部分監控問題的變體。由于這種聯系,我們盡可能地描述了隱藏獎勵交互決策的統計復雜性。

在此基礎上,提供了幾個新的結構性結果,包括:1)多智能體決策的統計復雜性可以降低到單智能體決策的統計復雜性的條件;2)可以避免所謂的多智能體詛咒的條件。

由于篇幅所限,正文對研究結果作了非正式的概述,詳細說明放在附錄的第 I 部分。第 II 部分給出了示例。附錄組織概覽見附錄 A。

付費5元查看完整內容

本研究探討了主動拒絕技術(ADT)這種非致命武器的應用及其對人群的影響。通過利用數學建模和模擬技術,本研究揭示了主動阻斷技術對人群行為的影響。本研究在基礎社會力模型的基礎上,加入了一種額外的力量來模擬 ADT 的排斥效果。作為對數學模型的補充,“完善人群敵意交戰規則工作臺”(WRENCH)是一個基于隨機智能體的模擬平臺,可深入了解各種理論 ADT 配置和人工交戰規則下的現實人群反應。通過模擬不同環境場景下的人群特征,這項研究評估了 ADT 的功效和局限性。結果表明,ADT 能有效阻止入侵者進入指定區域,并同時影響人群的整體行為。研究還揭示了 ADT 的有效性取決于各種復雜因素的相互作用,如 ADT 設備的配置、目標人群和環境條件。這項研究的結果有助于進一步了解非致命性武器及其在有效人群管理中的作用。

本手稿共分為六章,循序漸進地介紹了如何理解和分析 ADT 的使用。第 2 章概述了人群動力學、社會認同方法和社會力量模型。通過對這些概念的探討,我們可以深入了解個人身份和群體行為是如何影響整個人群動態的。社會力模型最為重要,因為它是我進行人群行為數學建模實驗和研究的基礎。第 3 章概述了主動阻斷技術,并介紹了主動阻斷系統 (ADS),這是一種非致命的定向能武器,通過對目標造成暫時的不適來控制人群。本章還介紹了利用主動阻斷技術研究其在不同場景下對人體有效性的實驗背景。ADT 計算人體效應終端超模型(CHEETEH)是之前開發的一個模型,旨在描述和模擬人體接觸 ADT 后的反應,本章也對其進行了討論。

第 4 章概述了本研究采用的方法和實驗設置。它詳細介紹了數學建模方法,討論了相關變量,并解釋了如何配置 WRENCH 以納入 ADT 互動。為了進一步分析行為反應,本章還介紹了 WRENCH(基于智能體的模型和仿真工具),它提供了在 ADT 影響下模擬人群行為的能力。WRENCH 用于協助本研究探索 ADT 如何影響人群行為,是數學建模和實際應用之間的紐帶。本章還解釋了實驗的設計,包括 ADT 部署的具體場景,以及如何測量人群行為。第 5 章介紹了 ADT 的有效性及其對人群行為的影響。本章還討論了研究過程中遇到的限制,如假設、限制以及模擬行為與實際行為之間的顯著差異。最后,第 6 章總結了主要發現及其對未來研究的影響。該章提出了未來工作的潛在方向,如完善和重新測試數學模型和模擬,并強調了持續研究的必要性,以更好地了解非致命武力下人群行為的細微差別。

付費5元查看完整內容

隨著人工智能(AI)的出現,基于個人經驗和判斷進行行動和思考的自主概念為未來的自主決策鋪平了道路。這種未來可以解決相互依存的多計算系統這一復雜領域的問題,而這些系統面臨的主要挑戰是,它們之間的相互作用會產生不可預測且往往不穩定的結果。為相互依存計算系統設想和設計人工智能驅動的自主性至關重要,它涵蓋了從物聯網(IoT)到網絡安全等各種用例。這可以通過克隆人類決策過程來實現,克隆過程要求人類在決定如何行動之前,先感知未知的隨機環境,執行行動,最后評估感知到的反饋。每個人都會根據自己的行為特征和推理,主觀地評估反饋是否令人滿意。上述步驟的重復迭代構成了人類的學習過程。因此,其核心思想是將人類的認知注入到相互依存的計算系統中,使其轉變為人工智能決策體,模仿人類的理性行為屬性,自主優化其主觀標準。

無人駕駛飛行器(UAV)或多接入邊緣計算服務器(MEC)等相互依賴的計算系統的快速發展帶來了海量數據和嚴格的服務質量(QoS)要求。當這些系統以自主方式行動時,它們會表現出競爭行為,因為每個系統都想自私地優化自己的主觀標準。這就引入了非合作環境中交互決策的概念,即每個系統的反饋都取決于其他系統可能相互沖突的行動。因此,本文利用博弈論來有效捕捉非合作環境中相互依賴的計算系統之間的戰略互動,并證明存在解決方案,即穩定的均衡點。均衡點被認為是穩定的解決方案,因為每個系統都沒有單方面改變自身行動的戰略動機。為了以分布式方式確定這些均衡點,我們采用了強化學習(RL)技術,該技術可使相互依存的自主計算系統在隨機環境中利用自身行動和經驗的反饋,通過試錯進行智能學習。此外,傳統的強化學習方法還加入了獎勵重塑技術,通過契約理論考慮自主互聯計算系統之間類似勞動經濟學的安排,并通過貝葉斯信念模型考慮它們的行為特征。同時利用博弈論和強化學習與獎勵重塑技術,是向自感知人工智能(SAAI)邁出的一步。本文證明,它極有可能成為構建基于人工智能的自主決策相互依賴計算系統的主要組成部分,并能有效地應用于各種應用領域。

圖 1.1: 總體決策框架

本文貢獻點

本文首先分析了所使用的數學工具的理論基礎。此外,除了傳統的單智能體環境,還引入了多個非集中式低復雜度框架,根據人工智能原理將相互依存的多智能體計算系統轉化為自主決策者。在多智能體應用環境中,提出了以第 1.1 節所述 IDU 約束為特征的非合作博弈,并應對了由此帶來的挑戰。具體來說,博弈論與強化學習的融合帶來了新穎的低復雜度分布式學習框架。此外,通過注入人類認知屬性,傳統的 RL 框架得到了豐富,從而使決策過程更加有效。證明了納什均衡點的存在,并表明基于人工智能的自主相互依存計算系統能夠接近這些均衡點,而無需集中式閉合解決方案。通過建模和仿真,在各種實際應用案例中對所提出的框架進行了評估。本論文的主要貢獻如下。

1.引入了新穎的低復雜度分布式決策框架,將傳統的資源有限、相互依賴的計算系統轉變為自主、智能的計算系統。我們研究了兩種情況: (a) 完整信息情景,即計算系統可以交換所有必要信息,并以分布式方式收斂到均衡點;以及 (b) 不完整信息情景,即利用強化學習讓智能相互依賴計算系統以自主方式接近均衡點。對這兩種情況下的運行性能進行了實證評估。

2.在處理非合作博弈的應用領域,通過證明博弈是潛在的或子/超模的方式,用數學方法證明納什均衡點的存在。如果環境是完全可觀察的,則采用傳統的閉式求解方法,如最佳響應動力學,反之,則采用各種強化學習算法,從經驗上接近納什均衡點。

3.通過利用契約理論和貝葉斯信念,將人類認知和行為特征分別納入決策框架。此外,當在信息不對稱的環境中運用契約理論時,提供了優化問題的閉式激勵解的完整證明,這反過來又從一個非凸問題正式轉化為一個凸問題。通過適當地將這些人類意識屬性納入獎勵重塑的強化學習框架,計算系統可以自主優化其主觀目標并做出有效決策。這是向增強型自我意識人工智能邁出的一步。

4.除了多智能體設置,還將強化學習應用于單智能體問題,例如離線深度強化學習,表明基于 RL 的決策智能體比許多替代策略(例如基于機器學習(ML)的方法)能帶來更好的結果。

5.通過在廣泛的應用領域進行大規模模擬,對所提出的決策方法進行了實證評估,突出了這些方法的主要操作特點。此外,還引用了與其他方法的詳細比較評估,強調了所引入框架的優越性。

圖 3.7:移動邊緣計算中的人工智能無人機數據卸載框架

付費5元查看完整內容

虛擬環境(VE)技術的最新進展,以及虛擬環境在治療和培訓個人方面的應用的增長,為在安全和豐富的環境中進行演練開辟了新的可能性。研究表明,虛擬環境可用于治療創傷后應激障礙(PTSD)患者,但很少有研究提出創建有效環境的良好指導原則。本研究旨在為系統設計提供參考,讓退伍軍人在實際進入該環境之前,在安全的環境中演練潛在的壓力體驗。我們調查了退伍軍人對虛擬環境特定設計組件的反應,以幫助開發對退伍軍人有效的系統。評估了對建議的六種刺激的反應,以及兩種類型的系統視角:第一視角和第三視角。采用的測量方法包括參與者的行為、主觀不適單元(SUD)以及包括心率、心率變異性和呼吸頻率在內的生理反應。對于患有創傷后應激障礙的退伍軍人來說,最有效的系統應該包括一套初始刺激,這些刺激可以進行配置,以便關注個人所經歷的特定創傷,或許還可以改變刺激強度。這些刺激應包括擁擠的房間和驚嚇噪音場景。第一人稱視角和頭戴式顯示器是首選的設計,除非是曾經有過暈動癥的人。這些人應該先在中性的第一人稱 VE 環境中接受網絡暈動癥測試,然后再在演練環境中接受測試。結果表明,創傷后應激障礙患者的心率反應與非創傷后應激障礙患者有明顯不同,創傷后應激障礙患者的 SUD 分數變化提供了有關個人對每種刺激的反應的有用信息。創傷后應激障礙患者在 VE 中也會表現出回避刺激等行為。本研究的結果表明,除虛擬戰斗區域外,其他虛擬環境也能引起創傷后應激障礙患者的行為、情緒和生理反應,因此應進一步研究這些類型的環境是否適用于創傷后應激障礙退伍軍人。

付費5元查看完整內容

現有的決策計算模型往往局限于特定的實驗設置。造成這種限制的主要原因是無法捕捉決策者對情況的不確定性。本文提出了一個計算框架,用于研究神經科學和心理學中不確定情況下的決策制定。框架主要側重于決策者對世界狀況的概率評估,即他們的 “信念”。具體來說,它基于部分可觀測馬爾可夫決策過程(POMDPs),結合貝葉斯推理和獎勵最大化來選擇行動。利用感知決策和社會決策方面的各種實驗數據,證明了基于信念的決策框架的可行性。框架解釋了感知決策實驗中決策者的實際表現與他們對實際表現的信念(即決策信心)之間的關系。它還說明了為什么在許多情況下這種評估會偏離現實。這種偏差通常被解釋為次優決策的證據,或選擇和信心的不同過程。我們的框架對這些解釋提出了挑戰,它表明,一個優化收益的規范貝葉斯決策者也會產生同樣的偏差。此外,在定量預測人類在社會決策任務中的行為方面,方法優于現有模型,并提供了對潛在過程的洞察。結果表明,在涉及大型群體的決策任務中,人類采用貝葉斯推理來模擬 “群體心理”,并對他人的決策做出預測。最后,將方法擴展到關于他人的多個推理層次(心智理論層次),并將服從作為群體決策的一種策略聯系起來。這個擴展框架可以解釋人類在各種集體群體決策任務中的行為,為大型群體中的合作與協調提供了新的理論。

圖 1.1: 基于信念的決策框架。智能體通過行動、觀察和獎勵與世界互動。智能體無法完全觀測到世界的狀態,只能根據觀測結果和智能體的內部世界模型,以概率方式表示世界的狀態。智能體的目標是根據當前狀態的概率分布來制定策略,即所謂的信念

付費5元查看完整內容
北京阿比特科技有限公司