近年來,將AI賦能應用部署至邊緣端的訴求與能力顯著增長。然而,邊緣設備在算力、面積與功耗方面的限制,與AI應用對底層神經網絡規模、深度與能力的持續提升需求形成矛盾。此類應用通常具有數億至數十億參數的大內存占用特征,并通過矩陣運算產生高計算需求,導致其成為諸多架構問題的極端案例。為解決諸如"內存墻"等架構挑戰,計算機架構師與工程師開發了多種解決方案、框架與技術。面向內存計算架構、SIMD協處理器、神經網絡引擎等專用系統的模擬裝置已不同程度地提出與實施,但多數存在共同局限——設計時僅考慮有限實驗場景,通常僅與傳統系統進行對比。鑒于AI應用架構選擇的多樣性,孤立評估單一方案或對比融合多方案的異構系統變得極為困難。現代計算架構挑戰的復雜性及異構系統普及趨勢,使得架構設計空間探索的不可遍歷性成為未來架構發展的阻礙。
為此,本博士論文提出ALPINE框架——基于gem5-X模擬器構建的全系統級計算機架構框架,并通過集成開發的工具與方法論,支持新型異構邊緣架構的實施、建模與關鍵指標提取。該框架通過在通用系統全系統級仿真內核中集成多種新型加速器與接口建模能力,為現代神經網絡架構探索奠定基礎,并支撐未來研究。
利用ALPINE框架,我們首先實現對CPU近端模擬內存計算單元的建模,該單元通過指令集擴展接口執行恒定時間的矩陣向量乘法運算(AI應用常見瓶頸)。通過對多層感知機、循環神經網絡與卷積神經網絡等AI應用的廣泛探索,聚焦關鍵子區域分析,我們驗證了該方案的應用優勢,揭示了跨核通信這一新興瓶頸,并證明相較傳統SIMD向量化系統可實現最高20.5倍加速與20.8倍能效提升。針對通信瓶頸,ALPINE框架內建模的無線暫存器可實現核間高速數據傳輸,使測試卷積神經網絡額外獲得20%性能提升。
基于ALPINE框架的高度可擴展性,我們重構加速器模型以支持CPU近端小規模脈動陣列建模。以Transformer模型為測試案例,驗證其在全應用層面最高可實現89.5倍加速。通過ALPINE集成的脈動陣列與模擬內存計算雙模型,我們能夠在同系統中對比兩種加速方案的性能、能效與功能取舍,并與配備SIMD協處理器與大容量緩存的系統進行橫向評估。
為拓展ALPINE設計空間異質性維度,我們進一步研究基于總線傳輸接口的遠端模擬內存計算單元,并與近端方案進行對比。該探索揭示了多進程神經網絡中負載均衡與數據傳輸開銷的影響機制,通過優化先進負載均衡算法,我們在多種卷積網絡中實現額外加速與能效提升(最高超5倍)。
本論文研究表明,通過實施應用至加速器的映射、瓶頸隔離、架構工具與指標分析等方法,不僅能實現異構架構探索,更能揭示其實際效能。ALPINE框架具備充分通用性,可高效支持未來新型加速器模型、配置方案及神經網絡瓶頸的探索。
關鍵詞:全系統級仿真,計算機架構,人工智能,機器學習,深度學習,異構架構,神經網絡,推理,內存計算,加速器,多層感知機,循環神經網絡,卷積神經網絡,Transformer模型,接口。
隨著無人機技術成本持續降低、制造門檻不斷下降,民用創新、商業應用、軍事部署及政府項目對高速可靠飛行自組織網絡(FANET)的需求日益迫切。相較于傳統移動自組網,FANET具備瞬態三維拓撲與去中心化特性,這加劇了路由碰撞、網絡擁塞及傳輸延遲問題。該環境所需的路由協議必須確保在飛行器動態進出通信范圍時維持穩定連接。盡管眾多傳統與新型路由協議已在各類仿真器中測試,卻始終缺乏基準化評估體系。本論文創新性地在ns-3平臺完成十種主流FANET協議對比研究,首次實現10/30/50+節點的大規模仿真基準測試,揭示現有協議性能瓶頸及三維仿真缺陷,并構建基于應用場景的自組網協議決策樹。
在研究安全多路徑規劃過程中,開發兩項新型協議與一項增強協議:創新"持續運動協議"實現多方安全計算框架下的非間斷實時運算;"碰撞化解協議"使飛行器在保持航向目標同時自動微調軌跡規避碰撞;升級版"路徑交匯預測協議"引入飛行器尺寸定義的幾何輪廓邊界線,結合用戶可調安全裕度參數,顯著提升碰撞路徑預測精度,突破傳統中心線預測模型局限。最終聚焦三維高斯-馬爾科夫移動模型,提出基于航空器設計參數與速度特性的FANET設備分類體系,并研發改進型環境影響因子模型,大幅提升仿真真實性。
本論文架構如下:第一章闡釋研究背景、技術挑戰、核心目標及理論貢獻;第二章系統綜述MANET/VANET/FANET通信路由協議學術進展;第三章基于ns-3平臺首次完成十大FANET協議性能對比,結合隨機游走與高斯-馬爾科夫移動模型建立統一評估框架;第四章以姚氏百萬富翁問題為理論基礎,研究飛行器間非信任環境下的安全信息共享機制;第五章提出改進型高斯-馬爾科夫移動模型,融合節點速度特性與環境影響因素;第六章總結研究成果并規劃后續研究方向。
眾多系統需在分布式智能體間分配任務,并要求各參與者優化有限資源以高效完成任務。在智能體數量少、環境穩定的場景中,存在搜索最優任務與資源分配的算法。此類系統可通過集中式策略規劃與智能體協調實現優化。但在智能體數量龐大或環境高度動態、不確定的復雜場景中,傳統方案效能下降。現實系統(如無線傳感器網絡、智慧城市車輛協同、無人機集群編隊)往往兼具復雜性與環境擾動敏感性。本論文針對動態多智能體系統的任務與資源分配挑戰做出貢獻,開發可擴展的去中心化算法——基于智能體局部知識優化任務與資源分配,提升系統在真實場景中的效用。我們通過三項遞進式創新解決該問題:首先開發基于強化學習的任務分配算法(根據任務完成質量優化分配,并基于歷史績效動態調整探索策略);其次提出資源分配算法(通過強化學習評估任務價值,優化有限資源在受托任務中的配置);最終整合前兩項成果形成動態環境下的綜合解決方案,并增強其對通信中斷、惡劣天氣等擾動的魯棒性。通過代表性系統仿真驗證各模塊性能,并以海洋環境監測系統為案例評估整體方案。
為實現研究目標,我們分步研究并整合解決方案:
貢獻1:任務分配算法
提出四類協同算法,使智能體通過強化學習優化任務分配策略,并根據經驗動態調整系統探索程度。算法支持智能體評估他者任務執行能力、分配任務,并基于當前認知與能力探索需求采取行動。
貢獻2:資源分配算法
引入結合時間維度資源需求函數近似與強化學習的資源優化算法,適用于共享資源競爭與任務優先級排序場景。
貢獻3:層次化多目標任務與資源分配綜合算法
開發整合前兩項貢獻的算法,適應動態系統中智能體構成與能力變化,解決多競爭目標優化難題,并支持智能體自組織角色分工。
三項貢獻共同應對1.3節所述挑戰,達成1.2節定義的研究目標。
論文結構
第一部分:概述多智能體系統相關概念、理論與既有成果。
第二部分:詳述核心研究內容、算法設計及海洋監測案例評估。
第三部分:總結成果、展望未來研究方向與應用潛力。
章節安排
? 第2章:解析多智能體系統核心概念、運作環境與分布式系統應用。
? 第3-5章:分別探討任務分配難題(第3章)、有限資源優先級分配(第4章)、多智能體強化學習應用及現實挑戰(第5章)。
? 第6章:剖析分布式智能體系統組織結構、特征與自組織行為。
? 第7章:以無線傳感器網絡(特別是海洋監測案例)貫穿概念闡釋。
? 第8章:形式化定義智能體系統,確立任務與資源分配問題框架。
? 第9章:聚焦任務分配算法開發。
? 第10章:設計任務優先級驅動的資源分配算法。
? 第11章:整合任務與資源分配方案,實現1.2節全局問題求解,并增強智能體間協同自組織能力。
? 第12章:基于海洋環境傳感器網絡的案例研究(惡劣動態環境中驗證算法可靠性)。
? 第13章:總結研究成果與目標達成度,探討應用場景及未來擴展方向。
圖1.3:智能體系統中的任務分配。智能體??持續接收類型??的任務集(需執行類型??與??的子任務)。首幅圖示中,其將??類任務分配給最優智能體??,但將??類任務分配給非最優智能體??。次幅圖示顯示??通過學習確認??為??類任務最優執行者,遂調整鄰居關系(剔除??并納入??)。
圖1.4:多智能體系統中的行動優化。兩圖展示智能體學習優化行動以響應任務請求的進程。首幅圖中,??將??類子任務分配給??、??類分配給??,但??與??均未優化資源配置以優先處理對應任務。次幅圖中,??與??通過資源重配置分別優化執行??與??類任務的價值(針對??的需求)。
圖1.5:多智能體系統中的鄰居關系。首幅圖中,??將??類任務分配給未優化的??,而專精??類任務的??雖存在卻不在??的鄰居范圍內。處于??鄰居范圍的??雖無法直接執行??類任務,但可連接至??。次幅圖示顯示??通過學習承擔任務中繼角色,使??間接擴展鄰居范圍至??,實現??類任務的最優執行。
深度學習通過自動化關鍵任務并實現超越人類的準確度,已在多行業引發革命性變革。然而,這些優勢主要依賴部署于云端的巨型神經網絡,其能耗驚人。本論文提出兩類新型框架與算法,將深度學習模型部署邊界拓展至微型邊緣設備——此類設備通常在計算資源有限且環境噪聲復雜的場景下運行:
(1)高效邊緣AI新框架。開發了通過濾波器剪枝與高效網絡設計降低推理成本的方法。CUP框架提出層級濾波器聚類剪枝技術實現模型壓縮與加速;CMP-NAS框架構建視覺搜索系統,優化小型邊緣模型與大型服務器模型協同工作,在保持高精度前提下實現80倍計算成本削減。
(2)魯棒邊緣AI新方法。開發了在降低推理成本同時增強現實噪聲魯棒性的技術。REST框架擴展剪枝應用范圍,使網絡效率提升9倍、運行速度加快6倍,且具備對抗高斯噪聲與對抗樣本的魯棒性;HAR方法將多分支神經網絡的早期退出機制擴展至訓練階段,在類別不平衡最優精度,同時節省20%推理算力;IMB-NAS框架通過超網絡適配策略優化不平衡數據集的神經架構,相較從頭搜索節省5倍計算資源。
研究成果對工業界與社會產生重大影響:CMP-NAS技術支撐時尚與面部檢索服務的邊緣部署案例,在亞馬遜公司內部向數千名研發人員展示;REST技術通過手機實現居家睡眠監測功能,獲多家新聞媒體重點報道。
邊緣計算的優勢在于利用網絡邊緣的遠程計算資源運行相對弱小的終端設備工作負載,而云計算則依托地理位置更遠但性能更強大的遠程設備提供計算能力。這兩大范式的融合可實現優勢互補——即某一范式的短板恰為另一范式的強項。以深度學習為例,其工作負載需要大量算力支持,而物聯網(IoT)設備等低功耗終端往往無法滿足此類需求。通過將任務卸載至云邊連續體,算力薄弱的終端可訪問強大遠程節點的計算資源,其中遠程加速器虛擬化技術正是關鍵實現手段。本論文重點研究基于深度學習推理的GPU加速器虛擬化在云邊連續體(涵蓋終端設備、邊緣節點與云端)中的應用潛力。盡管存在專用機器學習加速器(如張量處理單元TPU),但GPU憑借其普及度、可用性與技術支持成為首選方案。云邊計算的異構性(硬件與軟件多樣性)、延遲約束及節點動態可用性等問題構成了加速器虛擬化的主要挑戰,本研究通過三大核心領域貢獻實現突破。
首先,論文提出名為AVEC的透明化遠程加速器虛擬化框架。通過應用編程接口(API)攔截技術,終端設備運行的應用程序可將原定本地GPU處理的工作負載片段,經網絡重定向至配備GPU的遠程節點執行。該技術僅卸載GPU內核計算,使得本地CPU持續運行,從而降低終端計算資源壓力。本文深入探討了該框架的架構設計、功能特性與性能表現。
其次,研究探索卸載工作負載在網絡節點中的部署方式。相較于虛擬機,容器技術憑借輕量化虛擬化優勢更適用于異構云邊環境。針對節點動態失效問題,本文提出無狀態容器遷移方案,特別適用于深度學習推理任務的連續性保障。
第三,論文建立工作負載調度與部署策略體系。通過制定最優節點選擇機制,結合設備性能指標與網絡狀態參數,實現任務在云邊連續體中的智能調度。研究量化分析了設備配置、網絡帶寬等指標對系統性能的影響,并據此設計啟發式調度算法。
AVEC框架的優勢體現于輕量化透明虛擬化、特定負載執行時間縮減及多CPU架構兼容性。通過基于Caffe深度學習庫的多場景測試,驗證其在實驗室環境中最高可達7.48倍加速比(相比終端本地執行),同時保持低部署延遲與無縫遷移能力。盡管存在遠程虛擬化開銷,但性能提升效果顯著。
論文結構如下: 第一章 概述研究主題,明確待解決的核心問題與研究目標。
第二章 系統梳理領域前沿文獻,揭示當前研究空白及本論文的創新定位。
第三章 闡述相關理論基礎,定量化界定研究目標。
第四章 詳述基于API攔截的加速器虛擬化框架設計,論證其應對異構性挑戰的技術優勢。
第五章 通過容器化方案,實現工作負載快速部署與透明實時遷移,闡明功能需求的必要性。
第六章 構建云邊環境下的工作負載調度模型,建立基于多維度指標的啟發式調度機制。
第七章 通過三組測試案例,驗證虛擬化效能、部署遷移性能與調度策略有效性。
第八章 總結研究成果,展望待解決問題與未來研究方向。
隨著太空探索的加速發展,以及在極端環境中工作的機器人和人類數量的增加,我們必須實施多智能體自主協調,以確保在本質上通信不友好環境中可安全操作。據所知,目前尚無多智能體調度算法能夠獨立推理通信延遲。一個必須解決的關鍵缺口是開發一種單智能體調度器,能夠在不確定的觀察下決定何時行動,這可以成為分布式多智能體調度的基礎。現有研究已經提供了關于時間推理的見解,即建模觀察不確定性和在時間約束下調度事件。我們既需要在存在不確定觀察延遲時決定何時調度事件,也需要在智能體之間進行穩健的協調。面對不確定性調度事件是一個挑戰,原因在于不可控制的外部事件、未知的觀察延遲以及智能體之間不確定的通信所導致的復合不確定性。本論文提出了一系列貢獻,最終展示了一個穩健的單智能體任務執行器,該執行器使用我們的調度器在多智能體環境中進行協調,盡管存在觀察延遲。實現這一點需要深入理解如何檢查具有不確定延遲的時間約束的可控性,定義一個對不確定觀察延遲具有魯棒性的調度器,將該調度器集成到現有的高層任務執行器中,并制定多智能體的協調策略。我們展示了該調度器具有預期的性能特征,并通過一個受人類太空飛行啟發的場景,在實驗室中進行了多智能體在不確定通信下的執行演示。
本論文的結構如下。第 2 章將提供更詳細的問題陳述,包括用于測試不確定通信的分布式協作和協調的場景描述。第 3 章將概述我們解決該問題的方法。第 4 章將提供本論文的第一項技術貢獻,首先是解決觀察延遲建模問題,然后提供一個可用于檢查具有觀察延遲的時間約束是否可滿足的程序。第 5 章介紹了延遲調度器,這是一種新穎的策略,用于決定在觀測延遲的情況下何時采取行動。在第 6 章中,我們將延遲調度器定位為可部署到實際硬件中的高級任務執行器。第 7 章最后介紹了一種用于不確定通信環境的多智能體協調架構。第 8 章中的討論為本論文畫上了句號,為本研究中的決策提供了更多背景信息。
近年來,對無人駕駛車輛等自主實體的研究開始給軍事和民用設備帶來革命性的變化。自主實體的一個重要研究重點是自主機器人群的協調問題。傳統上,機器人模型被用于考慮操作機器人群所需最低規格的算法。然而,這些理論模型也忽略了重要的實際細節。其中一些細節,如時間,以前也曾被考慮過(如執行的歷時)。在本論文中,將結合幾個問題來研究這些細節,并引入新的性能指標來捕捉實際細節。具體來說,我們引入了三個新指標:(1) 距離復雜度(反映機器人的耗電量和損耗),(2) 空間復雜度(反映算法運行所需的空間),(3) 局部計算復雜度(反映蜂群中每個機器人的計算要求)。
將這些指標應用于研究一些著名的重要問題,如完全可見性和任意模式形成。還引入并研究了一個新問題--"門道出口",它抓住了機器人群在受限空間中導航的本質。首先,研究了一類完全可見性算法所使用的距離和空間復雜性。其次,提供了整數平面上的完全可見性算法,包括一些在時間、距離復雜度和空間復雜度方面漸近最優的算法。第三,介紹了門道出口問題,并為各種機器人群模型提供了不同最優性的算法。最后,還提供了網格上任意圖案形成的最優算法。
隨著傳感器技術和由此產生的傳感器分辨率的不斷進步,傳統的基于點的目標跟蹤算法已顯得力不從心,尤其是在使用高分辨率傳感器的自動駕駛汽車、視覺跟蹤和監控等應用領域。這重新激發了人們對擴展目標(ET)跟蹤的興趣,其目的不僅在于跟蹤目標的中心點,還在于跟蹤目標隨時間變化的形狀和大小。
本論文探討了 ET 跟蹤應用領域中最具挑戰性的三個問題。研究的第一個難題是,在非高斯噪聲存在的情況下,需要對具有任意未知星凸形狀的 ET 目標進行精確的形狀和中心估計。提出的方法基于 Student's-t 過程回歸算法,該算法在遞歸框架中定義,適用于在線跟蹤問題。
第二個問題試圖通過定義一種新穎的隨機多面體形狀描述符來放松在估計過程中施加在 ET 目標形狀上的任何約束,包括星凸約束。此外,所提出的解決方案還引入了一種方法,以減輕在 ET 跟蹤應用中因自閉塞而造成的麻煩,因為忽視自閉塞可能會導致 ET 狀態估計出現災難性的偏差。
最后,研究了在雜波和遮擋情況下跟蹤多個 ET 目標的框架,并提出了解決方案。所提出的方法可以在現實場景中估計 ET 目標的中心和形狀,同時考慮到自閉和互閉的挑戰。所提出的方法為每個 ET 定義了一個隨時間變化的狀態檢測概率,即使在相互遮擋造成的不利條件下,也能延長軌跡。此外,建議的算法使用集合成員不確定性模型來約束被遮擋 ET 的關聯和目標形狀不確定性,從而獲得更準確的 ET 目標狀態和形狀估計。
所提方法的性能在自閉和互閉的真實模擬場景中進行了量化,其結果與現有的最先進的 ET 跟蹤應用方法進行了比較。
圖 1.1: 點目標和擴展目標的并排比較。(a): 點目標的單一測量源和生成的測量結果。(b): 多個散射點和 ET 生成的測量結果。
現在,模擬被更頻繁地用于對現實世界或擬議系統進行實驗,以了解系統行為或評估改進策略。隨著時間的推移,大型企業越來越需要開發精密復雜的系統來與同行業競爭。而且,這些企業之間的聯系越來越緊密,就像一個網絡化的企業。這就進一步提高了開發能與其他企業互聯的越來越復雜的模擬的要求。在這方面,分布式仿真已廣泛應用于軍事領域,但在其他領域并沒有得到普及。這背后的原因是,在分布式仿真之間建立通信協議需要專業技術知識。科研行業一直在努力縮小這一差距,其中最重要的工作是制定高級架構(HLA)標準,為分布式仿真模型之間提供通用通信協議。
建模與仿真(M&S)行業也為開發人員提供了大量有關獨立仿真建模的文獻。在這種情況下,概念建模的重點是模型的準確性和效率,而不是互操作性。本研究也對此進行了詳細討論。直到最近,從業人員也一直在努力尋找對底層技術的支持。但隨著標準運行時基礎設施(RTI)和仿真開發平臺支持的引入,這一差距已經縮小。
HLA 標準承諾解決分布式仿真模型之間的互操作性問題,但只能提供語法層面的標準指南。因此,仿真互操作性標準組織(SISO)繼續開展研究,確定了從業人員在語義層面面臨的互操作性問題,并起草了一份互操作性問題清單。然而,已發布的 SISO-STD-006-2010 標準只指出了問題,卻沒有提供語義解決方案。
本研究的主要貢獻是提出了分布式仿真互操作性(DSI)框架,為《商用現成仿真包互操作性參考模型》(SISO-STD-006-2010)中列出的互操作性問題確定了語義解決方案。本研究建議將這些互操作性語義解決方案納入 HLA 對象建模模板規范。這樣做將有助于行業從業人員實現 HLA 的互操作性承諾,并使分布式仿真模型更具可重用性和可組合性。
數字化浪潮正席卷傳統離散制造業,逐步優化了生產車間的工藝條件和生產流程,在這個過程中,邊緣計算快速興起并體現出特有優勢。邊緣計算是在靠近物或數據源頭的網絡邊緣側,構建融合網絡、計算、存儲、應用核心能力的分布式開放體系,就近提供智能化服務,滿足離散制造業在敏捷聯接、實時業務、數據優化、應用智能、安全與隱私保護等方面的關鍵需求,其為離散制造業的數字化、網絡化、智能化轉型提供了強大助力。同時,針對離散制造業的轉型升級需求,其邊緣計算解決方案在不斷發展成熟,相關生態構建和產業布局也正在全球加速展開。在此關鍵時期,中國信息通信研究院聯合工業互聯網產業聯盟共同發布《離散制造業邊緣計算解決方案白皮書》,把握離散制造業目前發展面臨的挑戰及邊緣計算當前的應用現狀,研判邊緣計算為工業現場帶來的真正價值,提出離散制造業邊緣計算實施架構及技術體系,探索邊緣計算解決方案實踐,最后結合當前現狀給出了離散制造業邊緣計算技術和產業化發展建議。
當前,以Hadoop、Spark為代表的大數據處理框架,已經在學術界和工業界被廣泛應用于大規模數據的處理和分析.這些大數據處理框架采用分布式架構,使用Java、Scala等面向對象語言編寫,在集群節點上以Java虛擬機(JVM)為運行時環境執行計算任務,因此依賴JVM的自動內存管理機制來分配和回收數據對象.然而,當前的JVM并不是針對大數據處理框架的計算特征設計的,在實際運行大數據應用時經常出現垃圾回收(GC)時間長、數據對象序列化和反序列化開銷大等問題.在一些大數據場景下,JVM的垃圾回收耗時甚至超過應用整體運行時間的50%,已經成為大數據處理框架的性能瓶頸和優化熱點.本文對近年來相關領域的研究成果進行了系統性綜述:(1)總結了大數據應用在JVM中運行時性能下降的原因;(2)總結了現有面向大數據處理框架的JVM優化技術,對相關優化技術進行了層次劃分,并分析比較了各種方法的優化效果、適用范圍、使用負擔等優缺點;(3)探討了JVM未來的優化方向,有助于進一步提升大數據處理框架的性能.