人工智能(AI)作為成功范式已廣泛應用于多領域,但在偏遠地區部署或弱連通場景下實施時,常需在數據采集源頭就近完成推理計算。本研究致力于探索AI模型優化路徑,推動智能算法向邊緣端部署。聚焦農業等領域的便攜式設備應用場景(如氣培容器、無人機、移動機器人),核心目標是通過開發定制化模型并實現"模型尺寸壓縮"與"推理時延優化"。為此系統探索了多維度優化方案:包括樣本數據"相關特征"提取技術、網絡剪枝及量化壓縮等方法。本論文提出涵蓋開發-實現-優化的全棧式框架,重點解決邊緣設備部署所需的輕量化與高效能需求。
研究目標通過三重遞進步驟實現:驗證至少存在一種AI模型可為目標應用提供有效預測;探索并實施模型優化方法;最終在資源受限硬件平臺完成部署。核心創新點在于建立定制模型通用優化流程,并首創基于"模型可解釋性"的特征選擇框架——該方案在農業科技領域尚屬首次系統性實踐。優化體系以特征選擇為主體,輔以剪枝與量化技術形成完整閉環。通過在準邊緣設備部署驗證,實證了本方案的工程可行性。
盡管本文構建了從模型設計到邊緣部署的完整研究鏈,仍需指出若干可深化方向:AI領域與邊緣計算技術持續迭代,硬件加速架構及軟件工具鏈的革新為后續研究開辟廣闊空間。本工作旨在填補現有研究空白并提供方法論參考,寄望所提思想能為未來邊緣智能技術發展提供有效范式支撐。
本文探索了在物聯網(IoT)內動態無人機網絡格局下,高效無人機控制方法的開發。隨著無人機日益融入物聯網生態系統,解決其協同中固有的復雜性和挑戰,對于確保可靠性和效率至關重要。論文始于對物聯網概念和無人機網絡的深入探討,概述了關鍵應用領域,并描述了最先進的解決方案,特別是在定位與跟蹤方面。此外,它還審視了先進的無人機航路規劃策略,強調了其帶來的機遇和所蘊含的關鍵挑戰。論文的主體部分引入了新穎的協作算法,這些算法源于確定性原理和人工智能(AI)技術。這些算法受到鳥群等自然現象的啟發,使無人機能夠協作確定其在動態物聯網環境中追蹤移動傳感器的航線。隨著這些方法有效性的證明,它們如何增強無人機合作并顯著提升跟蹤效率變得顯而易見。基于此基礎,論文接下來介紹了一種創新的深度強化學習(DRL)方案,賦予自主無人機智能體能力,使其能在物聯網網絡內高效地制定最優數據收集策略。通過利用DRL,無人機持續從其環境和行動中獲取洞見,適應變化并做出智能決策以優化其數據收集策略。該方案調整了最先進的算法,使其能有效擴展到現實世界物聯網應用中常見的高維狀態-行動空間。本研究為圍繞無人機-IoT集成的持續討論做出了貢獻,提供了無人機控制的新穎方法。這些方法的引入為在物聯網范式中創建更高效、更自主的無人機網絡開辟了新途徑,凸顯了人工智能在此背景下的未開發潛力,并為該領域的未來發展奠定了基礎。
本文后續包含五個不同的章節:一章是對該研究努力在論文背景下探索的相關文獻進行的綜述;三章——每章專門分析和解決一項既定主要研究目標;以及一章討論研究發現、評估目標達成情況并總結論文。
第2章深入探討了本工作的背景,其結構旨在為建立本論文基礎的相關研究和文獻提供詳盡的分析。該章首先全面概述了物聯網范式,確立了其在當前技術格局中的關鍵作用。然后焦點轉向無人機網絡,討論了其獨特特性、操作應用(重點關注定位與跟蹤方法),以及航路規劃優化面臨的挑戰和當前技術。這為理解當前無人機網絡的能力和局限性奠定了堅實基礎。綜述的后半部分審視了人工智能在無人機集群管理中潛在的作用。它始于評估機器學習在無人機控制中的應用,繼而探討如何使用深度強化學習技術來實現高效無人機導航。
第3章題為“新型無人機控制確定性技術的開發”,涉及在協作式無人機控制領域研究確定性方法。該章通過引入一種新確定性技術的基礎為后續內容鋪墊,隨后對其在無人機控制中的應用進行了廣泛考察。它深入分析了如何利用該技術來加強無人機在用于搜救行動中的移動IoT傳感器追蹤應用中的協作。此外,它評估了該方法的優缺點,揭示了潛在的挑戰和改進領域。本次調查的發現為后續探索人工智能在無人機控制中的應用鋪平了道路,并為不同的控制策略建立了比較框架。
第4章題為“推進無人機控制:集群形成中的深度學習”,標志著從傳統確定性技術向探索深度學習方法在無人機集群形成與群體協同范圍內應用的轉變。本章介紹了設計和實現一個能夠促進無人機集群形成的深度學習模型,重點突出了其創建高效、適應性強的群體編隊的能力,從而進一步提升了純確定性方案的移動IoT傳感器跟蹤性能。對深度學習的探索引領至研究的下一步:利用深度強化學習優化無人機航路規劃。
第5章題為“多智能體無人機航路規劃優化”,代表了本研究歷程的頂點,它整合了從前幾章獲得的認知,以應對一個不同且更復雜的問題:即在IoT情境下優化多智能體無人機航路規劃以實現高效數據收集。本章主要聚焦于引入一種新穎的深度強化學習框架,論證其能夠管理多智能體系統的動態特性,并在多重約束條件下優化無人機航線。詳細的研究和分析揭示了所提出的框架如何能夠產生高效、適應性強的無人機網絡,這些網絡具備處理錯綜復雜現實場景的能力。本章不僅強調了智能系統在無人機航路規劃優化中的重要性,也闡釋了其在物聯網基礎設施內極大推進無人機控制領域的潛力。
最后,第6章總結研究,回顧關鍵發現、其意義以及未來前景。它分析了研究成果,承認了局限性,并提出了未來的研究方向。它以強調智能無人機控制優化中未開發的潛力作結,以激勵該領域的進一步創新。
軟件質量標準要求嚴苛,因其驅動全球眾多系統且需確保安全穩健。軟件開發意味著需遵循高標準并適應需求與依賴項的變更。所幸軟件工程的繁重任務可實現部分自動化,尤其隨著生成式人工智能的最新進展。本論文探索自動化代碼維護方法,聚焦"基于大型語言模型的軟件工程"(LLM4SE),通過模型內部優化與模型間通信推進轉換器模型在檢測修復軟件缺陷中的應用。此處"缺陷"涵蓋執行故障與源代碼錯誤,"源代碼"指軟件產品的原始代碼或程序。核心貢獻包括:開發輕量級轉換器變體用于代碼分類;提出兩套自動化程序修復框架;反思LLM4SE研究的可持續性與透明度。研究首先開發編碼器層組合方案(編碼器屬轉換器類型)用于代碼分類。實驗發現輕量剪枝版CodeBERT變體微調耗時減少至1/3.3(微調指在領域數據上訓練模型),且性能更優——缺陷檢測準確率最高提升2個百分點(滿分100),優于全尺寸模型常規用法。該結果推動語言模型在軟件工程中的能效應用,證明全尺寸模型的"通用方案"對代碼正確性分類等簡單任務并非必需。
除錯誤檢測外,本文呢聚焦生成代碼與人寫代碼的缺陷修復。所提SEIDR框架包含"合成-執行-指導-調試-排序"模塊,實現生成代碼的實時修復,彰顯LLM在"生成-修復"循環中的價值。此循環中,LLM通過代碼執行、失敗測試用例及錯誤日志獲取反饋,最終生成全功能代碼。采用Codex(基于代碼訓練的GPT-3)的SEIDR在程序合成基準測試中解決25項任務的19項,優于前沿遺傳編程算法。論文還提出新型"循環翻譯"(RTT)修復管線。與SEIDR不同,RTT專為修復已存在缺陷的生成/人寫代碼設計,通過將缺陷代碼轉譯至其他編程語言/自然語言再回譯至原語言實現修復。其理論依據是:轉譯過程可能因"均值回歸"現象消除缺陷("均值"指模型訓練數據中普遍存在的無缺陷代碼)。實驗證明:LLM驅動的RTT管線在多個基準測試中解決46個微調模型未能修復的獨特缺陷。此能力使RTT成為多智能體程序修復體系的候選方案——各智能體以不同方法協同維護無缺陷代碼。論文還綜述LLM4SE文獻,反思能效與模型復用可能性:僅27%的論文共享代碼、模型及估算訓練能耗所需完整細節,凸顯遵循開放可復現研究準則的重要性。鑒于LLM存在隨機性等局限,本研究提供實證結果而非理論保證,并討論過度使用LLM的風險(如工具依賴、生成代碼漏檢、基準測試數據污染等)。整體而言,本研究推動LLM適配軟件工程任務,為多智能體系統與多模態模型的自動化代碼修復指明方向。
論文結構
第二章從軟件開發生命周期視角綜述軟件工程自動化背景;第三章概述自然語言處理及LLM架構進展;第四章總結LLM4SE方法、進展與挑戰;第五章闡明研究范圍與機遇(5.3節詳述研究問題、挑戰及對應出版物關聯,5.4節匯總出版物與問題解答);第六章討論有效性威脅、局限、科研與產業影響及未來工作;第七章總結核心結論。為提升可讀性,各背景小節均附框內摘要,研究問題答案與關鍵發現亦作相同標注。
人工智能分布式部署中智能體系統的廣泛應用,對高效選擇影響智能體學習行為的參數、在復雜環境中實施機制設計,以及整合多元智能體能力實現目標結果提出了新挑戰。算法機制設計作為計算機科學、數學和經濟學的交叉領域,致力于開發引導理性智能體達成預期行為的算法,其應用涵蓋資源分配、成本分攤、定價與組合拍賣等場景。然而,傳統方法受限于計算約束與靜態假設,在充滿不確定性與動態變化的環境中效果不佳。
本論文通過融合強化學習(RL)與貝葉斯優化(BO),針對動態多智能體場景開發自適應機制以突破上述局限。我們提出多智能體強化學習(MARL)中機制設計的新框架,依托創新的BO方法高效探索潛力方案。MARL可捕捉隨機環境中多智能體動態交互的復雜性,通過求解底層馬爾可夫博弈以學習聯合策略。評估多MARL場景的計算復雜度問題通過以下方式解決:(I)擴展后繼特征至納什均衡策略的遷移學習;(II)采用BO框架限定評估預算,使問題可解。
所提機制設計框架的有效性在出租車平臺司機服務費設定、共享自然資源開發管理(社會福利最大化)、探索任務機器人集群硬件采購決策優化,以及激勵機制與招募策略設計(委托方目標最優化)等實際應用的基準研究中得到驗證。該方法在現實問題上展現的優越性,凸顯了BO與MARL融合優化復雜多智能體系統的潛力,為機制設計領域的未來研究奠定了堅實基礎。
多機器人協同與協作是提升團隊能力并實現自主建造、農業及未知大區域持續作業等應用場景新型任務的關鍵行為。本研究以“多機器人資源分配問題”為背景探究此類行為,該問題要求將機器人分配至待服務區域。我們尤其關注適用于大規模多機器人團隊的“容錯性方法”。我們引入一種基于圖的建模框架用于多機器人資源分配問題,該框架在表征“區域間關系”與“獎勵模型”方面具有前所未有的豐富性。首先,針對“多智能體覆蓋控制問題”,通過圖神經網絡(GNN)引入“基于圖的計算方法”,其利用學習型智能體間通信策略,在性能與可擴展性上顯著提升。隨后,研究需要顯式協同的“復雜多任務場景下多機器人任務分配問題”,提出一種“基于網絡流的規劃方法”,可在數秒內為大規模問題生成高質量解。進一步將該方法擴展至在線場景,支持任務失敗與意外觀測時的動態重規劃。實證研究表明,這些建模方法與算法通過挖掘多機器人問題中的本質圖結構特征,實現了性能突破并推動領域技術前沿發展。
圖:任務圖(底部)展示任務間優先關系。高亮部分為任務子集,顯示“聯盟職能”(紅色)與“優先關系”(藍色)。例如,在執行“運輸建筑材料”任務前,機器人需在布滿碎片的工地“尋路或清障”。路徑質量直接影響團隊運輸效率;而運輸表現(如材料損毀情況)將決定后續“施工任務”的執行速度與質量。?
第一章將本研究置于“多機器人資源分配”領域框架內。首先,提出多機器人資源分配領域內的問題分類體系,沿著“任務表征抽象度”維度梳理問題模型及其對應研究方法。隨后,深入綜述與“多機器人覆蓋控制”及“多機器人任務分配”密切相關的文獻,這些成果為本研究提供了核心理論支撐。??
??第二章《基于圖神經網絡的多機器人系統覆蓋控制》提出一種創新方法,解決“感知半徑受限條件下的多機器人覆蓋控制”問題。相較于文獻常用基準控制器,該方法通過智能體間通信機制顯著提升控制器的性能與魯棒性。為實現這一目標,在機器人間通信網絡上部署圖神經網絡(GNN),訓練其預測集中式全知控制器的輸入指令,從而生成能夠通過智能體通信應對復雜覆蓋控制場景的控制器。實驗證明,該控制器性能顯著超越基準方法,且具備優異的可擴展性與泛化能力。首次構建基于全球城市真實興趣點特征的覆蓋控制問題數據集,并用于算法驗證。這是圖神經網絡學習型控制器在多機器人覆蓋控制領域的首次應用,展現出巨大潛力。??
??第三章《具有任務優先關系的多機器人協同與協作》針對“多機器人任務分配(MRTA)”問題提出新型建模框架與求解方法體系。首次將“優先級約束”與“多機器人任務”納入MRTA問題,構建名為“任務圖”的建模框架——以圖節點表示任務,邊表示任務間優先級關系。該框架包含的“獎勵模型”能通過豐富函數空間表征關聯任務性能間關系及任務分配聯盟規模與任務績效間關系。基于此模型,開發出利用網絡流優化的任務分配解決方案,其求解速度較現有方法提升數個量級,且計算復雜度與任務執行機器人數量無關,可擴展至無限規模團隊。實驗表明,該方法在保證解質量的同時實現計算效率突破,為任務分配建模框架作出根本性貢獻。?
在第四章中,拓展了多機器人任務分配(MRTA)方法,提出《在線環境下的多機器人優先關系協同與協作》。本章沿用相同“任務圖”模型與“基于流網絡的求解方法”,將其置于在線框架以提升系統魯棒性與性能,并通過高保真仿真器驗證方案有效性。核心在于,在原有MRTA問題中引入“不確定性”考量——任務可能隨機失敗或產生求解器未預期的隨機獎勵。依托流網絡方法的高速求解優勢,以迭代方式重構求解流程,使系統能夠基于已完成任務的獎勵觀測實時重規劃。該方法顯著提升了存在環境不確定性時的規劃性能,甚至因解空間擴展在零誤差條件下進一步優化結果。在高保真城市環境多智能體仿真器中驗證了該在線方法及離線流網絡方法,其中任務獎勵基于仿真器內物理現象量化。實驗表明,該建模方法能有效預測高不確定性復雜任務的性能表現,且相較文獻方法具有顯著優勢。在線框架為原有方案注入魯棒性,并將性能提升至接近最優水平,為任務分配領域持續研究提供了極具前景的框架。?
人工智能分布式部署的代理系統日益普及,對高效選擇影響智能體學習行為的參數、復雜環境下的機制設計應用以及整合多樣化智能體能力達成預期目標提出了新挑戰。算法機制設計(這一融合計算機科學、數學與經濟學的跨學科領域)致力于開發引導理性智能體實現期望行為的算法,其應用涵蓋資源分配、成本分攤、定價與組合拍賣。然而,傳統方法受限于計算約束與靜態假設,在動態不確定環境中的有效性不足。本論文通過整合強化學習(RL)與貝葉斯優化(BO)開發動態多智能體環境中的自適應機制以突破上述局限。
本文提出多智能體強化學習(MARL)中機制設計的新框架,依托新型BO方法高效探索潛力方案。MARL捕捉隨機環境中多智能體動態交互的復雜性,通過求解底層馬爾可夫博弈學習聯合策略。評估多MARL場景的計算復雜度問題通過以下方式解決:(一)擴展"后繼特征"至納什均衡策略的遷移學習;(二)采用基于BO的框架限制評估資源,使問題可解。所提機制設計框架的有效性通過多項實際應用基準研究驗證,包括:出租車平臺司機服務費設定、共享自然資源開發管理(實現社會福利最大化)、機器人編隊勘探任務硬件采購決策優化,以及定義最優激勵與招募策略(最大化委托方目標)。實證結果表明,本方法在現實問題中優于現有技術,彰顯BO與MARL結合優化復雜多智能體系統的潛力,為機制設計未來研究奠定堅實基礎。
多機器人協調與協作是提升團隊能力、實現自主建造、農業及廣域未知環境長期作業等新任務的關鍵行為。本研究聚焦多機器人資源分配問題背景下的此類行為,即機器人需被分配至服務區域。我們特別關注適用于大規模機器人集群的容錯方法,引入一種基于圖建模的多機器人資源分配框架,該框架在表征區域間關系與獎勵模型方面具備前所未有的豐富性。首先解決多智能體覆蓋控制問題,通過圖神經網絡(GNN)實施基于圖的計算,利用學習型智能體間通信策略實現性能與可擴展性提升。隨后針對需顯式協調協作的復雜多任務場景,提出基于網絡流的規劃方法,可在數秒內生成大規模問題的高質量解。我們將此方法擴展至在線環境,實現任務失敗與意外觀測條件下的動態重規劃。實驗證明,這些建模方法與算法通過挖掘多機器人問題中的基礎圖結構,推動技術前沿的進步。
第一章
本章將研究工作置于多機器人資源分配領域進行定位。首先提出多機器人資源分配問題的分類體系,沿任務表征抽象維度梳理問題建模與對應方法(1.3節)。隨后深入綜述推動本研究中覆蓋控制與任務分配工作的核心文獻(1.5與1.6節)。
第二章:基于圖神經網絡的多機器人覆蓋控制
本章提出一種新型有限感知半徑多機器人覆蓋控制方法,相比傳統基線控制器,通過智能體間通信提升性能與魯棒性。我們在機器人通信網絡上部署圖神經網絡(GNN),訓練其預測中心化全知控制器的控制指令,從而獲得能通過智能體間通信應對覆蓋控制難題的控制器。實驗驗證該方法在性能、擴展性與泛化能力上的優勢。2.6節展示基于全球城市特征數據構建的覆蓋控制數據集,用于算法驗證。本研究首次將GNN學習控制器應用于多機器人覆蓋控制,展現該路徑的廣闊前景。
第三章:具備任務優先級關系的多機器人協調協作
本章以新型建模框架與解法體系解決多機器人任務分配(MRTA)問題。提出"任務圖"建模框架:將任務抽象為圖節點,任務間優先級關系抽象為邊;構建包含任務關聯性能與編隊規模-任務效能關系的獎勵模型。該框架啟發基于網絡流優化的機器人任務分配解法,實驗表明其求解速度較現有方法提升數倍,且計算復雜度與機器人數量無關——可擴展至無限規模團隊。本研究對任務分配建模框架作出基礎性貢獻,實現求解速度的量級突破。
第四章:在線環境下的多機器人協調協作
本章將任務圖模型與流解法擴展至在線環境,提升系統魯棒性與性能,并通過高精度仿真驗證。核心在于處理含不確定性的MRTA問題:任務可能隨機失敗或產生預期外獎勵。利用流解法的高速求解特性,建立迭代重規劃機制,依據已完成任務的獎勵觀測動態調整方案。實驗證明該方法在不確定性環境中顯著提升規劃性能,零誤差條件下亦因解空間擴展而優化。通過高精度城市多智能體仿真驗證離線/在線流解法,測量仿真物理現象衍生的任務獎勵。結果表明,本建模方法在復雜不確定任務中有效預測性能,且顯著優于文獻現有方法。在線機制增強系統魯棒性,使性能逼近最優,為任務分配領域后續研究提供極具潛力的框架。
本研究致力于提升人機協同導航能力,使機器人團隊與人類作為整體單元協同移動并完成任務。通常情況下,團隊協同導航受預定義標準操作程序(SOP)的強約束,該程序為成員行動路徑與任務執行提供高層級指導。本研究提出"受限集體運動(CCM)"概念,描述團隊成員如何在環境約束與應用約束平衡下,通過隊內與跨隊導航執行聯合任務。該研究推進機器人在城市搜救、火場人員搜索、軍事建筑物清剿等場景中與人類協同作業的能力。引入機器人可降低人員風險,同時提升團隊執行關鍵任務(如向受困者輸送救援裝備)的效能。現有研究多聚焦純模型驅動方法實現復雜協同導航,但需人工編碼規則,耗費大量領域知識且易導致非自然行為。
本論文創新性融合高層級模型驅動知識表征與低層級行為克隆技術,實現人機團隊協同導航的CCM。采用Unity游戲引擎開展仿真實驗驗證,結果表明:所設計方法可學習高層級行為要素(準確率達88%),并掌握低層級機器人控制行為(準確率達89%)。據現有文獻,此為首個將經典AI方法與前沿機器學習相結合的人機協同導航研究范式。該成果不僅提升協同導航效能,更為聯合制造、社會輔助機器人等協作型人機應用提供技術啟示。
高效人類團隊通過智能通信與協調策略實現協同效用最大化。受此啟發,本研究致力于開發多機器人系統智能協作的計算方法,結合經典模型驅動控制規劃與數據驅動技術(如多智能體強化學習MARL、示范學習LfD),推動機器人群體涌現協同行為。
研究首先采用模型驅動方法解決多機器人系統在不確定性下的協調控制與規劃問題,重點探究環境模型在規劃決策中的高效整合機制。通過設計集中式與分布式協調框架(涵蓋控制輸入與高層規劃層級),構建基于環境模型的多機器人協同體系。創新性成果包括:開發安全關鍵場景下的人本化多機器人網絡協調控制算法,實現主動狀態估計支撐的協同覆蓋規劃與性能概率性保障;進一步擴展方法應對機器人異質性挑戰,構建分層協調框架,使感知型與操作型機器人組成的復合團隊能在空基森林滅火等復雜任務中高效協作。
模型驅動方法雖能提供性能與穩定性保障,但對模型精度與啟發式算法質量敏感。為此,研究引入數據驅動與機器學習方法,探索群體協作行為的涌現機制。設計基于圖結構的通信模型架構,實現異構機器人團隊的高效多樣化協同;受人類心智理論啟發,開發迭代式深度決策理性模型,優化去中心化協作中的行動選擇機制。
近年來,盡管MARL廣泛應用于多機器人任務優化,但強化學習仍存在獎勵函數設計困難與高樣本復雜度等局限。因此,精確建模人類策略行為愈發重要。同時,隨著多機器人系統普及,確保機器人行為價值與人類倫理對齊至關重要。本研究提出多智能體示范學習框架MixTURE,通過混合主動多智能體學徒學習,使機器人團隊能夠從人類示范中學習協作策略,同步實現端到端自主通信協調。該框架兼具示范學習優勢,顯著降低人類示范數據需求與時間成本,提升系統可用性量表(SUS)評分與團隊協作效能,為多機器人系統人機協同開辟新路徑。
本研究核心論點在于:通過賦能機器人團隊高效通信與行動規劃推理能力,可顯著提升群體協作效能。本論文通過以下創新成果驗證該主張:
? 無人機團隊人本化動態環境主動感知協調控制框架:基于卡爾曼不確定性殘差傳播與加權多智能體網絡控制,構建雙準則目標函數,實現無人機群主動推斷野火傳播參數并監測火勢演化[5]。
? 多機器人網絡通信容錯自適應控制架構:通過模型參考自適應控制架構,設計集中式協調控制框架,使多機器人團隊在通信網絡斷續環境下仍能達成協同共識[6]。
? 服務質量保障型多無人機動態區域協同覆蓋規劃:針對空基野火監測需求,提出概率性能保障的預測式協同覆蓋框架,支持無人機群推斷潛在火勢動態,實現高危環境下的長時程協調[7,8]。
? 異構機器人分層協調框架:基于多智能體部分可觀測半馬爾可夫決策過程(MA-POSMDP)構建MA-SARTSA算法,使智能體在動態目標數量未知環境中學習協同監控策略,支持宏動作驅動的異步多智能體決策[9]。
? 高效多樣化通信模型MARL框架:提出異構策略網絡(HetNet),使異質機器人通過二進制中間語言實現零基礎自發通信學習與協作[10]。
? 有限理性下決策優化MARL框架:受認知層級理論k級推理機制啟發,開發信息策略梯度(InfoPG)方法,支持有限理性多智能體進行迭代決策優化[11,12]。
? 人機協同策略學習MA-LfD框架:構建MixTURE混合主動學徒學習框架,使機器人團隊無需人工標注數據即可學習人類專家協作策略,同步實現端到端自主通信協調。
本論文結構如下:第2章系統梳理相關領域文獻;第3章闡述理論基礎與背景知識,重點介紹基于模型的節點級多機器人協調方法[5,6]及其在無人機動態區域覆蓋中的應用;第4章擴展至高危時效敏感場景,提出性能保障型模型預測方法[7,8]與數據驅動方案[9],解決資源受限異構無人機群的環境不確定性協調問題;第6章提出端到端多智能體協同通信策略學習方法[13,10];第7章通過新型MARL架構實現協作機器人團隊的迭代推理與決策理性化[12];第8章構建MA-LfD框架,實現人類領域知識高效遷移與協作策略直接學習。
盡管近年來深度學習取得了巨大進展,但訓練神經網絡所帶來的爆炸式經濟和環境成本正變得不可持續。為了解決這個問題,已經有大量關于算法高效深度學習的研究,這些研究旨在通過改變訓練程序的語義,而不是在硬件或實現級別上降低訓練成本。本文對該領域的研究進行了系統、全面的綜述。首先,我們將算法加速問題形式化,然后我們使用算法高效訓練的基本構建塊來開發分類。我們的分類強調了看似不同的方法的共性,并揭示了當前的研究差距。接下來,我們將介紹評估最佳實踐,以實現對加速技術的全面、公平和可靠的比較。為進一步幫助研究和應用,討論了訓練管道中的常見瓶頸(通過實驗說明),并為它們提供分類緩解策略。最后,我們強調了一些尚未解決的研究挑戰,并提出了有希望的未來方向。 //arxiv.org/abs/2210.06640
在過去的幾年里,深度學習(DL)在廣泛的應用領域取得了顯著的進展,如蛋白質結構預測(AlphaFold [Jumper et al。2021])、文本到圖像合成(DL - e [Ramesh et al。2021])、文本生成(GPT-3 [Brown等人。2020a])等。實現這些性能提升的關鍵策略是將DL模型擴展到非常大的規模,并對它們進行大量數據的訓練。對于大多數應用程序,可訓練參數的數量至少每18至24個月翻一番——語言模型以4至8個月的翻倍時間領先(Sevilla and Villalobos 2021)。大規模人工智能模型的著名例子包括:用于視覺應用的Swin Transformer-V2 [Liu等人2022a],用于語言建模的PaLM [Chowdhery等人2022],用于內容推薦的波斯[Lian等人2021],具有100萬億參數。
盡管擴大DL模型正在實現前所未有的進步,但訓練大型模型已經變得極其昂貴。例如,GPT-3訓練成本估計為165萬美元,使用谷歌v3 TPU[Lohn和Musser 2022],且transformer 模型的低效/幼稚開發將產生相當于5輛汽車終生碳足跡的二氧化碳(CO2) [Strubell等人,2019]。值得關注的是,DL仍然沒有達到許多應用所要求的性能水平:例如,在現實世界中部署全自動駕駛汽車需要人類水平的性能,但還沒有達到。不斷增長的模型和數據規模以達到所需的性能將使當前的訓練策略在金融、環境和其他方面不可持續。事實上,根據目前的趨勢推斷,2026年最大的人工智能模型的訓練成本將超過美國的GDP總量(Lohn and Musser 2022)。此外,DL對計算的高度依賴引發了人們對財務資源有限的用戶(如學者、學生和研究人員(特別是來自新興經濟體的人)的邊緣化的擔憂[Ahmed and Wahed 2020]。我們將在附錄A中更詳細地討論這些關鍵問題。考慮到其計算負擔的不可持續增長,DL的進步需要更多的計算效率訓練方法。一個自然的方向是消除學習過程中的算法效率低下,以減少DL訓練的時間、成本、能量和碳足跡。這種算法高效的深度學習方法可以通過多種方式改變訓練過程,包括:改變數據或樣本呈現給模型的順序;調整模型的結構;改變優化算法。這些算法改進對于實現有效深度學習訓練所需計算負擔的估計下界至關重要,目前的做法導致的負擔大大超過了該下界[Thompson等人,2020]。
此外,這些算法增益與軟件和硬件加速技術相結合[Hernandez和Brown 2020]。因此,我們相信算法高效的邏輯學習提供了一個巨大的機會來增加邏輯學習的收益并降低其成本。雖然最近涌現的算法效率論文支持了這一觀點,但這些論文也表明,算法效率方法的研究和應用受到碎片化的阻礙。不同的指標被用來量化效率,這產生了不一致的加速方法的排名。評估是在狹窄或特征不佳的環境中執行的,這將導致不正確或過于寬泛的結論。在討論算法效率方法時,缺乏反映它們的廣度和關系的分類法,這使得人們很難理解如何遍歷加速環境,將不同的方法結合起來并開發新的方法。因此,本文的核心貢獻是組織算法效率文獻(通過受[Von Rueden等人2019]啟發的分類法和調研),以及對影響報告和實現加速的實際問題的技術描述(通過評估和實踐指南)。我們的討論始終強調這兩個重點的關鍵交集:例如,算法效率方法是否會導致實際的加速確實取決于方法(通過我們的分類法可以理解)和計算平臺(通過我們的從業者指南可以理解)之間的交互。
我們的貢獻總結如下:
有了這些貢獻,我們希望改進算法效率的研究和應用,這是計算效率深度學習的關鍵部分,需要克服現有研究面臨的經濟、環境和包容相關的障礙。本文主要分為四個部分:第2節概述了DNN訓練和效率度量以及算法加速問題的形式化。第3節使用廣泛適用的加速方法的構建塊以及它們影響的訓練管道組件來開發我們的分類法。第4節根據我們的分類法對加速文獻進行了全面的分類,并討論了研究機會和挑戰。第5節和第6節分別討論了比較不同方法的最佳評估實踐和選擇合適的加速方法的實際建議。最后,第7節總結并提出了算法效率領域的開放問題。
高動態范圍(HDR)成像是一種允許廣泛動態范圍的曝光的技術,這在圖像處理、計算機圖形學和計算機視覺中很重要。近年來,利用深度學習(deep learning, DL)進行HDR成像取得了顯著進展。本研究對深度HDR成像方法的最新發展進行了全面而有見地的調研和分析。我們根據(1) 輸入曝光的數量/領域、(2) 學習任務的數量、(3) 新的傳感器數據、(4) 新的學習策略和(5) 應用將現有的深度HDR成像方法分層和結構化地分為五類。重要的是,我們就每個類別的潛力和挑戰提供建設性的討論。此外,我們回顧了深度HDR成像的一些關鍵方面,如數據集和評估指標。最后,我們指出了一些有待解決的問題,并指出了未來的研究方向。
//www.zhuanzhi.ai/paper/21f0195fc7f10bbc05b66d88ada499d9
深度學習HDR成像
高動態范圍(HDR)成像是圖像處理、計算機圖形/視覺和攝影的一個重要領域,是一種比傳統成像技術允許更大的動態范圍曝光的技術。它的目標是準確地代表在真實場景中捕捉到的各種強度級別,從陽光到陰影[1],[2]。使用HDR成像,真實世界的照明可以被捕獲、存儲、傳輸,并在各種應用中充分使用,而不需要線性化信號和處理固定值[3]。傳統HDR成像主要采用專用HDR相機采集HDR圖像[4]、[5]、[6]; 然而,這些相機對于一般用戶來說是非常昂貴的。另一種方法是使用渲染工具從虛擬環境中創建HDR內容。然而,這種方法主要是在娛樂行業,如游戲和虛擬現實(VR)[3],[4],[7]。除了上述方法外,一種常見的方法是利用專門設計的算法,從低動態范圍(LDR)相機捕捉的視覺內容中重建HDR圖像。在這些算法中,有兩種常用的方法。第一種是通過融合同一場景不同曝光時間的多個LDR圖像[3],[8],[9]來生成HDR內容。然而,由于在不同曝光下捕捉LDR內容需要使用特定的軟件/硬件技術,因此通常很難創建數據集。因此,第二種方法是從單曝光圖像[10],[11],[12],[13],[14]生成HDR內容。
深度學習(Deep learning, DL)已被應用于HDR成像中。基于DL的HDR成像方法常常在各種基準數據集上實現最先進的(SOTA)性能。深度神經網絡(DNN)模型是基于多種架構開發的,從卷積神經網絡(CNNs)[9]、[10]、[16]到生成對抗網絡(GANs)[17]、[18]、[19]。一般來說,基于SOTA - DNN的方法有五個主要方面的不同: 考慮輸入LDR圖像的數量和域[9],[10],[14]的網絡設計,在多任務學習中HDR成像的目的[20],[21],不同的傳感器被用來獲得深度HDR成像[22],[23],[24],新穎的學習策略[17],[25],[26],和實際應用[27],[28],[29]。本研究對深部HDR成像方法的最新發展進行了全面和系統的綜述。先前的研究[4],[5],[6],[30],[31]主要集中在傳統的HDR成像算法上,特別是動態場景中的去重影方法[5],[31],圖像和亮度域中的多次曝光融合[4],[6],以及用于HDR重建的基于堆棧的算法[30]。與這些現有的調研不同,本研究強調了DL的重要性,并系統全面地調查了深HDR成像的最新進展。
圖1 基于深度學習的HDR成像的層次和結構分類
本研究的主要貢獻有三方面: (I)我們提供了深度HDR成像方法的全面概述,包括問題定義、數據集、評估指標、分類和應用。(II)我們對深度HDR成像的最新趨勢進行了層次和結構上的分析研究,并對每個類別的機遇和挑戰提出了見解。(III)從整體上討論HDR成像面臨的開放挑戰和問題,并明確未來的發展方向,為該領域的進一步研究提供指導。在接下來的章節中,我們將討論和分析深度HDR成像的各個方面的最新進展。圖1顯示了本研究使用的結構分類和層次分類。本文的其余部分組織如下。在第2節中,我們定義了HDR成像問題、數據集和評估指標。在第3節中,我們回顧和分析了SOTA監督下的方法,包括多次曝光和單次曝光HDR成像/視頻方法。第4節的重點是聯合HDR成像和其他學習任務,例如,圖像超分辨率。在第五節中,我們研究了使用新型相機傳感器的最新深度HDR成像方法。第6節介紹使用新穎學習范式的方法,例如元學習。第7節講述應用,接著是第8節,在那里我們討論開放的問題和未來的方向。
未來方向與結論
基于DL的方法與現有技術的利弊。早期方法[34],[183],[184]的常用方法是通過優化對不同曝光的多個LDR圖像進行對齊,從而生成HDR圖像。然而,這些方法有兩個明顯的缺點。首先,他們未能處理復雜的背景和大的運動。其次,基于光流的對齊算法不能在飽和區域和遮擋區域生成新的內容。相比之下,基于dl的方法[9],[33],[49]更好地解決了大前景運動中產生的偽影。此外,基于DNN的光流算法可以更好地對齊LDR圖像,并在飽和和遮擋區域生成新的內容。總的來說,基于DL的方法表現出了顯著的性能提升。
深度HDR成像的曝光支架選擇。曝光支架的選擇是深HDR成像的一個重要因素。這取決于幾個關鍵因素。第一個是場景的動態范圍。曝光值(EV)決定曝光補償,是一個用于括號的術語。
網絡設計中的特征表示。在HDR成像中,特別是在多曝光HDR圖像重建中,特征表示是一個重要的因素。使用注意力機制從LDR圖像學習特征是常見的;然而,它需要更多的計算。
數據高效學習。深度HDR成像的一個挑戰是需要大規模標記數據集來訓練DNN模型。
計算高效的學習。根據我們的綜述,SoTA多曝光DHR圖像重建方法包括特征編碼、合并和重構。編碼階段依賴于學習,利用注意力或單應性來排除失調特征;合并階段還需要避免有害的特征。
跨任務一致性的潛力。基于多任務學習的HDR成像研究變得更加實用。對于多任務學習,現有方法大多依賴于序列學習或聯合學習。然而,這些方法產生了相當大的計算成本和需要高質量的數據集。
新型傳感器的潛力。在第五節中,我們回顧并分析了使用最近開發的傳感器(如事件攝像機和熱傳感器)的深度HDR成像技術。這些傳感器通常捕獲具有較高HDR的場景。
GNN在HDR成像中的潛力。注意力和非局部特征聚合[33],[75]已被證明對深度HDR成像有效。然而,這些方法僅利用相同尺度下的LDR圖像的相似斑塊。
對現實世界的HDR。深度HDR成像是一種實用的技術,但它僅限于現實場景。