軟件質量標準要求嚴苛,因其驅動全球眾多系統且需確保安全穩健。軟件開發意味著需遵循高標準并適應需求與依賴項的變更。所幸軟件工程的繁重任務可實現部分自動化,尤其隨著生成式人工智能的最新進展。本論文探索自動化代碼維護方法,聚焦"基于大型語言模型的軟件工程"(LLM4SE),通過模型內部優化與模型間通信推進轉換器模型在檢測修復軟件缺陷中的應用。此處"缺陷"涵蓋執行故障與源代碼錯誤,"源代碼"指軟件產品的原始代碼或程序。核心貢獻包括:開發輕量級轉換器變體用于代碼分類;提出兩套自動化程序修復框架;反思LLM4SE研究的可持續性與透明度。研究首先開發編碼器層組合方案(編碼器屬轉換器類型)用于代碼分類。實驗發現輕量剪枝版CodeBERT變體微調耗時減少至1/3.3(微調指在領域數據上訓練模型),且性能更優——缺陷檢測準確率最高提升2個百分點(滿分100),優于全尺寸模型常規用法。該結果推動語言模型在軟件工程中的能效應用,證明全尺寸模型的"通用方案"對代碼正確性分類等簡單任務并非必需。
除錯誤檢測外,本文呢聚焦生成代碼與人寫代碼的缺陷修復。所提SEIDR框架包含"合成-執行-指導-調試-排序"模塊,實現生成代碼的實時修復,彰顯LLM在"生成-修復"循環中的價值。此循環中,LLM通過代碼執行、失敗測試用例及錯誤日志獲取反饋,最終生成全功能代碼。采用Codex(基于代碼訓練的GPT-3)的SEIDR在程序合成基準測試中解決25項任務的19項,優于前沿遺傳編程算法。論文還提出新型"循環翻譯"(RTT)修復管線。與SEIDR不同,RTT專為修復已存在缺陷的生成/人寫代碼設計,通過將缺陷代碼轉譯至其他編程語言/自然語言再回譯至原語言實現修復。其理論依據是:轉譯過程可能因"均值回歸"現象消除缺陷("均值"指模型訓練數據中普遍存在的無缺陷代碼)。實驗證明:LLM驅動的RTT管線在多個基準測試中解決46個微調模型未能修復的獨特缺陷。此能力使RTT成為多智能體程序修復體系的候選方案——各智能體以不同方法協同維護無缺陷代碼。論文還綜述LLM4SE文獻,反思能效與模型復用可能性:僅27%的論文共享代碼、模型及估算訓練能耗所需完整細節,凸顯遵循開放可復現研究準則的重要性。鑒于LLM存在隨機性等局限,本研究提供實證結果而非理論保證,并討論過度使用LLM的風險(如工具依賴、生成代碼漏檢、基準測試數據污染等)。整體而言,本研究推動LLM適配軟件工程任務,為多智能體系統與多模態模型的自動化代碼修復指明方向。
論文結構
第二章從軟件開發生命周期視角綜述軟件工程自動化背景;第三章概述自然語言處理及LLM架構進展;第四章總結LLM4SE方法、進展與挑戰;第五章闡明研究范圍與機遇(5.3節詳述研究問題、挑戰及對應出版物關聯,5.4節匯總出版物與問題解答);第六章討論有效性威脅、局限、科研與產業影響及未來工作;第七章總結核心結論。為提升可讀性,各背景小節均附框內摘要,研究問題答案與關鍵發現亦作相同標注。
復雜工程系統的早期設計決策對系統全生命周期性能、成本及可行性具有決定性影響。隨著工程系統日益呈現信息物理化、多學科交叉與高度互聯特征,基于歷史數據與專家判斷的傳統決策方法常顯不足。為應對早期設計決策挑戰并優化決策質量,模型驅動決策支持系統(DSS)作為集成仿真、優化與數據驅動模型的工具應運而生。然而在復雜工程系統語境下,社會技術性挑戰仍制約DSS的有效實施。本論文通過文獻綜述與工業實證案例研究系統化識別六大核心障礙:
1.跨粒度異構仿真模型集成面臨技術方法論雙重挑戰
2.工程領域間DSS成熟度差異限制協同環境應用
3.非專家用戶因可訪問性差與界面不直觀導致可用性不足
4.實時反饋機制缺失削弱其作為"邊界對象"的功能
5.模型成熟度與可靠性評估指標缺位引發決策誤判風險
6.底層模型演進、可追溯性及可靠性的全生命周期管理缺失
??## 結構??
本論文由7章正文與4篇附錄論文構成,各章內容如下:
??第二章 研究方法論??
論證設計研究方法論(DRM)與參與式行動研究(PAR)對本研究的適配性,繪制研究論文與DRM階段映射關系,通過"關聯貢獻域"(ARC)圖示展現研究的理論框架。
??第三章 理論基礎??
闡述復雜工程系統早期設計決策、基于模型的系統工程、決策支持系統、權衡空間探索及體系仿真范式(含離散事件仿真DES、離散元法DEM與參數化仿真方法)等核心理論。
??第四章 附錄論文綜述??
解析4篇支撐論文的研究焦點(輪式裝載機工程裝備與郵輪艙室案例)、作者在仿真開發與模型驗證中的角色及其對本論文目標的貢獻路徑。
??第五章 綜合成果??
整合實證研究成果,通過工程裝備與船舶案例闡明仿真集成、可持續性指標與復雜工程決策的交互機制。
??第六章 討論與啟示??
評述所提方法的實踐相關性,批判性分析研究局限性與學術探索中的經驗教訓。
??第七章 結論與展望??
凝練研究問題的系統性解決方案,探討工業應用前景,并規劃未來研究方向。
人工智能(AI)作為成功范式已廣泛應用于多領域,但在偏遠地區部署或弱連通場景下實施時,常需在數據采集源頭就近完成推理計算。本研究致力于探索AI模型優化路徑,推動智能算法向邊緣端部署。聚焦農業等領域的便攜式設備應用場景(如氣培容器、無人機、移動機器人),核心目標是通過開發定制化模型并實現"模型尺寸壓縮"與"推理時延優化"。為此系統探索了多維度優化方案:包括樣本數據"相關特征"提取技術、網絡剪枝及量化壓縮等方法。本論文提出涵蓋開發-實現-優化的全棧式框架,重點解決邊緣設備部署所需的輕量化與高效能需求。
研究目標通過三重遞進步驟實現:驗證至少存在一種AI模型可為目標應用提供有效預測;探索并實施模型優化方法;最終在資源受限硬件平臺完成部署。核心創新點在于建立定制模型通用優化流程,并首創基于"模型可解釋性"的特征選擇框架——該方案在農業科技領域尚屬首次系統性實踐。優化體系以特征選擇為主體,輔以剪枝與量化技術形成完整閉環。通過在準邊緣設備部署驗證,實證了本方案的工程可行性。
盡管本文構建了從模型設計到邊緣部署的完整研究鏈,仍需指出若干可深化方向:AI領域與邊緣計算技術持續迭代,硬件加速架構及軟件工具鏈的革新為后續研究開辟廣闊空間。本工作旨在填補現有研究空白并提供方法論參考,寄望所提思想能為未來邊緣智能技術發展提供有效范式支撐。
多機器人協同與協作是提升團隊能力并實現自主建造、農業及未知大區域持續作業等應用場景新型任務的關鍵行為。本研究以“多機器人資源分配問題”為背景探究此類行為,該問題要求將機器人分配至待服務區域。我們尤其關注適用于大規模多機器人團隊的“容錯性方法”。我們引入一種基于圖的建模框架用于多機器人資源分配問題,該框架在表征“區域間關系”與“獎勵模型”方面具有前所未有的豐富性。首先,針對“多智能體覆蓋控制問題”,通過圖神經網絡(GNN)引入“基于圖的計算方法”,其利用學習型智能體間通信策略,在性能與可擴展性上顯著提升。隨后,研究需要顯式協同的“復雜多任務場景下多機器人任務分配問題”,提出一種“基于網絡流的規劃方法”,可在數秒內為大規模問題生成高質量解。進一步將該方法擴展至在線場景,支持任務失敗與意外觀測時的動態重規劃。實證研究表明,這些建模方法與算法通過挖掘多機器人問題中的本質圖結構特征,實現了性能突破并推動領域技術前沿發展。
圖:任務圖(底部)展示任務間優先關系。高亮部分為任務子集,顯示“聯盟職能”(紅色)與“優先關系”(藍色)。例如,在執行“運輸建筑材料”任務前,機器人需在布滿碎片的工地“尋路或清障”。路徑質量直接影響團隊運輸效率;而運輸表現(如材料損毀情況)將決定后續“施工任務”的執行速度與質量。?
第一章將本研究置于“多機器人資源分配”領域框架內。首先,提出多機器人資源分配領域內的問題分類體系,沿著“任務表征抽象度”維度梳理問題模型及其對應研究方法。隨后,深入綜述與“多機器人覆蓋控制”及“多機器人任務分配”密切相關的文獻,這些成果為本研究提供了核心理論支撐。??
??第二章《基于圖神經網絡的多機器人系統覆蓋控制》提出一種創新方法,解決“感知半徑受限條件下的多機器人覆蓋控制”問題。相較于文獻常用基準控制器,該方法通過智能體間通信機制顯著提升控制器的性能與魯棒性。為實現這一目標,在機器人間通信網絡上部署圖神經網絡(GNN),訓練其預測集中式全知控制器的輸入指令,從而生成能夠通過智能體通信應對復雜覆蓋控制場景的控制器。實驗證明,該控制器性能顯著超越基準方法,且具備優異的可擴展性與泛化能力。首次構建基于全球城市真實興趣點特征的覆蓋控制問題數據集,并用于算法驗證。這是圖神經網絡學習型控制器在多機器人覆蓋控制領域的首次應用,展現出巨大潛力。??
??第三章《具有任務優先關系的多機器人協同與協作》針對“多機器人任務分配(MRTA)”問題提出新型建模框架與求解方法體系。首次將“優先級約束”與“多機器人任務”納入MRTA問題,構建名為“任務圖”的建模框架——以圖節點表示任務,邊表示任務間優先級關系。該框架包含的“獎勵模型”能通過豐富函數空間表征關聯任務性能間關系及任務分配聯盟規模與任務績效間關系。基于此模型,開發出利用網絡流優化的任務分配解決方案,其求解速度較現有方法提升數個量級,且計算復雜度與任務執行機器人數量無關,可擴展至無限規模團隊。實驗表明,該方法在保證解質量的同時實現計算效率突破,為任務分配建模框架作出根本性貢獻。?
在第四章中,拓展了多機器人任務分配(MRTA)方法,提出《在線環境下的多機器人優先關系協同與協作》。本章沿用相同“任務圖”模型與“基于流網絡的求解方法”,將其置于在線框架以提升系統魯棒性與性能,并通過高保真仿真器驗證方案有效性。核心在于,在原有MRTA問題中引入“不確定性”考量——任務可能隨機失敗或產生求解器未預期的隨機獎勵。依托流網絡方法的高速求解優勢,以迭代方式重構求解流程,使系統能夠基于已完成任務的獎勵觀測實時重規劃。該方法顯著提升了存在環境不確定性時的規劃性能,甚至因解空間擴展在零誤差條件下進一步優化結果。在高保真城市環境多智能體仿真器中驗證了該在線方法及離線流網絡方法,其中任務獎勵基于仿真器內物理現象量化。實驗表明,該建模方法能有效預測高不確定性復雜任務的性能表現,且相較文獻方法具有顯著優勢。在線框架為原有方案注入魯棒性,并將性能提升至接近最優水平,為任務分配領域持續研究提供了極具前景的框架。?
大型語言模型(LLMs)的持續發展為系統工程領域(尤其是視覺問答(VQA)方向)開辟了新機遇。多模態LLMs能夠同時處理文本與圖形輸入,使其可結合基于模型的系統工程(MBSE)模型的圖形元素與配套文本描述進行綜合解析。本文探究多模態LLMs對系統建模語言(SysML)v1塊定義圖(BDDs)的理解與解釋能力。BDDs是以可視化形式精確描述系統結構元素、屬性、關系與多重性的圖表。我們采用精選的SysML BDD數據集及配套多項選擇題集,對專有與開源多模態LLMs進行評估——該數據集設計用于測試LLMs在布魯姆分類法前兩層級(記憶與理解)的表現,同時分析模型規模對準確率的影響。研究結果揭示了當前哪些LLMs能夠原生解析SysML BDD語法,為未來利用AI代理增強系統建模流程的研究提供方向。
人工智能(AI)與基于模型的系統工程(MBSE)流程的融合,為提升模型理解、驗證及支持活動提供了重要機遇。多模態大語言模型(LLMs)能夠處理文本與圖形輸入,拓展了系統建模語言(SysML)v1模型自動化解析的潛力。塊定義圖(BDDs)作為SysML v1模型的核心要素,是系統結構、屬性與關系的基礎性表征(OMG,2019)。盡管LLMs發展迅速,但其精準解析SysML建模成果的能力仍鮮有研究。現有對多模態LLMs的評估主要集中于通用圖像或圖示推理,而非SysML等特定領域圖形語言(Antol等,2015;Ishmam等,2024;Lin等,2014)。這一空白限制了對LLMs在支持依賴SysML模型解析的工程流程中的效能認知。
本文通過評估當代多模態LLMs對SysML v1.x BDDs的解析能力填補這一空白。我們構建了精選BDD數據集,并設計符合布魯姆分類法前兩層級(記憶與理解)的多項選擇題集。評估涵蓋專有與開源LLMs,分析不同規模模型的性能差異。研究結果為當前LLMs在理解形式化系統建模成果上的優勢與局限提供實證見解,并為未來增強MBSE實踐中AI驅動的支持技術指明研究方向。
在技術飛速進步、市場波動加劇與全球性中斷頻發的時代,有效供應鏈管理需創新方法應對不確定性、復雜性與動態變化。本研究開發并應用一系列新型智能決策支持系統(IDSS),以解決中斷環境下的大規模隨機動態供應鏈網絡問題。通過電子商務、制造業、醫療健康與可持續性等多元領域案例驗證所提系統,具體提出四類彈性IDSS框架:集成先進優化算法、機器學習、強化學習與物流仿真技術,應對重大供應鏈中斷的現實挑戰。首個系統通過移動倉庫與眾包配送優化城市末端配送,顯著降低配送時間、成本與環境影響;第二系統開發多階段隨機動態規劃模型增強全球供應鏈彈性,優化不確定性下的物流運作;第三系統聚焦公平高效疫苗分配,采用數據驅動決策降低短缺風險;第四系統設計穩健可持續的口罩分發與回收網絡,平衡成本效益、環境影響與客戶服務。研究整合精確方法(如并行化隨機對偶動態整數規劃PSDDiP)、強化學習與混合優化策略,在保障可擴展性與計算效率前提下,提升大規模供應鏈實時彈性決策能力。既有IDSS多缺乏此類集成,或未考慮中斷場景,亦未經過大規模實時驗證。實證表明彈性IDSS在提升響應速度、時間管理與成本效益方面潛力顯著。中斷事件中數據可用性缺口與決策動態適應機制的研究,為政策制定者與實踐者提供新洞見。例如,所提在線強化驅動自適應優化(ORDAO)方法,相較交互式多智能體仿真(IMAS)可減少11%配送時間完成同等訂單量。
本論文通過開發整合數據驅動模型、優化算法、仿真與機器學習的IDSS,推動大規模供應鏈物流運營的彈性與可持續性。第二章提出基于隨機建模、行程時間仿真、眾包運力深度學習與強化學習的末端配送IDSS;第三章構建含風險對沖策略的多階段隨機制造供應鏈模型及并行SDDiP算法;第四章設計醫療領域實時需求預測與動態庫存疫苗分發系統;第六章開發閉環供應鏈內口罩可持續分發與回收的魯棒-隨機模型。第五章總結成果,闡明核心貢獻,討論模型局限并展望未來方向。整體研究為行業定制IDSS提供統一框架,增強不確定性下的適應與響應能力。
現實世界中諸多問題需進行序列決策,其中每個決策的結果具有概率性與不確定性,且后續行動的可選性受先前行動結果制約。生成適應不確定性、全局最優且隨狀態空間擴展仍可擴展的策略至關重要。本文提出生成最優決策樹(規定不同結果場景下的應執行動作,同時最大化策略期望收益),結合動態規劃與混合整數線性優化方法,利用問題特定信息剪除狀態空間中無收益貢獻的子集,使方案適用于大規模有限狀態空間問題。實驗證明所提方法能以線性時間復雜度(相對于探索狀態數量)找到全局最優決策樹。
序列決策是兵棋推演、醫療與網絡作戰等領域的核心問題。在此類場景中,智能體采取行動達成目標,但每項行動的產出具有離散性、概率性與不確定性,導致面對多可能未來時難以確定最優行動。此外,可用行動存在復雜條件依賴性(制約策略可能性),同時需考慮遠期收益。本文開發了一種方法,用于定義適應不同行動結果的最優決策序列,并以決策樹形式呈現。
盡管決策樹是機器學習中成熟模型,但其傳統用途為預測——預測型決策樹(DT)的每個分叉對應已知數據特征的組合(其對應結果未知)。而在行動方案(CoA)生成場景中,決策樹的應用轉向策略生成,允許基于先前行動的不確定結果定義最優行動序列。如圖1所示:CoA樹的每個節點代表系統狀態并規定一項行動,其執行結果引發狀態變遷(通過行動結果的概率性分支轉移至子節點,可觸發新行動)。樹終止于葉節點(行動預算耗盡、狀態不允許新行動或目標達成獲取收益)。
圖1:含二元分叉的最優決策樹示例(各節點為帶行動指令的狀態)
本研究核心貢獻為生成全局最優決策樹的算法與優化模型。這些決策樹在最大化策略期望收益的同時,兼顧行動與結果間的復雜依賴關系。通過動態規劃(DP)與混合整數優化(MIO)結合,利用問題特定信息剪除狀態空間無效子集,使方法可擴展至大規模狀態空間問題。雖非首個提出通過部分行動剪枝縮減狀態空間的研究(如Pinto與Fern 2014年工作),但本方法在最終決策模型中不犧牲全局最優性。通過示例驗證方法有效性,并在隨機生成測試案例中展示計算效率——尤其值得注意的是,本方法能以線性時間復雜度(相對于探索狀態數)找到最優決策樹。
所提框架可生成符合以下特征問題的全局最優決策樹:
如第3節示例所示,行動間依賴關系可通過行動與結果的邏輯關系集進行數學與圖形化表達。
多機器人協調與協作是提升團隊能力、實現自主建造、農業及廣域未知環境長期作業等新任務的關鍵行為。本研究聚焦多機器人資源分配問題背景下的此類行為,即機器人需被分配至服務區域。我們特別關注適用于大規模機器人集群的容錯方法,引入一種基于圖建模的多機器人資源分配框架,該框架在表征區域間關系與獎勵模型方面具備前所未有的豐富性。首先解決多智能體覆蓋控制問題,通過圖神經網絡(GNN)實施基于圖的計算,利用學習型智能體間通信策略實現性能與可擴展性提升。隨后針對需顯式協調協作的復雜多任務場景,提出基于網絡流的規劃方法,可在數秒內生成大規模問題的高質量解。我們將此方法擴展至在線環境,實現任務失敗與意外觀測條件下的動態重規劃。實驗證明,這些建模方法與算法通過挖掘多機器人問題中的基礎圖結構,推動技術前沿的進步。
第一章
本章將研究工作置于多機器人資源分配領域進行定位。首先提出多機器人資源分配問題的分類體系,沿任務表征抽象維度梳理問題建模與對應方法(1.3節)。隨后深入綜述推動本研究中覆蓋控制與任務分配工作的核心文獻(1.5與1.6節)。
第二章:基于圖神經網絡的多機器人覆蓋控制
本章提出一種新型有限感知半徑多機器人覆蓋控制方法,相比傳統基線控制器,通過智能體間通信提升性能與魯棒性。我們在機器人通信網絡上部署圖神經網絡(GNN),訓練其預測中心化全知控制器的控制指令,從而獲得能通過智能體間通信應對覆蓋控制難題的控制器。實驗驗證該方法在性能、擴展性與泛化能力上的優勢。2.6節展示基于全球城市特征數據構建的覆蓋控制數據集,用于算法驗證。本研究首次將GNN學習控制器應用于多機器人覆蓋控制,展現該路徑的廣闊前景。
第三章:具備任務優先級關系的多機器人協調協作
本章以新型建模框架與解法體系解決多機器人任務分配(MRTA)問題。提出"任務圖"建模框架:將任務抽象為圖節點,任務間優先級關系抽象為邊;構建包含任務關聯性能與編隊規模-任務效能關系的獎勵模型。該框架啟發基于網絡流優化的機器人任務分配解法,實驗表明其求解速度較現有方法提升數倍,且計算復雜度與機器人數量無關——可擴展至無限規模團隊。本研究對任務分配建模框架作出基礎性貢獻,實現求解速度的量級突破。
第四章:在線環境下的多機器人協調協作
本章將任務圖模型與流解法擴展至在線環境,提升系統魯棒性與性能,并通過高精度仿真驗證。核心在于處理含不確定性的MRTA問題:任務可能隨機失敗或產生預期外獎勵。利用流解法的高速求解特性,建立迭代重規劃機制,依據已完成任務的獎勵觀測動態調整方案。實驗證明該方法在不確定性環境中顯著提升規劃性能,零誤差條件下亦因解空間擴展而優化。通過高精度城市多智能體仿真驗證離線/在線流解法,測量仿真物理現象衍生的任務獎勵。結果表明,本建模方法在復雜不確定任務中有效預測性能,且顯著優于文獻現有方法。在線機制增強系統魯棒性,使性能逼近最優,為任務分配領域后續研究提供極具潛力的框架。
本論文評估了大語言模型(LLMs)在不同模型規模和架構下的多語言事件提取能力,以探索使用生成模型進行多語言事件提取的可行性。論文使用了一個由翻譯成 18 種語言的抗議事件文章合成生成的數據集,評估了來自四個不同系列(Phi-3、Qwen 2.5、Gemma 2 和 Mistral)的 12 個模型在三個規模層級上的表現。研究采用了一種生成式提取方法,在所有模型中使用單一提示,從描述抗議事件的新聞文章中提取四個關鍵部分:參與者、目標、地點和日期。該研究使用相同的方法將事件分為五類:暴亂、示威、阻撓、罷工或抵制。結果表明,較大的模型都能實現一致的多語言性能,其中 Gemma 2 和 Qwen 2.5 表現尤為出色。性能模式表明,不同領域的提取難度存在系統性差異,結構化信息(日期、地點)和分類(類型)比語義元素(行為者、目標)更容易處理。這項研究有助于了解 LLMs 在信息提取和分類方面的多語言能力,對分析大量多語言新聞源(如開源情報、信息環境中的行動或政治事件分析)具有重要意義。
隨著軍事和情報機構在處理大量多語言信息方面面臨越來越多的挑戰,自動提取和分類跨語言事件的能力對于態勢感知和決策變得至關重要。本論文評估了生成式大語言模型(LLMs)從新聞源中提取信息的多語言能力,以探索使用生成式模型進行多語言政治事件提取的可行性。
該研究僅限于抗議事件,抗議事件是政治事件的一個子集,通常包含旨在政治變革的集體行動,有時可能是政治動亂或沖突的前兆。這項研究既有助于從理論上理解 LLM 的能力,也有助于多語言信息提取系統的實際應用,可直接應用于信息環境中的行動(OIE)、軍事情報和全球局勢監測。研究結果表明,即使是相對較小的、開放式的模型也能有效處理多語言信息,從而有可能在不久的將來改變軍事組織管理各級外語情報的方式。
本研究評估了四個模型系列(Gemma2、Qwen 2.5、Mistral 和 Phi-3)和三個規模層級的 12 個開放式 LLMs 在 19 種語言中提取關鍵事件信息(行為者、目標、地點、日期)和對抗議事件類型(暴亂、示威、阻撓、罷工或抵制)進行分類的能力。我們設計了一個新穎的評估框架,使用合成新聞文章作為基本事實,并通過語義相似性和精確匹配等各種指標來衡量提取的準確性。
主要研究結果表明,與原始參數數量相比,模型架構和預訓練方法對多語種性能的影響可能更大。較小的、專門設計的模型在不同語言中的表現可以與較大的模型相媲美,甚至超過后者。結構化信息(日期、地點、事件類型)的提取比語義信息(參與者、目標)更準確,這表明定義明確的提取任務在實際應用中更可靠。
通過成功改進現有的抗議活動數據集,還展示了一項實際應用。通過基于 LLM 的分類,數據集的質量得到了顯著提高,正確分類抗議事件的比例從 39% 提高到 66%。這一改進證明了 LLM 在政治事件分析應用中提高數據質量的直接實用性。
研究結果與情報和信息部隊特別相關。例如,在監測整個中東地區的抗議運動時,情報分析師可以使用 LLMs 同時快速處理阿拉伯語、波斯語和希伯來語新聞來源,對結構化信息的提取具有很高的信心,同時對更細微的行為者分析保持人工監督。
研究結果還表明,LLMs 可以衡量所使用的信息部隊能力的有效性,從而為 OIE 做出貢獻。在動用信息部隊應對地區動亂時,部隊可利用這些模型快速處理當地語言媒體,跟蹤信息環境如何隨其行動而變化。例如,在抗議活動期間反擊對手的言論時,OIE 單位可以監控多種語言的報道,以發現當地媒體如何描述事件的變化。這種近乎實時的反饋使各單位能夠評估行動效果,調整 OIE 戰略,并驗證其行動是否達到預期效果。
1.軍隊應探索在 OIE 中使用 LLMs 進行作戰決策,特別是快速處理多語言信息來源
2.為支持這一努力,應開發 LLM 評估的穩健方法
3.小型、高性能模型有利于本地部署,因此應優先考慮
4.結構化信息提取和分類顯示出最高的可靠性,因此最初應將工作重點放在此類任務上。
多年來,漏洞修復和代碼生成一直是軟件開發中的核心研究主題。最近,大語言模型(LLMs)的爆炸式增長徹底改變了這一領域,為兩者提供了強大的工具。本綜述審查了27篇近期論文,并將其分為兩組:一組專注于自動程序修復(APR)與LLM的集成,另一組聚焦于利用LLM進行代碼生成。 第一組涉及針對漏洞檢測與修復的新方法,包括定位語義錯誤、安全漏洞和運行時失敗錯誤。APR中的工作強調了LLM在減少手動調試工作量方面的作用,通過上下文感知的修復方法推動準確性和效率提升,為自動調試帶來了創新。 第二組研究代碼生成,概述了為編程微調的通用LLM和任務特定模型,并提出了提升代碼生成的方法,如識別符感知訓練、指令級微調和語義代碼結構的融合。本綜述對APR與代碼生成中的方法進行了對比,識別了諸如利用LLM、通過反饋循環實現迭代代碼改進以及開源模型的趨勢。 此外,還討論了實現功能正確性與安全性的挑戰,并為基于LLM的軟件開發研究指明了未來的方向。 1 引言
近年來,大語言模型(LLMs)在自動化軟件工程領域中逐漸受到關注,尤其是在漏洞修復 [18][23][19][25][12] 和代碼生成 [15][21][6] 等領域。在過去十年中,自動程序修復(APR)和代碼生成的使用顯著增加 [8][10],從而推動了這一領域的大量研究。許多工具已被開發出來,這些工具結合了APR和自然語言處理,用于代碼生成 [15][21][6],并采用多種技術,包括抽象語法樹(AST)的實現、使用不同的啟發式方法對可能的修復補丁進行排序、模式匹配和上下文匹配等。 在與代碼相關的任務中使用LLMs顯著提升了編程自動化和漏洞發現的質量與速度。這些任務包括總結代碼、根據自然語言請求生成代碼、修復現有代碼中的漏洞,以及理解相對較大和復雜的代碼庫。然而,本文將重點探討在代碼生成與漏洞修復領域的研究與實踐。為便于理解,我們將所涵蓋的工具和論文劃分為這兩個類別。由于LLMs在極大規模的數據集和數十億參數上進行訓練,它們在這些工具中得到了廣泛應用。相比從零開始訓練模型,使用大語言模型可以更輕松地完成與編程相關的特定任務,從而帶來卓越的性能和顯著的優勢 [18][19][25]。 與此同時,將LLMs用于APR和代碼生成任務極其復雜,涵蓋了多個研究領域,如基準測試、修復場景(語法錯誤、語義錯誤等)、修復技術(重新編譯、二進制重寫等)、修復測試(補丁生成、輸入測試、共演化)等。因此,理解這一領域已經完成的工作可能十分復雜且耗時。 本文旨在總結這一快速發展的領域中已經完成的研究和工作,以幫助其他研究人員更好地理解這些工具的工作原理、在實際場景中的性能、應用領域及其局限性。我們收集了27篇論文,并總結了與這些研究相關的各種因素,包括使用的LLMs、支持的編程語言,以及由此衍生的構建語言無關的APR工具的難點、漏洞修復和代碼生成的方法,以及該領域仍在研究中的挑戰。 綜上,本文的目標包括: 1. 收集關于使用LLMs進行APR和代碼生成的研究,概述已取得的成果。 1. 闡明這些工具可用于的修復場景以及支持的編程語言。 1. 解析LLMs在修復和生成代碼工作流中的集成方式及面臨的挑戰。 1. 討論LLMs在與代碼相關的任務中的局限性及仍在研究中的問題。
在機器學習(ML)的整個流程中,人們扮演著至關重要的角色。人們通過復雜的分布式評估網絡對大量數據進行注釋,從而為機器學習算法的開發做出貢獻。在機器學習部署端,專家從業人員在醫療保健、借貸、教育、社會服務和救災等各種現實世界領域與 ML 模型成果合作。本論文的重點是研究和支持人類在復雜決策環境中的判斷,以期改善他們與機器學習算法的整合。這項工作以研究人類行為的學科,特別是心理學、認知科學和人機交互學的豐富和肥沃土壤為基礎,從定量和定性的角度研究不同社會技術系統中的情景人為因素,如眾包、同行評審、ML 輔助決策等。具體來說,我們設計了統計工具,用于理解不同數據激發范式下的人類行為。下一步,我們將設計實驗,從統計學角度深入了解人類在復雜環境下的決策偏差,從而支持循證政策改革,提高決策質量。為了改進現實世界環境中的人工智能部署,我們提出了特定領域和通用領域框架,以支持人類與人工智能的有效合作。這里的重點是理解和利用人類與 ML 工具的相對優勢。本論文展示了在提高機器學習算法影響力這一更廣泛的目標中強調人類作用的重要性。
機器學習(ML)技術的飛速發展,在很大程度上是由于它有望自動完成傳統上認為只有人類才能完成的各種任務。從基于視覺表征識別數字的簡單行為,到診斷胸片異常的復雜任務。對視覺表征的理解是現代機器學習方法的成就之一。其他進步包括但不限于自然語言處理、機器人等領域。這些技術進步的核心宗旨是希望復制和再現人類的能力。換句話說,要全面了解機器學習工具,就必須研究其設計初衷的人類印記。
人類的能力和智慧通過幾種復雜的互動交織在 ML 工具的結構中。當我們仔細研究任何機器學習算法的設計和執行所涉及的不同過程時,這一點就會變得顯而易見。實際上,在現實世界中部署一個 ML 模型包括三個主要階段: (1) 收集數據,以捕捉模型的預期目標,例如,對于圖像識別模型,可能需要收集帶有注釋的圖像,以描述圖像中感興趣的特征;(2) 模型開發,在此過程中,采用精心選擇的架構對模型進行訓練,以學習預期目標;(3) 模型部署,將開發的 ML 工具部署到現實世界的環境中,例如自動駕駛汽車中的圖像識別模型,它可以幫助駕駛員獲得低功耗和安全的駕駛體驗。
在本論文中,我們將重點關注人在人工智能設計和執行管道的第一和第三階段中發揮的不可或缺的作用。人們在這些階段的行為對 ML 工具產生了至關重要的影響,并直接影響到 ML 在實踐中的成果。在數據收集階段,除了最近使用合成數據訓練 ML 模型的趨勢之外,數據幾乎完全由人生成。收集到的數據反映了參與生成數據的人的知識、經驗等。經過訓練,人工智能可以從數據中的模式中學習,其結果也反映了同樣的知識和經驗。之前的機器學習文獻對這一現象進行了詳細研究。從人們那里收集數據的一種常見方式是眾包,即在眾包平臺上上傳一項特定任務(如圖像標記),由參與的工作人員為上傳的圖像提供注釋。不難看出,眾包工作者行為的特殊性會對根據這些數據訓練出的最終模型產生怎樣的影響。
接下來,模型部署階段的具體情況會對模型的幾個方面產生重要影響。例如,請看前面提到的視覺模型為駕駛提供幫助的例子。理想的駕駛助手應該能夠在駕駛員即將犯錯時發出警告,因此在這種情況下,合適的輔助模型在很大程度上取決于人類駕駛員的能力和需求。這一想法適用于所有引入人工智能工具來增強人類能力的現實環境。了解人工智能模型所要輔助的人類專家當前的能力和缺陷,對于設計一個能夠在實踐中實現改善整體結果目標的模型至關重要。
鑒于人的整合在塑造 ML 模型的行為及其在實際應用中的有用性方面發揮著重要作用,我的論文有助于設計工具和實驗,以支持在復雜環境中更好地理解和整合人,從而改進 ML 工具。具體來說,這篇論文著眼于眾包和會議同行評審領域,研究復雜數據激發環境中人類行為的不同方面。我們的研究結果揭示了人們在這兩種環境下的行為中以前未經測試的細微差別和偏差,倡導在數據激發中進行以人為本的設計。接下來,關于人在模型部署階段的作用,本論文研究了在分類和生成設置中人與人工智能成果的協作。我們闡明了了解人類專家和人工智能模型在任何任務中的相對優勢對于支持有效的人類-人工智能協作的重要性。
第一部分側重于理解眾包中的人類決策行為。正如前面簡要提到的,眾包是訓練機器學習模型的主要數據來源,而其中生成的數據質量會影響在此基礎上訓練的模型的行為。在本論文中,我們設計了統計工具來檢查眾包數據的屬性。訓練 ML 模型需要大量數據,因此我們利用高維統計學習技術為本章介紹的算法提供理論保證。具體來說,第 2 章提供了一種雙樣本測試算法,用于檢測兩個人群對一組項目的偏好(以排名表示)是否存在統計意義上的顯著差異。第 3 章研究了在眾包過程中,當眾包者的專業水平信息可用時的數據聚合方法。具體來說,我們證明了一種流行的聚合方法--最大似然估計--在統計上是不被允許的。
第二部分側重于理解同行評審中的人類決策行為。科學同行評審是一種復雜的數據激發設置,它由評審人和提交的論文組成,旨在找出最優秀的論文。這種設置以分布式人工評估為基礎,其中每個評審員只評估一部分提交的論文,而每篇論文只由少數幾個人進行評估。這種設置為研究人類行為提供了豐富的素材,同時也帶來了一系列挑戰,如主觀性、偏見、激勵機制錯位等。本章的工作重點是研究同行評議數據,檢驗參與者的行為是否存在偏差,并據此提出基于證據的同行評議政策改革建議。第二部分的大部分技術工作包括:(1)設計實驗,仔細收集會議同行評審中的人類評價數據;(2)應用統計技術,找出人們評價中的重要模式。
接下來,我們將在第三部分討論本論文的第二個重點,即理解和支持人類與機器學習模型結果的整合。機器學習模型正被用于支持醫療保健、信用貸款、刑事司法等廣泛領域的決策。例如,在刑事司法系統中,算法累犯風險評分為被告的審前保釋決策提供依據。在高風險決策系統中引入 ML 輔助,就是要通過精心設計的混合決策系統,將人類認知和 ML 模型各自的優勢結合起來并加以放大。因此,論文的第三部分旨在提出可行的見解,以提高人類與 ML 合作的有效性,從而提高其成果的質量。
在第 8 章中,我們延續了之前對人類決策中的偏差所做的研究,研究了人類認知偏差在人工智能輔助決策中的作用。這項研究是之前關于支持人類決策者適當依賴 ML 模型輸出的研究的延續。
如前所述,有效的人類-人工智能合作關系的一個重要組成部分是了解人類與基于人工智能的決策在特定任務上的優勢和局限性。雖然行為科學研究為人工智能模型補充人類認知能力(反之亦然)的潛在機會提供了見解,但還需要進一步的研究來(1)了解這些發現在具體的現實世界人類決策任務中的影響,然后(2)將這些見解付諸實施,以促進有效的人類-人工智能合作關系。因此,本論文的其余部分提出了在兩類任務中實現人機交互互補的見解:預測性決策任務和生成性、共同創造性任務。相應地,第 9 章提出了預測決策中人機互補的通用領域和特定領域框架,第 10 章介紹了我們在審核人工智能模型中人機結合的特定領域工作。
這項工作旨在通過人類決策者及其與機器學習算法的結合,為大規模提高社會技術系統的決策質量提供可操作的見解。