亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本報告概述了美南加州大學信息科學研究所(USC ISI)"跨時空與跨模態學習事件模式構建體系(LESTAT)"團隊在DARPA"知識引導人工智能模式推理(KAIROS)"計劃中的研究成果。目標體系包含雙重維度:(1) 開發人機協同構建模式庫的流程——通過自然語言處理(NLP)技術增強人類背景知識;(2) 建立結構化模式知識庫。每個事件劇本包含復雜事件步驟的自然語言描述及維基數據本體鏈接。

事件通過雙重機制關聯:(a) 時序邏輯(如汽車價格協商發生在購買行為之前);(b) 共享參量(如購車者與價格談判者為同一主體)。知識庫質量外部評估由國家標準技術研究院(NIST)主導;伊利諾伊大學RESIN引擎實現基于流式輸入的預測推演。USC ISI研發的"機器輔助劇本構建者(MASC)"工具,可使非NLP專業人員完成劇本創作。鑒于純文本解析存在固有信息缺失,人工編寫需克服兩大障礙:操作步驟遺漏傾向及本體形式化映射挑戰。MASC通過四類智能建議輔助創作:(1) 事件本體類型標注;(2) 事件參量及角色定位;(3) 參量細粒度本體分類;(4) 潛在遺漏步驟補全建議。

USC ISI同時探索時序關系自動化構建,但實證表明人工審核不可或缺——主因在于復雜事件子環節往往存在非確定性序列邏輯。除支持基于時序關系的子事件架構外,MASC還引入層級化體系以實現復雜事件語義聚類。該工具突破性實現兩種創新路徑:在定義非時序關系的邏輯門結構中嵌入人類可解讀的命名標簽;創建可跨庫調用的命名子模式單元。核心成果包括:
? 開發人機智能交互平臺MASC——支持復雜事件結構的本體化模式創建、審核與管理
? 構建約200個復雜事件模式知識庫(含程序員與跨學科碩士生創作內容)
 ? 提交52項經專業聚焦的評估劇本庫,覆蓋恐怖活動、疫情爆發、化學品泄漏、暴亂事件及政變行動等五類復雜事件場景

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

本材料基于美空軍研究實驗室(AFRL)與國防高級研究計劃局(DARPA)資助的研究撰寫。CHANNA項目開發了開源機器學習加速器生成器(名為Gemmini),支持集成至完整片上系統(SoC)設計中。團隊還完成了對生成加速器運行各類機器學習(ML)工作負載的評估;驗證了該生成器可為廣泛ML任務生成具備競爭力的加速器;并開發了新型加速器虛擬化機制AuRORA,為"多加速器-多應用系統"實現虛擬化與解聚式加速器集成。

CHANNA項目旨在開發支持集成至完整SoC設計且具備全軟件支持的開源機器學習加速器生成器(Gemmini)。以下為RTML計劃期間的關鍵成果:
● 成功向社區發布多個Gemmini框架版本,該框架現已被多個研究組廣泛采用。Gemmini論文發表于DAC’2021并獲當年"最佳論文獎"(Best Paper Award)。
● 完成對生成加速器運行各類ML工作負載的評估,包括多個變體的硅基實現(計劃期間完成兩次流片,第三次將于2023年11月流片)。
● 驗證該生成器可為廣泛ML任務(含Gemmini初始開發后興起的基于Transformer的ML任務)生成具備競爭力的加速器。
● 開發自動化Gemmini庫開發的軟件流程Exo。Exo發表于PLDI’2022,已開源并被產業合作方采用。
● 利用Gemmini評估多加速器系統,并開發新型動態內存資源管理機制MoCA(發表于HPCA’2023)。MoCA軟硬件實現已公開。
 ● 開發新型加速器虛擬化機制AuRORA,為"多加速器-多應用系統"實現虛擬化與解聚式加速器集成。AuRORA發表于MICRO’2023并已開源。

Gemmini是面向深度神經網絡(DNN)工作負載的開源全棧加速器生成器,支持對快速演進的DNN工作負載定制硬件加速器系統進行端到端全棧實現與評估。其硬件模板與參數化設計允許用戶在性能、效率與可擴展性等多維度調優硬件配置。不同于現有聚焦獨立加速器的DNN生成器,Gemmini更提供覆蓋軟硬件棧的完整解決方案,以及兼容RISC-V生態系統的全片上系統(SoC)集成方案。此外,Gemmini實現多級軟件棧:通過易用編程接口支持多樣化編程需求,并與支持Linux的SoC深度集成以執行任意軟件。開源倉庫地址:github.com/ucb-bar/gemmini。相關論文發表于2021年設計自動化會議(DAC)并獲當年"最佳論文獎"(Best Paper Award)。

圖1:Gemmini硬件架構模板概覽

付費5元查看完整內容

圖:一名身穿對抗迷彩服的士兵(左)。

1 第一階段總結
 在第一階段,本研究聚焦新型輸入表征對模型魯棒性的影響機制。通過UCF101視頻行為識別場景(UCF101)驗證該假設,提交多種防御配置方案。選擇UCF101場景因其強制模型從行為識別視角理解人機交互機制。

為驗證假設,開發多種空間一致性方法:通過背景分割與消融約束輸入特征;分析基準模型"動作識別運動增強RGB流"(MARS)的時序一致性特征。背景消融與實例分割特征提取器未作魯棒性設計——實驗結果證實此環節為防御體系最薄弱點。嘗試采用隨機平滑技術增強實例分割模型魯棒性。我們認為魯棒優化與特征提取技術結合可提升端到端魯棒性,該方向在GARD項目第二階段深入探索。

同時探索基于人體關鍵點的UCF101行為表征方法。使用**圖卷積網絡(GCN)**建模骨骼語義與時序一致性。既往研究表明:相比像素操作,骨骼表征對人體建模更具魯棒性。本防御體系整合關鍵點檢測模型與GCN,追蹤UCF101人體動作時空運動以驗證該假設。獨立于申報方案外,同步研究"文本環境重組對抗補丁"(APRICOT)目標檢測場景。發現構建符合APRICOT核心精神的防御頗具挑戰——因該場景不支持適應性攻擊,簡單像素操作常削弱對抗補丁效力。最終采用仿真方案替代APRICOT方法,因仿真支持適應性物理可實現攻擊。

需強調的是,第一階段研究完全依賴Armory平臺與指定數據集,早期場景適配至關重要。例如:為修正Armory的UCF101數據集分布偏移,多次更新結果;APRICOT數據集在標簽標注與適應性攻擊實現方面均存在挑戰。

2 第二階段總結
GARD第二階段采取雙軌策略:一方面投入CARLA仿真器數據生成;另一方面增強多模態魯棒特征方案。仿真支持定制化數據集構建:為此開發數據采集工具(通過YAML配置文件指定CARLA數據采集項)與數據標注工具(從采集數據提取真值標注)。為提升標注效用,為CARLA 0.9.13版開發實例分割傳感器——該傳感器為每個物體分配唯一標識符,使工具能對同類重疊物體消歧。為提升數據采集可擴展性,將工具鏈與CARLA客戶端集成至Docker鏡像。該鏡像結合場景配置文件使GARD評估員構建三大新場景:單模態目標檢測、多模態目標檢測及目標追蹤。這些工具同時支持研究者從場景采集輔助數據(如從目標追蹤場景提取關鍵點標注,驗證光流模態有效性)。

仿真平衡攻防雙方條件:網絡物理系統依賴傳感器感知現實世界,而數字空間攻擊手段常規避傳感機制獲得不公平優勢。雖有研究(含本團隊)描述物理可實現攻擊方法,但因需實體制作仍難實施。攻擊方在現實環境控制力有限,其攻擊需泛化至光照、遮擋及傳感器運動等環境變量(如同防御方要求)。為實現攻擊評估真實性,將GARD評估攻擊組件打包至Docker容器。由此展示如何通過YAML配置動態修改攻擊補丁紋理,使未來評估能衡量攻擊(及防御)在真實場景下的效力。仿真替代方案被證實是平衡攻防的有效途徑,深化了對對抗樣本的理解。

最后擴展魯棒特征方案至多模態輸入:將UCF101行為識別的防御理念延伸至目標檢測與追蹤任務。新防御機制挖掘各場景特征:如目標追蹤場景的靜態攝像頭特性,或深度模態的物體定位能力。這些防御促使評估員修改場景特征增加防御難度。我們甚至主動升級工具"破解"自身防御(如增加多行人支持與攝像頭運動機制)以深入驗證目標追蹤防御體系。工具鏈、防御理念與攻擊能力共同為高成效的第三階段奠定基礎。

第三階段
 本階段將充分利用仿真與合成數據工具構建魯棒特征表征體系:仿真支持獨立采集多模態數據,自動標注工具構建多任務標注體系,二者結合實現魯棒特征表征部署。仿真同時支持實例化物理可實現攻擊,以此完善威脅模型并在公平環境下驗證防御效能。后續章節將按季度總結進展。

付費5元查看完整內容

本綜述聚焦于快速演進的深度研究系統領域——這些由 AI 驅動的應用通過整合大型語言模型、先進的信息檢索技術與自主推理能力,實現了復雜研究工作流的自動化。我們系統分析了自 2023 年以來出現的 80 余個商用與非商用實現,包括 OpenAI/DeepResearch、Gemini/DeepResearch、Perplexity/DeepResearch,以及眾多開源替代方案。基于全面的調研,我們提出了一套新的分層分類體系,從四個核心技術維度對系統進行歸類:基礎模型與推理引擎、工具使用與環境交互、任務規劃與執行控制、知識綜合與結果生成。 文章深入探討了這些系統在學術、科學、商業與教育場景中的架構模式、實現方法與領域適配特征。分析顯示,當前實現已具備顯著能力,但在信息準確性、隱私保護、知識產權與可獲取性等方面仍面臨技術與倫理挑戰。最后,本文指出了未來值得關注的研究方向:高級推理架構、多模態集成、領域專化、人機協作以及生態系統標準化,這些方向很可能塑造這一變革性技術的未來發展。 通過構建理解深度研究系統的綜合框架,本綜述既為 AI 增強知識工作的理論研究提供了參考,也為開發更強大、更負責任、更易獲取的研究技術奠定了實踐基礎。論文資源可在 //github.com/scienceaix/deepresearch 獲取。

1 引言

人工智能的快速發展引發了一場范式轉變,改變了知識在學術和工業領域中被發現、驗證與應用的方式。傳統的研究方法依賴于人工的文獻綜述、實驗設計和數據分析,如今正逐步被智能系統所補充——在某些情況下甚至被替代——這些系統能夠自動化端到端的研究流程。這一演化催生了一個新興領域,我們稱之為“深度研究(Deep Research)”,其標志是大型語言模型(LLMs)、先進的信息檢索系統與自動推理框架的融合,重新定義了學術探索與實際問題解決的邊界。

1.1 深度研究的定義與范圍

深度研究指的是系統性地應用人工智能技術,從三個核心維度對研究流程進行自動化和增強: 1. 智能知識發現:自動化地進行文獻檢索、假設生成與跨異構數據源的模式識別; 1. 端到端工作流自動化:將實驗設計、數據采集、分析與結果解釋集成到統一的AI驅動流程中; 1. 協同智能增強:通過自然語言界面、可視化手段和動態知識表示促進人機協作。

為了清晰界定“深度研究”的邊界,我們將其與相鄰的AI系統區分如下: * 區別于通用AI助手:雖然像 ChatGPT 這樣的通用智能體能夠回答研究問題,但它們缺乏自動化工作流能力、專用研究工具及端到端的研究編排功能,這是深度研究系統的核心特征。近期的調查強調了專用研究系統與通用AI能力之間的關鍵差異【73, 76】,尤其指出領域專用工具在根本上改變了研究流程,而不僅僅是提升效率【213, 318】。 * 區別于單一功能的研究工具:如文獻管理器、搜索引擎或統計分析軟件這類專用工具只解決了研究流程中的某一部分功能,缺乏深度研究系統所具備的集成推理與跨功能編排能力。像 scispace【242】與 You.com【313】代表了早期的研究輔助嘗試,但仍不具備真正的端到端研究能力。 * 區別于純粹的LLM應用:那些僅通過研究提示語調用LLM的應用程序,缺乏對環境的交互能力、工具集成以及工作流自動化能力,也不能歸入深度研究系統的范疇。

本綜述聚焦于至少具備上述三項核心維度中的兩項,并以大型語言模型為基礎推理引擎的系統。涵蓋的系統包括商業產品(如 OpenAI/DeepResearch【197】、Google Gemini/DeepResearch【89】、Perplexity/DeepResearch【209】),以及開源實現(如 dzhng/deepresearch【321】、HKUDS/Auto-Deep-Research【112】等)。我們排除純粹的書目信息工具或缺乏認知整合能力的單階段自動化系統,例如 Elicit【74】、ResearchRabbit【228】、Consensus【63】、Scite【243】等。其他如 STORM【278】等專注于科學文本檢索與組織的工具雖然具有價值,但不具備本綜述所定義的深度研究能力。

1.2 歷史背景與技術演進

深度研究的發展軌跡可分為三個階段,反映了技術進步與實現路徑的演變:

1.2.1 起源與早期探索(2023年–2025年2月)

值得注意的是,像 n8n【183】、QwenLM/Qwen-Agent【224】等工作流自動化框架在深度研究爆發之前就已存在,說明相關技術的基礎早已形成。深度研究的概念來源于AI助手向智能體的演進。2024年12月,Google Gemini 首次推出具備基本多步推理與知識整合能力的 Deep Research 功能【60】,為后續更復雜的AI驅動研究工具奠定了基礎。諸如 AutoGPT【250】、BabyAGI【311】等智能體框架,以及 cline2024【61】和 open_operator【36】對集成研究流程和瀏覽器自動化的貢獻,也是早期生態的重要組成部分。

1.2.2 技術突破與競爭格局(2025年2月–3月)

2025年2月,DeepSeek 的開源模型【68】因其高效的推理能力與低成本特性引發了市場革命。OpenAI 的 Deep Research(基于 o3 模型)也在此時推出,具備自主研究規劃、跨領域分析和高質量報告生成能力,在復雜任務中的準確率超過了以往基準【197】。與此同時,Perplexity 推出了免費使用的 Deep Research【209】,主打響應速度與普及性。開源社區也涌現出多個替代方案,如 nickscamara/open-deepresearch【42】、mshumer/OpenDeepResearcher【249】、btahir_open_deep_research【37】、GPT-researcher【16】等。輕量級項目如 Automated-AI-Web-Researcher-Ollama【267】適用于本地資源有限的環境,而 Langchain-AI/Open_deep_research【131】等模塊化框架則支持可組合的自定義研究流程。

1.2.3 生態擴展與多模態集成(2025年3月至今)

第三階段體現了多樣化生態系統的成熟發展。Jina-AI/node-DeepResearch【121】等開源項目支持本地部署與高度定制,而 OpenAI 與 Google 的閉源版本則持續推進多模態支持與多智能體協作。先進的搜索技術與報告生成框架的集成,使這些工具在學術研究、金融分析等多個領域具備實際應用價值。與此同時,Manus【164】、AutoGLM-Research【330】、MGX【171】、Devin【62】等平臺也開始集成AI研究能力。Anthropic 于2025年4月推出 Claude/Research【13】,引入具備系統化探索與可驗證引文能力的智能體搜索。OpenManus【193】、Camel-AI/OWL【43】、TARS【39】等智能體框架則在專業化能力與領域優化方面進一步拓展生態版圖。

1.3 意義與實際影響

深度研究在多個領域展現出變革性潛力: 1. 學術創新:通過自動文獻綜合(如 HotpotQA【307】基準)加速假設驗證,幫助研究者發現可能被忽視的跨學科關聯。Sourati 與 Evans【256】指出,以人為中心的人工智能可增強研究者能力,并適應其理論與方法框架,代表了從傳統自動化向協同智能的根本轉變。Khalili 與 Bouchachia【128】進一步展示了如何通過系統化方法構建科學發現機器,從而重塑假設生成、實驗設計與理論精煉流程。 1. 企業轉型:系統如 Agent-RL/ReSearch【2】與 smolagents/open_deep_research【115】可深入分析市場趨勢、競爭格局與戰略機會,提升數據驅動決策的規模與效率。 1. 知識民主化:開源項目如 grapeot/deep_research_agent【263】與 OpenManus【193】降低了技術門檻,使個人與資源有限的組織也能獲取先進研究能力。

1.4 本綜述的研究問題與貢獻

本文旨在解答以下三個核心問題: 1. 系統架構、實現方法與功能能力的設計如何影響深度研究系統的有效性? 1. 深度研究實現中,LLM 微調、檢索機制與工作流編排方面有哪些技術創新? 1. 不同系統如何平衡性能、可用性與倫理考量?從如 n8n【183】與 OpenAI/AgentsSDK【199】等系統中能觀察到哪些共性模式?

我們的貢獻體現在三個維度: 1. 方法論:提出一套新穎的分類體系,從基礎模型到知識綜合能力對系統進行技術架構劃分; 1. 分析性:基于評估指標對代表性系統進行比較分析,揭示各類方法的優劣; 1. 實踐性:識別關鍵挑戰,提出未來發展路線圖,特別關注新興架構與集成機會。

本文其余部分將按以下結構展開:第二節介紹概念框架,第三至四節分析技術創新與對比研究,第五節討論實現技術,第六節介紹評估方法,第七節列舉應用場景,第八節探討倫理問題,第九節提出未來發展方向。

付費5元查看完整內容

多機器人協同與協作是提升團隊能力并實現自主建造、農業及未知大區域持續作業等應用場景新型任務的關鍵行為。本研究以“多機器人資源分配問題”為背景探究此類行為,該問題要求將機器人分配至待服務區域。我們尤其關注適用于大規模多機器人團隊的“容錯性方法”。我們引入一種基于圖的建模框架用于多機器人資源分配問題,該框架在表征“區域間關系”與“獎勵模型”方面具有前所未有的豐富性。首先,針對“多智能體覆蓋控制問題”,通過圖神經網絡(GNN)引入“基于圖的計算方法”,其利用學習型智能體間通信策略,在性能與可擴展性上顯著提升。隨后,研究需要顯式協同的“復雜多任務場景下多機器人任務分配問題”,提出一種“基于網絡流的規劃方法”,可在數秒內為大規模問題生成高質量解。進一步將該方法擴展至在線場景,支持任務失敗與意外觀測時的動態重規劃。實證研究表明,這些建模方法與算法通過挖掘多機器人問題中的本質圖結構特征,實現了性能突破并推動領域技術前沿發展。

圖:任務圖(底部)展示任務間優先關系。高亮部分為任務子集,顯示“聯盟職能”(紅色)與“優先關系”(藍色)。例如,在執行“運輸建筑材料”任務前,機器人需在布滿碎片的工地“尋路或清障”。路徑質量直接影響團隊運輸效率;而運輸表現(如材料損毀情況)將決定后續“施工任務”的執行速度與質量。?

第一章將本研究置于“多機器人資源分配”領域框架內。首先,提出多機器人資源分配領域內的問題分類體系,沿著“任務表征抽象度”維度梳理問題模型及其對應研究方法。隨后,深入綜述與“多機器人覆蓋控制”及“多機器人任務分配”密切相關的文獻,這些成果為本研究提供了核心理論支撐。??

??第二章《基于圖神經網絡的多機器人系統覆蓋控制》提出一種創新方法,解決“感知半徑受限條件下的多機器人覆蓋控制”問題。相較于文獻常用基準控制器,該方法通過智能體間通信機制顯著提升控制器的性能與魯棒性。為實現這一目標,在機器人間通信網絡上部署圖神經網絡(GNN),訓練其預測集中式全知控制器的輸入指令,從而生成能夠通過智能體通信應對復雜覆蓋控制場景的控制器。實驗證明,該控制器性能顯著超越基準方法,且具備優異的可擴展性與泛化能力。首次構建基于全球城市真實興趣點特征的覆蓋控制問題數據集,并用于算法驗證。這是圖神經網絡學習型控制器在多機器人覆蓋控制領域的首次應用,展現出巨大潛力。??

??第三章《具有任務優先關系的多機器人協同與協作》針對“多機器人任務分配(MRTA)”問題提出新型建模框架與求解方法體系。首次將“優先級約束”與“多機器人任務”納入MRTA問題,構建名為“任務圖”的建模框架——以圖節點表示任務,邊表示任務間優先級關系。該框架包含的“獎勵模型”能通過豐富函數空間表征關聯任務性能間關系及任務分配聯盟規模與任務績效間關系。基于此模型,開發出利用網絡流優化的任務分配解決方案,其求解速度較現有方法提升數個量級,且計算復雜度與任務執行機器人數量無關,可擴展至無限規模團隊。實驗表明,該方法在保證解質量的同時實現計算效率突破,為任務分配建模框架作出根本性貢獻。?

在第四章中,拓展了多機器人任務分配(MRTA)方法,提出《在線環境下的多機器人優先關系協同與協作》。本章沿用相同“任務圖”模型與“基于流網絡的求解方法”,將其置于在線框架以提升系統魯棒性與性能,并通過高保真仿真器驗證方案有效性。核心在于,在原有MRTA問題中引入“不確定性”考量——任務可能隨機失敗或產生求解器未預期的隨機獎勵。依托流網絡方法的高速求解優勢,以迭代方式重構求解流程,使系統能夠基于已完成任務的獎勵觀測實時重規劃。該方法顯著提升了存在環境不確定性時的規劃性能,甚至因解空間擴展在零誤差條件下進一步優化結果。在高保真城市環境多智能體仿真器中驗證了該在線方法及離線流網絡方法,其中任務獎勵基于仿真器內物理現象量化。實驗表明,該建模方法能有效預測高不確定性復雜任務的性能表現,且相較文獻方法具有顯著優勢。在線框架為原有方案注入魯棒性,并將性能提升至接近最優水平,為任務分配領域持續研究提供了極具前景的框架。?

付費5元查看完整內容

在圖 1 中簡要介紹了布朗大學團隊的研究工作。在美國國防部高級研究計劃局(DARPA)的 "少標簽學習"(LwLL)項目中,團隊的工作包括技術領域 1(TA1)和技術領域 2(TA2)。技術領域 1 的目標是開發以下學習算法 (1) 將從頭開始建立模型所需的標注數據量減少至少 10^6 倍;以及 (2) 適應具有數百個標注示例的新環境。TA2 的目標是正式證明解決特定機器學習問題所需的標注數據量的限制。具體來說,我們的貢獻有兩個方面:首先,我們開發了廣泛適用的系統和方法,以減少學習對標注數據的需求;其次,我們定義了穩健的理論分析和框架,這些分析和框架是程序化弱監督和零點學習范例的基礎。

在該計劃中,預訓練的大型語言和視覺語言模型的出現帶來了新的挑戰,因為這些模型出色的泛化能力大大提高了基準性能。雖然這些進步降低了針對新目標任務完善模型時對標注數據的需求,但能否獲得足夠的特定目標數據仍然至關重要,尤其是對于遠離模型訓練數據的領域。考慮到這一點,我們的團隊將注意力轉向了在資源有限的情況下對這些大型模型進行參數高效調整。

總的來說,貢獻總結如下:

  • 推出了 TAGLETS [1],這是首個端到端機器學習系統,能以統一的方式自動整合數據和模型生態系統。在數據量較少的情況下,沒有經驗法則可以事先選出最佳學習策略。TAGLETS 包括來自不同學習范式的多種算法,如遷移學習、半監督學習和零點學習。每個模型最初都會在目標相關的輔助數據上進行微調,這些數據是從其他任務的標注數據集合中提取的[1, 2]。然后,將訓練好的模型作為弱標簽器,為未標簽數據生成偽標簽。新標注的數據和為數不多的標注數據被送入最終模型,成為系統的輸出結果。TAGLETS 最初使用較小的預訓練模型作為模型的骨干。用更大的預訓練模型取代這些骨干模型的進一步實驗表明,TAGLETS 的架構和任務相關輔助數據的重點,即使是更大的預訓練模型,也能從中獲益。(TA1)

  • 設計了一種新穎的零點學習方法(zero-shot learning approach),利用常識知識圖譜來豐富未見目標類的信息(ZSL-KG)[3]。在使用描述類別的屬性進行零點學習的背景下,我們首次提出了從屬性到類別的最佳映射的最壞情況誤差的非難下限,即使有完美的屬性檢測器也是如此[4]。該下界描述了基于可用信息--類-屬性矩陣--的零點問題的理論內在難度,而且該下界實際上是可計算的。(TA1 和 TA2)

  • 探索了如何在不同的低資源學習范式[5]下利用偽標記來提高視覺語言模型(VLM)在新任務上的能力。我們的主要觀察結果是,在半監督、無監督和轉導式零點學習設置中使用相同的學習策略,通過偽標簽學習可持續提高對比語言-圖像預訓練(CLIP)的性能。此外,通過使用假標簽進行提示來調整 CLIP,可減輕 CLIP 對某些類別的偏差。(TA1)

  • 開發了一種使用 CLIP(組合軟提示)[6] 學習如何組合概念的新方法。我們的方法在組合零點學習(即預測未見屬性-對象組合(如老貓和小老虎)的任務)方面表現良好。除了提出這種新方法外,我們還研究了 CLIP 編碼組合概念的能力,以及以對結構敏感的方式綁定變量的能力(例如,區分球體后面的立方體和立方體后面的球體)[7]。(TA1)

  • 從理論上研究并提供了在去除獨立性假設后組合弱標簽器的新方法。特別是,我們設計了具有誤差理論保證的解決方案[8, 9]。我們將這一分析擴展到漂移數據 [10]。此外,為了克服標簽輸出單一類標簽的假設,我們研究了用戶可以創建部分標簽輸出可能類標簽子集的情況 [11]。(TA1 和 TA2)

  • 在大型語言模型和視覺語言模型出現后,我們開發了 Alfred:第一個允許通過提示對大量未標記數據進行標記的框架[12]。(TA1)

方法對項目整體范圍的影響。

  • 布朗大學在 JPL 設計的圖像和視頻分類任務中評估了其 TAGLETS 系統。此外,我們還評估了 GRIP,這是一種利用偽標簽的基于 CLIP 的提示調整方法,用于解決 JPL 的零鏡頭學習任務。
    • 在圖像分類任務中,TAGLETS 的表現躋身前六名。
    • 在視頻分類任務中,當標記數據量增加時,TAGLETS 是表現最好的方法。
    • 在零鏡頭學習任務中,GRIP 的表現一直名列前茅,與基線相比提高了 20%。
付費5元查看完整內容

隨著機器學習(ML)系統在現實世界中的部署,這些系統的可靠性和信任度成為更加突出的挑戰。本論文旨在通過兩個關鍵推動力來應對這一挑戰:(1)通過利用機器學習模型的一個被認為是其弱點的方面——對抗性擾動,使機器學習模型更值得信賴;(2)探索可靠的機器學習部署的基礎

具體來說,在第一個推動力中,我們關注對抗性擾動,這是對機器學習模型完整性的一個眾所周知的威脅,并展示如何構建對所謂的對抗性貼片具有魯棒性的機器學習模型。然后,我們展示對抗性擾動可以被重新利用,不僅僅是機器學習模型的弱點,而且還可以增強這些模型的韌性和可靠性。為此,我們利用這些擾動來首先開發一種創建易于機器學習模型識別的對象的方法,然后設計一種保護圖像免受不希望的AI驅動修改的方法,最后改進遷移學習的性能。

本論文的第二個推動力圍繞機器學習模型的可解釋性和調試,以確保機器學習系統的安全性、公平性和無偏見的決策制定。特別是,我們研究構建更易于調試的機器學習模型的方法,并提供診斷其故障模式的工具。然后,我們研究數據如何影響模型行為,識別數據可能以意想不到的方式引入機器學習模型偏見的情況,特別是在遷移學習的背景下。最后,我們提出了一個基于數據的框架來研究遷移學習,這可以幫助我們發現從預訓練數據中繼承的問題偏見。

在過去的十年中,機器學習(ML)在各個領域推動了顯著的進步,例如計算機視覺[KSH12]、自然語言處理[VSP+17; DCL+19]和語音識別[GMH13; BZM+20; ZQP+20]。機器學習在多個領域的廣泛應用強調了全面評估其在現實世界系統中的可靠性、信任度和可部署性的重要性。隨著機器學習繼續擴展到復雜且不斷變化的領域,確保其可靠和公平地運作至關重要。

盡管機器學習模型取得了顯著成就,但它們并非沒有缺點。有趣的是,這些模型很脆弱,不經意間與一些表面模式對齊,從而延續了它們所訓練數據中現有的偏見。這種脆弱性的一個明顯例證是對抗性示例[BCM+13; SZS+14]的現象,其中對圖像的微小擾動可以干擾機器學習模型,導致錯誤分類(參見圖1)。 對抗性示例僅僅代表了更廣泛問題的一種表現形式,即機器學習模型在暴露于分布偏移時缺乏魯棒性,此時測試時的數據分布與訓練時的不同。這使得人們對機器學習在現實世界中的部署準備產生疑問,強調了需要可靠的系統能夠承受動態、真實世界的條件。因此,以下關鍵問題出現了: 我們如何自信和負責地在現實環境中部署機器學習?

本論文通過兩個主要推動力來推進這一總體挑戰,都致力于解決機器學習在現實世界部署中面臨的一些最關鍵問題。這兩個推動力是: 對抗性擾動與更好的機器學習。新機器學習模型的開發通常涉及對靜態基準的優化,這可能與這些模型在部署過程中面臨的場景大不相同。這種差異要求創建魯棒和可靠的模型,特別是在預測準確性至關重要的高風險應用中。本論文的第一部分解決了這一需求,重點關注由對抗性擾動所表現的最壞情況分布偏移。我們首先展示如何構建對這些擾動魯棒的模型,并證明從安全角度看,這些魯棒模型在部署時更安全外,當用于下游任務(例如,在遷移學習中)時,它們的泛化能力更好。然后,我們轉換方向,展示如何利用這些(看似不好的)對抗性擾動來(1)創建在分布偏移下易于被機器學習模型識別的魯棒對象,以及(2)保護圖像免受不希望的AI操縱,這兩者也有助于使機器學習部署更可靠和值得信賴。

理解可靠機器學習部署的基礎。現實世界中的機器學習部署不僅需要魯棒和可靠的模型;它還要求深入理解模型的決策過程,以確保安全性、公平性和偏見檢測。本論文的第二部分專注于解密和故障排除機器學習模型。它探索了(1)構建可調試的機器學習模型,(2)開發用于檢測和理解機器學習模型失敗原因的工具,以及(3)研究數據如何以意外的方式偏見和影響機器學習模型。這種多方面的方法旨在增強我們對實際應用中機器學習模型的理解和控制。

在本引言的后續部分,我們將介紹這些主要關注領域的總結,概述我們的主要概念和發現,并將它們與論文的相應部分對齊。

可部署的機器學習(ML)仍然面臨重大挑戰,隨著模型的演變和能力增強,例如大型語言模型(LLMs),復雜性也隨之增加。雖然本論文闡明了可部署ML的某些方面,但要實現自信的ML部署仍有很長的路要走。這一領域需要進一步研究,以下幾個緊迫的未解決問題值得關注。

重新評估LLMs的對抗性示例。盡管已努力增強ML模型對抗對抗性示例的魯棒性,但這仍是一個困難的開放性問題。鑒于解決最壞情況魯棒性問題的困難,研究重點最近已轉向一般分布偏移的平均情況魯棒性。然而,隨著LLMs的進步,重新審視對抗性示例變得至關重要。例如,我們如何加強LLMs以抵御越獄[WHS23; ZWK+23],一種特別影響LLMs的對抗性示例?隨著LLMs變得更加強大并包含各種模態,如圖像、視頻和音頻,預防越獄變得更加困難[CNC+23]。

此外,解決方案可能不僅在于加固ML模型,還在于加強整個ML流程。當前的研究經常忽視了ML模型在復雜系統中運行的上下文。如果ML模型是復雜系統的一部分,魯棒性評估將如何改變?內容審核技術是否有效對抗越獄,以及如何改進它們?隨著LLMs對社會影響的日益增加,這些問題變得異常相關。 創建與人類對齊的表征。對抗性示例的存在說明了機器學習(ML)模型與人類之間在決策上的顯著差異。目標是使模型與人類特征的利用對齊,從而消除對抗性漏洞。如何指導模型使用“正確”的特征?盡管在與人類表征對齊方面,對抗性魯棒性取得了一些成功,但這個領域仍是一個開放的挑戰。在追求與人類對齊的學習中,可能需要全新的技術和方法論。

探索計算機視覺之外的非對抗性示例。本論文探討了作為增強圖像分類中ML模型魯棒性和可靠性的方法的非對抗性示例。然而,這一概念可以擴展到其他領域,如目標檢測、圖像分割等。在自然語言處理、語音識別和表格數據處理等領域,非對抗性示例可能發揮關鍵作用。是否可以合成非對抗性的語音信號或文本,以促進未來的識別?將這一點與水印技術相結合,特別是在檢測由LLMs和擴散模型生成的偽造內容方面,呈現出另一個令人興奮的探索方向。 將調試ML模型作為一個全面系統的一部分。本論文展示了偏見如何滲透整個ML流程,強調了調試整個過程以識別故障模式的必要性。重點特別放在源自模型本身的故障模式,或者基于其構建的預訓練模型。ML系統的哪些其他關鍵組成部分可能同樣引入偏見或故障?在ML部署的更廣泛背景下,開發專門的綜合調試工具的必要性日益增長。

付費5元查看完整內容

本報告總結了 DiSPARITY 團隊開發的數字、物理和語義圖像取證與完整性方法,該團隊由南加州大學信息科學研究所領導,在 2016 年至 2020 年期間參與了 DARPA 的媒體取證計劃。DiSparity 團隊開發了各種先進的數字完整性方法(如 NoisePrint、GAN 指紋和 ManTra-Net)和物理完整性方法(如無分割光方向估計和入射光方向分析)。

在本報告中,我們介紹了針對數字完整性、物理完整性和語義完整性提出并實施的新方法。在數字完整性研究方面,我們開發了相機指紋建模和操縱檢測算法,包括

  • 基于深度學習的噪聲圖譜來表示相機特征,并通過訓練的連體網絡和分類器分別進行相機身份匹配和分類,結果達到了最先進水平。

  • 生成攝像頭噪聲藍圖的 GAN。

  • 采用多種算法和模型來執行基于圖像的操縱檢測、復制/移動定位、拼接定位和視頻面部操縱檢測,在 Medifor 評估參與者中取得了最佳性能。

  • 值得注意的算法是 ManTraNet:一種端到端可訓練的圖像操作檢測算法。

  • 用于隔離視頻中深度偽造的雙分支遞歸網絡。評估結果顯示,其性能優于所有現有方法。

對物理完整性的研究主要集中在兩個方面--(1) 入射光方向估計和 (2) 相機和成像過程指紋識別的新方法。我們開發的物理完整性算法包括

  • 設計了兩種光向估計方法(基于梯度和基于卷積網絡),評估結果表明,應用光向估計時,拼接檢測性能非常好。

  • 一些用于描述攝像機特征的指紋,如色彩指紋(濾色片靈敏度、攝像機白平衡和額外的攝像機內部非線性特性,如伽瑪校正)、JPEG 庫色度子采樣指紋和攝像機深度圖像計算指紋。在語義完整性方面,我們設計了一個端到端系統,用于索引大型圖像數據庫,并檢索給定探針圖像的出處圖像。評估結果表明,我們的系統在三個參與者中的出處過濾性能排名第二。

在一個百萬張圖像的世界集合中,我們的系統可以可靠地檢索出超過 80% 的來源圖像,而這些圖像都是排名靠前的候選圖像。這表明該系統在實際應用中大有可為。

圖 1:使用連體結構進行訓練。一個 CNN 的輸出為另一個孿生 CNN 提供所需的(相同模型和位置)或不需的(不同模型或位置)參考。

付費5元查看完整內容

本報告描述了Draper團隊作為DARPA能力感知機器學習(CAML)項目的一部分,根據HR0011-20-C-0032號合同所開展的研究。Draper與分包商UT Austin、ASU和CU Boulder合作,開發了ALPACA(能力感知的概率和抽象自主學習),這是一個能力感知自主智能體的一般框架,特別是那些基于強化學習(RL)的智能體。ALPACA提供了對RL智能體能力的洞察力,并使用戶能夠檢查和約束智能體行為,促進與人類隊友建立信任,并極大地提高現實世界應用的安全性。

一個支持ALPACA的自主智能體可以:

  • 用自然語言交流其任務策略和預期性能
  • 識別影響其行為的(可觀察和隱藏的)條件
  • 評估其在特定情況下的行為和任務結果
  • 量化其信心,包括對其任務表現和能力評估的信心
  • 當它的能力發生變化或可能突破能力界限時,更新用戶。
  • 調整其行為以更好地保持性能并符合用戶期望

ALPACA通過兩種方式進行能力交流:

1.一般能力聲明描述了以前觀察到的智能體的策略、性能和行為狀況。

2.具體的能力評估預測智能體在特定場景下的策略和表現,包括任務前和在線的情況。這些評估對用戶的興趣有反應,可以解決新的場景,并且可以在線更新。

為了實現DARPA CAML計劃的目標,Draper ALPACA團隊開發了以下關鍵技術進展:

  • 通過對程序生成的人類可理解的特征(包括直接觀察到的和隱藏的)進行決策樹學習,進行條件識別。實現了DARPA的覆蓋要求。
  • 基于在抽象和分割的軌跡數據上推斷的時間邏輯的結構化語言策略。達到DARPA的正確性要求。
  • 基于遞歸深度生成模型的概率世界模型(PWMs),能夠準確預測長時間范圍內的代理狀態,同時量化無誤差和認識性不確定性。實現了DARPA的保真度要求。
  • 事件觸發的在線結果評估,利用PWM來實時評估和重新評估智能體在特定場景中的能力。實現了DARPA的可靠性要求。

Draper ALPACA團隊在兩個基于模擬的RL應用系統上研究、演示和評估了這些進展:推土機機器人操縱任務和多變天氣下的無人機飛行任務。內部和第三方的核查和驗證表明,該團隊能夠實現DARPA為CAML項目制定的所有目標指標。

付費5元查看完整內容

本報告收集了為支持將固有曲面地球模型引入下一代巡航導彈(NGCM)高保真建模與仿真(M&S)工具而進行的分析結果。這些結果用于記錄已實施的算法,預計與其他電子戰應用有關。

我們引入固有曲面地球模型的技術方法的關鍵原則是:1)確定代碼庫中與地球表面有關的計算的位置;2)重構代碼庫,將這些計算遷移到一個新的地球表面軟件對象。在其他方面,這涉及到引入一個關鍵的概念區別:以前,基座標框架和地球表面是混在一起的(地球表面和基座標系統的X-Y平面是一樣的);我們的改變要求把基座標框架和地球表面作為不同的角色分開。

不同的地球表面對象的實現可以模擬不同的地球表面形狀。對于開發和測試,我們的計劃是按照以下策略推出這些對象:首先是平面地球,以保留傳統的行為;然后是球面地球,最簡單的曲面,以支持暴露和消除整個代碼庫中隱含的平地假設,同時受益于盡可能簡單的幾何算法;最后是扁球體,該類包括WGS84,但其許多算法明顯比球體的算法更復雜。

付費5元查看完整內容
北京阿比特科技有限公司