由五艘無人水面航行器(UV)組成的小組在海域發現了一支敵方艦艇特遣隊,但無法將信息反饋給作戰員——這是一個有爭議的環境,而且該地區的衛星通信受到干擾。UV 協同工作,決定其中一個需要離開該區域,以便發回信息。
他們根據誰擁有最好的信息和在不被發現的情況下發送信息的最佳機會,決定五個中誰應該離開。被選中的 UV 會離開該區域,并自己找出發送信息的最佳條件,以及最安全、最有效的發送信息方式。
人工智能將很快為UV提供這些和其他先進的自主能力。但現在有一個問題。如此復雜的人工智能所需的計算機太大,需要的電力也太多,無法安裝在 UV 上。
人工智能需要的是一種減輕其工作量的方法,這樣機載計算機就可以更小、耗電更少。現在有兩種新方法可以做到這一點,它們可以讓計算機和人工智能本身模仿大腦的運行方式。
一種方法是新出現的計算機設計,它允許計算機在同一位置處理和存儲信息--類似于大腦的處理和存儲方式--而不是在兩個不同的位置。第二種新方法是,人工智能通過推理,用較少的數據得出結論--這就好比我們通過填補空白,即使只看到一個物體的局部,也能識別出它。
目前,UV 上的小型低功耗計算機只能支持 "狹義人工智能"--適用于一些基本活動,如監視和偵察。但有了這兩種 "大腦啟發 "方法,即使是高度復雜的人工智能也能在小型計算機上運行。這使得聯合部隊在印度洋-太平洋地區及其他地區為無人水面、水下和空中飛行器提供高級自主性在技術上是可行的。
在狹義人工智能方面,無人航行器還不夠智能,無法在許多重要方面自主行動。例如,它們無法獨立判斷自己發現的東西是否重要到足以提醒操作員--目前,無人航行器都是在預定時間進行行動。在跟蹤目標點時,它們并不總是知道如何有效地使用燃料,或者如何在不被發現的情況下進行 ISR。它們通常無法自主區分戰斗人員和非戰斗人員,也不知道如何應用交戰規則。它們只有有限的態勢感知能力。
理論上,無人航行器可以通過連接云端來利用復雜的人工智能,但這并不是一個可行的方案。在有爭議的環境中,UV 無法依靠衛星通信。即使在和平時期,電力和帶寬的限制也會限制與云的來回通信。因此,人工智能必須能夠在機上運行。
這兩種受大腦啟發的方法并不會讓人工智能變得更聰明——人工智能已經具備了在許多方面實現高級自主的能力。這兩種方法只是讓人工智能有可能在小型、低功耗的邊緣計算機上運行,而這些計算機是 UV 必須依賴的。
其中一種方法實際上改變了計算機的工作方式。如今的計算機擁有獨立的處理內核和內存內核。這意味著每次計算時,處理器都要進入內存,取出所需的數據,然后再拿回來處理。這種連續的來回切換帶來了繁重的工作量,尤其是對于每秒進行數十億次計算的人工智能而言。在大型、功能強大的計算機(如傳統艦船上的計算機)上,這種來回奔波可能不是問題,但在 UV 邊緣計算機上,這種來回奔波很快就會不堪重負。
我們的大腦以不同的方式運行。我們能夠在處理信息的同一位置保存大部分記憶,這使得我們最復雜的思維也能幾乎瞬間完成——這無疑是進化的優勢。模仿大腦的設計,人工智能研究人員正在開發將處理和記憶放在同一位置的計算機。這樣,即使是復雜的人工智能,其工作量也能在 UV 計算機上應付自如。
減少工作量的另一種方法是減少使用數據。人工智能研究人員正在通過模仿大腦如何利用推理在有限的信息中理解世界來實現這一目標。例如,當我們開車時,我們可以通過一些微妙的提示來預測其他駕駛員的行為,如汽車在變道前加速,或汽車在接近十字路口時向左側靠攏,然后再向右轉彎。這些情況我們已經見得多了,因此不需要任何額外的信息來調整我們的駕駛。我們從一些線索中進行推斷和預測的能力,正是我們能夠(通常)安全地自動駕駛,而不去想其他事情的原因之一。
通過訓練人工智能從少量線索中進行推斷,研究人員大大減少了人工智能所需的數據量和功率。例如,可以向人工智能提供敵方船只在特定區域的 "生活模式"。如果 UV 的傳感器發現異常,比如一艘船位于意想不到的位置,或者行為異常,這些都可能成為人工智能推斷船只意圖的線索。人工智能不必拼湊船只的每一個細節,也不必梳理它可能采取的每一個行動。只挑出相關的線索,人工智能只需進行一小部分可能的計算就能得出結論,這在小型邊緣 UV 計算機上是可行的。而且,人工智能的準確性將與在驅逐艦上運行大型、功能強大的計算機的人工智能一樣高。
訓練人工智能使用推理既是一門藝術,也是一門科學。要想選擇正確的線索并充分理解其含義,需要極其深厚的領域和任務知識。與此同時,人工智能專家還需要知道如何應用這些知識來實現自動駕駛。
如果印度洋-太平洋地區和其他地區的無人駕駛飛行器要獲得聯合部隊所需的自主水平,就需要重新考慮人工智能支持的邊緣計算。人腦可以提供靈感。
參考來源:U.S. Naval Institute
構建能夠在任何環境中無縫操作、使用各種技能處理不同物體和完成多樣化任務的通用機器人,一直是人工智能領域的長期目標。然而,不幸的是,大多數現有的機器人系統受到限制——它們被設計用于特定任務、在特定數據集上進行訓練,并在特定環境中部署。這些系統通常需要大量標注數據,依賴于特定任務的模型,在現實世界場景中部署時存在諸多泛化問題,并且難以對分布變化保持魯棒性。受到網絡規模大容量預訓練模型(即基礎模型)在自然語言處理(NLP)和計算機視覺(CV)等研究領域開放集表現和內容生成能力印象深刻的啟發,我們將本綜述(survey)致力于探索(i)如何將現有的NLP和CV領域的基礎模型應用于機器人技術領域,以及(ii)專門針對機器人技術的基礎模型將會是什么樣子。我們首先概述了傳統機器人系統的構成及其普遍適用性的基本障礙。接著,我們建立了一個分類體系,討論了當前利用現有基礎模型進行機器人技術探索和開發針對機器人技術的模型的工作。最后,我們討論了使用基礎模型啟用通用機器人系統的關鍵挑戰和有前景的未來發展方向。我們鼓勵讀者查看我們的“活動”GitHub倉庫,其中包括本綜述中審閱的論文以及相關項目和用于開發機器人技術基礎模型的倉庫資源://robotics-fm-survey.github.io/。
我們在開發能夠適應不同環境并在其中運作的自治機器人系統方面仍面臨許多挑戰。以往的機器人感知系統利用傳統深度學習方法,通常需要大量標記數據來訓練監督學習模型[1-3];與此同時,為這些大型數據集構建眾包標記過程仍然相當昂貴。此外,由于傳統監督學習方法的泛化能力有限,訓練出的模型通常需要精心設計的領域適應技術才能將這些模型部署到特定場景或任務[4, 5],這往往需要進一步的數據收集和標記。類似地,傳統的機器人規劃和控制方法通常需要精確建模世界、自主體的動力學和/或其他代理的行為[6-8]。這些模型針對每個特定環境或任務建立,并且在發生變化時通常需要重新構建,暴露了它們的有限可遷移性[8];事實上,在許多情況下,構建有效模型要么太昂貴,要么不切實際。盡管基于深度(強化)學習的運動規劃[9, 10]和控制方法[11-14]可以幫助緩解這些問題,但它們也仍然受到分布變化和泛化能力降低的困擾[15, 16]。
在構建具有泛化能力的機器人系統所面臨的挑戰的同時,我們也注意到自然語言處理(NLP)和計算機視覺(CV)領域的顯著進步——引入了大型語言模型(LLMs)[17]用于NLP,使用擴散模型進行高保真圖像生成[18, 19],以及使用大容量視覺模型和視覺語言模型(VLMs)實現CV任務的零次/少次學習泛化[20-22]。這些被稱為“基礎模型”[23],或簡稱為大型預訓練模型(LPTMS),這些大容量視覺和語言模型也已應用于機器人技術領域[24-26],有潛力賦予機器人系統開放世界的感知、任務規劃甚至運動控制能力。除了直接應用現有的視覺和/或語言基礎模型于機器人任務之外,我們也看到了開發更多針對機器人的特定模型的相當潛力,例如用于操控的動作模型[27, 28]或用于導航的運動規劃模型[29]。這些機器人基礎模型在不同任務甚至不同實體上顯示出了極大的泛化能力。視覺/語言基礎模型也已直接應用于機器人任務[30, 31],顯示了將不同機器人模塊融合為單一統一模型的可能性。盡管我們看到將視覺和語言基礎模型應用于機器人任務以及開發新的機器人基礎模型的有前景的應用,但許多機器人技術的挑戰仍然難以企及。從實際部署的角度來看,模型通常無法復制,缺乏多實體泛化能力,或者無法準確捕捉環境中可行(或可接受)的情況。此外,大多數出版物利用基于Transformer的架構,專注于物體和場景的語義感知、任務級規劃或控制[28];其他可能受益于跨領域泛化能力的機器人系統組成部分尚未被充分探索——例如,用于世界動力學的基礎模型或可以進行符號推理的基礎模型。最后,我們想強調需要更多大規模實際數據以及具有多樣化機器人任務的高保真模擬器。
在本文中,我們調查了基礎模型在機器人技術中的應用,并旨在理解基礎模型如何幫助緩解核心機器人技術挑戰。我們使用“機器人技術基礎模型”一詞來包括兩個不同的方面:(1)將現有的(主要是)視覺和語言模型應用于機器人技術,主要通過零樣本學習和情境學習;以及(2)使用機器人生成的數據開發和利用專門針對機器人任務的機器人基礎模型。我們總結了機器人技術基礎模型論文的方法論,并對我們調查的論文的實驗結果進行了元分析。
本文的主要組成部分在圖1中進行了總結。本文的整體結構如圖2所述。在第2節中,我們簡要介紹了基礎模型時代之前的機器人研究,并討論了基礎模型的基礎知識。在第3節中,我們列舉了機器人研究中的挑戰,并討論了基礎模型可能如何緩解這些挑戰。在第4節中,我們總結了機器人技術中基礎模型的當前研究現狀。最后,在第6節中,我們提出了可能對這一研究交叉領域產生重大影響的潛在研究方向。
機器人技術中的挑戰
在本節中,我們總結了典型機器人系統中各種模塊面臨的五個核心挑戰,每個挑戰都在以下小節中詳細介紹。盡管類似的挑戰已在先前文獻中討論過(見第1.2節),但本節主要關注那些可能通過適當利用基礎模型來解決的挑戰,這一點從當前研究結果中得到了證據。我們還在本節中描述了分類法,以便在圖3中更容易回顧。
用于機器人技術的基礎模型
在本節中,我們重點討論在機器人技術中零次學習應用視覺和語言基礎模型。這主要包括用于機器人感知的VLMs的零樣本學習部署,在任務級別和運動級別規劃以及動作生成方面的LLMs的情境學習。我們在圖6中展示了一些代表性的工作。
機器人基礎模型(RFMs)
隨著包含真實機器人的狀態-動作對的機器人數據集數量的增加,機器人基礎模型(RFMs)的類別也變得越來越可行[28, 29, 176]。這些模型的特點是使用機器人數據來訓練,以解決機器人任務。在本小節中,我們總結并討論了不同類型的RFMs。我們首先介紹能夠在第2.1節中的一個機器人模塊內執行一組任務的RFMs,這被定義為單一目的的機器人基礎模型。例如,一個能夠生成用于控制機器人的低級動作的RFM,或一個能夠生成更高級別運動規劃的模型。之后,我們介紹能夠在多個機器人模塊中執行任務的RFMs,因此它們是能夠執行感知、控制甚至非機器人任務的通用模型[30, 31]。
**如何利用基礎模型解決機器人技術挑戰 **
在第3節中,我們列出了機器人技術中的五個主要挑戰。在本節中,我們總結了基礎模型——無論是視覺和語言模型還是機器人基礎模型——如何以更有組織的方式幫助解決這些挑戰。
所有與視覺信息相關的基礎模型,如VFMs、VLMs和VGMs,都用于機器人技術中的感知模塊。而LLMs則更加多功能,可以應用于規劃和控制領域。我們還在這里列出了RFMs,這些機器人基礎模型通常用于規劃和動作生成模塊。我們在表1中總結了基礎模型如何解決前述的機器人技術挑戰。從這個表中我們可以看出,所有基礎模型都擅長于各種機器人模塊任務的泛化。此外,LLMs尤其擅長于任務規范化。另一方面,RFMs擅長處理動力學模型的挑戰,因為大多數RFMs是無模型方法。
對于機器人感知,泛化能力和模型的挑戰是相互聯系的,因為,如果感知模型已經具有非常好的泛化能力,那么就沒有必要為了領域適應或額外的微調而獲取更多數據。此外,解決安全挑戰的呼聲在很大程度上缺失,我們將在第6節中討論這個特殊問題。用于泛化的基礎模型 零次泛化是當前基礎模型的最顯著特征之一。機器人技術幾乎在所有方面和模塊都受益于基礎模型的泛化能力。首先,VLM和VFM作為默認的機器人感知模型在感知方面的泛化能力是一個很好的選擇。第二方面是任務級規劃的泛化能力,由LLMs[24]生成任務計劃的細節。第三個方面是運動規劃和控制方面的泛化能力,通過利用RFMs的力量。
**用于數據稀缺的基礎模型 **基礎模型在解決機器人技術中的數據稀缺問題上至關重要。它們為使用最少的特定數據學習和適應新任務提供了堅實的基礎。例如,最近的方法利用基礎模型生成數據來幫助訓練機器人,如機器人軌跡[236]和仿真[237]。這些模型擅長從少量示例中學習,使機器人能夠使用有限的數據快速適應新任務。從這個角度來看,解決數據稀缺問題相當于解決機器人技術中的泛化能力問題。除此之外,基礎模型——尤其是LLMs和VGMs——可以生成用于訓練感知模塊[238](見上面的4.1.5節)和任務規范化[239]的機器人技術數據集。
用于減輕模型要求的基礎模型 正如第3.3節所討論的,建立或學習一個模型——無論是環境地圖、世界模型還是環境動力學模型——對于解決機器人技術問題至關重要,尤其是在運動規劃和控制方面。然而,基礎模型展現的強大的少/零次泛化能力可能會打破這一要求。這包括使用LLMs生成任務計劃[24],使用RFMs學習無模型的端到端控制策略[27, 256]等。
**用于任務規范化的基礎模型 **任務規范化作為語言提示[24, 27, 28],目標圖像[181, 272],展示任務的人類視頻[273, 274],獎勵[26, 182],軌跡粗略草圖[239],政策草圖[275]和手繪圖像[276],使目標規范化以一種更自然、類人的格式實現。多模態基礎模型允許用戶不僅指定目標,還可以通過對話解決歧義。最近在理解人機交互領域中的信任和意圖識別方面的工作開辟了我們理解人類如何使用顯式和隱式線索傳達任務規范化的新范式。雖然取得了顯著進展,但最近在LLMs提示工程方面的工作表明,即使只有一個模態,也很難生成相關輸出。視覺-語言模型被證明在任務規范化方面尤其擅長,顯示出解決機器人技術問題的潛力。擴展基于視覺-語言的任務規范化的理念,崔等人[181]探索了使用更自然的輸入,如從互聯網獲取的圖像,實現多模態任務規范化的方法。Brohan等人[27]進一步探索了從任務無關數據進行零次轉移的這一理念,提出了一個具有擴展模型屬性的新型模型類。該模型將高維輸入和輸出,包括攝像頭圖像、指令和馬達命令編碼成緊湊的令牌表示,以實現移動操縱器的實時控制。
**用于不確定性和安全的基礎模型 **盡管不確定性和安全是機器人技術中的關鍵問題,但使用機器人技術基礎模型解決這些問題仍然未被充分探索。現有的工作,如KNOWNO[187],提出了一種測量和對齊基于LLM的任務規劃器不確定性的框架。最近在鏈式思考提示[277]、開放詞匯學習[278]和LLMs中幻覺識別[279]方面的進展可能為解決這些挑戰開辟新途徑。
2023 年 2 月 6 日,阿聯酋前副總統兼總理穆罕默德·本·拉希德·阿勒·馬克圖姆在推特上發布指示,要求相關部門向部長理事會提交一份緊急研究報告,研究政府從新的人工智能技術中獲益的最佳方式,特別是 Chat GPT 及其未來對教育、衛生、媒體和其他部門的影響,以及政府如何積極、安全地應對這些技術。
這條推文清楚地表明了阿聯酋領導對信息技術的興趣及其對各行各業的影響。
此外,它還表明了阿聯酋對國際現實和這項技術所帶來的潛在挑戰的認識和深刻理解,而要從這項技術中獲益,就必須對其進行研究和分析。
殿下明確指示要研究 Chat GPT 計劃,以便在各個領域從中獲益,根據這一指示,許多政府部門都對該計劃進行了試驗。
迪拜水電局董事兼首席執行官賽義德-穆罕默德-阿勒塔耶爾閣下宣布,該局正在微軟公司的支持下,努力利用 Chat GPT 技術豐富其服務內容,以便在各種內部和外部服務中從中受益,從而使該局成為世界上第一個使用這種新技術的公共服務機構,也是阿拉伯聯合酋長國第一個使用這種新技術的政府機構。
沒過多久,阿聯酋教育部也緊隨其后,教育部長艾哈邁德-貝爾胡勒-法拉西(Ahmad Belhoul Al Falasi)博士閣下宣布,將允許學生使用這種先進技術,并根據該計劃帶來的新技術發展,對阿聯酋教育課程進行全面研究,尤其是該國的教育正處于一場根本性革命的邊緣。
一些政府機構采取的這些舉措,是其他機關和機構在使用 Chat GPT 計劃道路上邁出的第一步,其方式符合國家在這一領域的發展方向,實現了這些部門的目標,增強了它們的能力,符合國家酋長和領導人的未來愿景。
Chat GPT 是一款基于對話的人工智能聊天機器人,能夠理解自然的人類語言,并生成準確的類人文本,令人印象深刻。
它是一種語言模型,主要依靠人工智能,經過不同語言的訓練,使其能夠以類似人類的方式創建新文本并回答問題和對話,因為它主要依靠深度學習技術來更好地理解文本和回答問題,可用于翻譯、客戶服務、教育、健康、電子商務等多個領域。
該程序的工作原理是分析文本,從中學習,并利用這些信息創建新文本和回答各種問題。
此外,它還可用于創建信息、電子郵件、即時消息、內容生成、機器翻譯等。
Chat GPT 是人工智能領域的一項現代創新技術,越來越多地應用于各個領域。
這種新程序利用人工智能技術進行訓練,通過研究文本中單詞之間的關系來分析和理解自然語言,從而生成文本。
因此,Chat GPT 技術依賴自然語言處理的方式與人腦類似,先將文本分析成單詞和句子等小單元,然后再確定這些單元之間的關系,這樣 Chat GPT 就可以利用在線提供的語言數據進行大規模訓練,使其能夠學習單詞之間更復雜的關系,并在先前已知和有序的數字上下文中根據先前學習的語言模式生成新文本。
在Chat GPT 中輸入文本時,該模型會使用先前的知識,根據上下文和含義生成新文本,這意味著它可以在許多應用中生成文本,例如在聊天機器人中生成信件或自動回復。
為了實現這種高度一致性,最初的 GPT-3 模型是在一個包含 800 多萬個網頁的數據集上進行訓練的,這使它能夠一致地生成各種語言和格式的文本。
Chat GPT 是 GPT 范式的一種變體,專門設計用于聊天機器人和對話式人工智能系統。
該模型在大量聊天對話數據集上進行訓練,可以生成適當、一致甚至高度相關的回復。
除了生成回復,該程序還可用于翻譯、總結文本、編寫計算機代碼和回答問題等任務。
總之,它是構建聊天機器人和其他會話式人工智能系統的強大工具,能與用戶進行自然、一致的互動。
該程序是OpenAI制作的最新聊天機器人,OpenAI是一家獨立研究機構,于2015年底由Twitter的所有者埃隆-馬斯克(Elon Musk)和其他投資者共同創立。
Chat GPT 可用于執行各種任務,如文本生成、翻譯和理解問題,以及自行回答問題和為用戶提供幫助。
此外,它還能承認錯誤、質疑語言結構并拒絕不適當的請求。
Chat GPT 在現實生活中的應用可以包括為網站創建內容、回復客戶咨詢、提供建議以及創建自動聊天機器人。
未來,這個程序將提供一個機器人,可以為你完成工作,甚至為你發現新知識。
如今,經過多年的發展,該程序可以收集與特定主題相關的軍事報告、文本和信息的數據集,然后利用它自動創建報告中所含信息的摘要,或識別可能無法立即察覺的關鍵信息。
通過這一關鍵功能,可以簡明、一致地對新聞文章、社交媒體帖子或政府文件等大型數據集進行文本總結和分析,快速識別重要信息和趨勢,準確了解敵人(無論是人員、組織還是地點)。
目前,Chat GPT 用于分析數據中表達的情感,無論是積極、消極還是中性的情感,此外,它還有助于更好地了解人們對特定主題的情感,從而有助于根據準確的信息制定有針對性的軍事宣傳戰略。
多年來,人工智能(AI)一直被用于媒體戰爭,它的存在在信息的大規模傳播過程中很常見,尤其是在推特和其他社交平臺上使用機器人或虛假賬戶,然而,人工智能在信息戰中的應用從未超出廣泛重復相當簡單的信息的范圍。但是,"Chat GPT "是否使用了能夠模擬人類簡單寫作風格的機器人?
這個問題的答案是 "不",它是關于信息獲取、分析、傳播和操縱方式的一場新革命。
信息戰爭早在幾年前就開始了,具體來說,微軟和谷歌宣布在其BingGPT搜索引擎中整合生成文本的聊天機器人,2020年,科技巨頭們設法建立了模擬ChatGPT的模型,如谷歌的LamDA2。
2021 年底,英偉達(Nvidia)和微軟(Microsoft)吹噓開發出了擁有最多參數(5300 億)的英語模型,用于自然語言生成。
多年來,各國政府、組織和公司一直在將人工智能解決方案融入其媒體宣傳中,特別是通過使用專門編程的 "聊天機器人 "來模擬自然語言對話,從而幫助用戶解決問題、訂購產品或購買服務,這在法國國家鐵路公司(SNCF)、Orange、Fnac、宜家等網站以及亞馬遜公司的 Alexa 或蘋果公司的 Siri 等其他公司中都有所體現,這些公司設法使用這些機器人以簡單易懂的方式向廣大受眾解釋復雜的概念,并流暢可靠地提供答案。
在過去幾年里,這些公司之所以能快速高效地開發出自己的程序,是因為它們堅信未來的信息戰將是決定性的,尤其是在軍事領域。
在軍事信息戰中,ChatGPT 可以分析來自傳感器和其他來源的數據,以識別和跟蹤戰場上的目標,通常用于提高戰場上自主系統的準確性和有效性,以及評估風險,從而更好地決定如何安全有效地行動。
該程序可用于獲取非常準確的信息,如私人文件及其檢索方法,或從文本數據中提取和跟蹤特定信息,如姓名、日期或地點,以及驗證軍事信息是否準確和完整。
在后勤層面,該程序可對軍事庫存進行管理,分析發票或貨運單據上的文本數據,并提取有關庫存數量、類型和地點的信息。
這樣就可以跟蹤庫存水平,確保在需要時供應物資。
此外,它還有助于分析飛行計劃數據,提取有關運輸路線和時間表的信息,以便在戰斗中制定明確的對敵策略。
鑒于大部分信息戰和宣傳戰都發生在社交網站層面,因此 Chat GPT 將成為軍事機構分析這些平臺上流傳的大量信息的首要任務,并致力于提取有關輿論、情緒和常見話題的重要信息,尤其是那些分析某個團體的立場或信息以確定其議程的信息。
然而,"ChatGPT "的功能并不僅限于為軍事戰略服務的這一層面的信息分析,它還可以有效地用于深度偽造活動,如根據特定的議程或信息制作虛假的文本和新聞稿,甚至是演講稿,例如在向媒體發布之前,先制定一份新聞稿,從正面或負面來描述特定的軍事行動,或者制作深度偽造視頻,然后用來冒充政治人物或軍事領導人,或傳播虛假信息。
此外,該軟件還能分析圖像、視頻、自然語言處理和語音識別,通過安全攝像機鏡頭檢測和識別物體、人物或其他感興趣的特征,甚至翻譯語音以提取有價值的信息或檢測可疑活動。
它還可以分析文本,如社交媒體帖子或聊天信息,以檢測表明異常活動的模式或關鍵字。
總之,"ChatGPT "可用于軍事信息的多個領域,從而使信息戰成為直接對抗之前真正的決定性戰爭。
軟件可以自行開發,提供最簡單和最復雜主題的準確信息,如預測未來幾個月的天氣,為你提供準確的地形分析,直至軍事信息,幫助你制定準確有效的戰略,如生成逼真的場景和模擬真實的戰斗。
許多信息戰、宣傳和虛假信息領域的專家認為,Chat GPT 通過模擬人們的寫作風格,巧妙地生成大量不同的信息,特別適合開展這類宣傳活動。
這種技術可以有效地傳播虛假信息,無需人工,只需依靠機器就能創造出多樣、可信的內容,因為你可以給數百萬個這樣的機器人編程,讓它們像人一樣行動,并進行旨在說服人們相信某種觀點的對話。
事實上,通過這種軟件,機器人可以充當宣傳媒體活動的 "幽靈編輯",發布成千上萬篇文章和反駁文章,由于機器人生成的內容和人類撰寫的內容變得一模一樣,全球信息公司都在積極尋求使用這種技術。
另一方面,該軟件也可以成為發現操縱行為和挫敗誤導性宣傳戰的重要而有效的工具,尤其是在軍事領域,利用同樣的機制來發現操縱行為和弱點,特別是如果在這種戰爭中使用黑客的話。
最近,一些黑客承認,該程序能有效地幫助他們更快地發現漏洞,而在過去,這個過程需要更長的時間、多個程序和多種技術,因為傳統的虛擬助手無法準確地發現系統中沒有預先編程的漏洞,因為它們只能獲取特定的信息,無法發展自己的搜索方法,發現人類尚未發現的安全漏洞。
因此,它是技術人員檢測網絡釣魚電子郵件、惡意鏈接和其他形式的社會工程學攻擊的非常有效的工具,尤其是那些看似來自銀行或政府機構等合法來源的電子郵件,卻誘騙收件人提供敏感信息或點擊惡意鏈接,以及識別和提取與網絡安全相關的信息,如網絡釣魚企圖和網絡攻擊。
參考來源:aljundi
一種新的戰區級模擬器旨在幫助軍方和工業界領導人評估平臺、武器和網絡在火力下如何協同工作--提供一個測試聯合全域指揮與控制(JADC2)背后系統的機會,這是五角大樓將全球傳感器和射手連接起來的全面計劃。
**快速戰役分析和演示環境(RCADE)**由 RTX 的防務業務單元雷神公司開發,用于評估當前或正在開發的系統架構如何實現戰役目標,例如通過使一定數量的威脅失效來拖延入侵。美空軍也有類似的項目,如 "合成戰區作戰研究模型"(STORM)和最新的 "聯合模擬環境"(Joint Simulation Environment),但 RCADE 的目的是在更大的范圍內進行模擬,并以更快的速度得出結果:從幾周或幾個月縮短到幾個小時。
雷神公司首席技術研究員喬治-布拉哈(George Blaha)在8月31日的一次媒體活動上對記者說:"我們從一開始就將其打造為敏捷、戰區規模大且靈活的系統,這樣我們就可以執行空軍任務和海軍任務,并在聯合多域作戰中一并審視這一切。"
"速度是一個絕對關鍵的要求......這樣我們才能快速獲得洞察力,"布拉哈補充道,"我們在系統上撒了一張大網,因此它不僅僅是'運行一個作戰計劃或戰役,看看結果如何',而是幾十個、幾百個架構概念、紅色作戰命令、紅色戰略、藍色戰略等等。
圖:RTX 圖像描述了一個假想場景,展示了 RTX 如何與客戶合作,使用 RCADE 模擬任何領域的任務場景。藍色倒 U 形圖標代表美國和加拿大飛機,紅色圖標代表來襲威脅,藍色矩形線代表雷達預警線。所顯示的圖像是編造的數據,僅供公開發布之用,并不代表 RCADE 的全部功能。
它的規模也很大,可以將數千個實體繪制成一個場景。這對于規劃和計劃層面的分析尤為有用。
布拉哈舉例說明了 RCADE 對敵方轟炸機和巡航導彈向南飛越北極上空的反應進行測試的情況。在一次試驗中,美國和加拿大的防御戰斗機只從軍用機場起飛,這限制了它們在作戰區域的閑逛時間,使一些威脅得以到達美國大陸。在第二次試驗中,戰斗機在附近的民用機場加油--這屬于空軍敏捷作戰部署概念的范疇--增加了它們的閑逛時間,結果多摧毀了25%的威脅。
通過 RCADE,計劃人員可以比較這些情況,以及超視距雷達、遠程空對空導彈或改進的指揮控制系統等升級的效果。然后,該系統可以在圖表上顯示數百次運行的結果,并在一個坐標軸上顯示被摧毀巡航導彈的百分比,在另一個坐標軸上顯示與美國大陸的攔截距離等指標。
布拉哈說:"在這些模擬中,從指揮和控制行為到后勤行為等許多事情都可以發生變化。"
RCADE的出現正值RTX公司(最近更名為雷神技術公司)希望將自己定位為不僅提供導彈和傳感器等單個系統,而且提供這些系統如何相互作用的分析之際。
雷神公司空中力量總裁保羅-費拉羅(Paul Ferraro)說:"作為一級供應商,我們的部分職責是了解任務的優先級,并對架構和方案進行評估,為正確決策提供依據。"
這種思路與空軍自身加強 "殺傷鏈 "的努力不謀而合,"殺傷鏈 "是指發現、識別、跟蹤和摧毀特定目標所需的一系列步驟。米切爾研究所(Mitchell Institute)資深常駐研究員希瑟-彭尼(Heather Penney)在今年 5 月發表的一份相關研究報告中寫道,自 1991 年海灣戰爭以來,大國一直在研究空軍的殺傷鏈,并想方設法阻止或破壞它。
美空軍指揮、控制、通信和作戰管理綜合項目執行官盧克-C.G.-克羅普西準將在空軍的應對措施中發揮著關鍵作用。
"架構勝于產品,"他在 8 月份的一次行業活動上說。"為了贏得長期的勝利,你實際上必須擁有一個與你在該架構中擁有的單個節點或代理相對無關的架構"。
費拉羅強調,RCADE 是非賣品。相反,該公司和政府同意根據《合作研究與開發協議》共享數據,以促進模擬器的發展。
"這不是雷神公司的產品,"他說:"我們不是在銷售它,不是在租賃它,也不是在許可它。這有利于我們思考,有利于我們與客戶接觸,有利于我們了解我們可以在哪些方面做出貢獻。
圖:RTX 的一幅圖片展示了 "美國陸軍戰術情報目標訪問節點(TITAN)地面站的原型,該地面站將通過快速梳理海量傳感器數據來發現和跟蹤潛在威脅"。RTX 提供
雷神公司已經利用 RCADE 測試了可以支持 JADC2 的系統。6 月 7 日的一份新聞稿描述了陸軍如何在 RCADE 中對一個數據收集地面站進行為期一年的測試,然后再進行為期三個月的實地測試。戰術情報瞄準接入節點是 RTX 的另一個產品,旨在更好地連接太空、海洋和陸地傳感器,使遠程精確射擊更加精確。
新聞稿說:"快速而準確的模擬能力表明,RTX 工程師不僅能制造和部署完成 JADC2 計劃所需的技術,還能幫助軍方客戶了解他們的需求,并預測這些技術將如何協同工作。"
雖然它將對空中力量產生影響,但最終成為 RCADE 的項目最初始于 2016 年的 "跨域海上監視和瞄準 "計劃,該計劃模擬了海軍如何在有爭議的環境中遠距離瞄準敵方艦艇和潛艇。隨著時間的推移,陸軍、空軍和國防部長辦公室都表示出了興趣,該計劃也隨之發展壯大。經過多年的發展,RCADE 現在已經 "真正步入正軌",布拉哈說。
但仍有一些方面需要改進。布拉哈說,RCADE 在空中、陸地和海洋領域都很強大,但在太空領域還有發展空間。他還希望使其在人工智能和稱為強化學習的機器學習領域有更強的能力,這將有助于實現模擬器某些功能的自動化。費拉羅表示,模擬器不斷增強的功能將使戰斗場景變得越來越復雜--例如,包括大量的戰斗協作飛機和無人駕駛水下飛行器。
他說:"當威脅發生顯著變化,應對威脅的方法也發生顯著變化時,這就為你提供了一種客觀分析各種架構和參與不斷變化的任務集的各種方式的方法。"
參考來源:AIR & SPACE FORCES MAGAZINE
生成式人工智能(GenAI)技術,如大型語言模型(LLMs)和擴散模型,已經改變了計算領域的格局。它們啟用了一些令人興奮的應用,例如生成逼真的圖像、自動代碼補全和文檔摘要。然而,敵手也可以利用GenAI(這是典型的“雙重用途”情況)。例如,敵手可以使用GenAI生成釣魚電子郵件或者傳播虛假信息的逼真內容。注意,這些攻擊以前就有可能,但由于GenAI的影響,這些攻擊的速度/規模可能會大大提高。 我們正在組織一個關于GenAI風險的研討會,重點關注如下幾個問題:
[1] 攻擊者如何利用GenAI技術? [2] 針對GenAI技術,安全措施應該如何改變? [3] 在設計對策時,我們應該關注哪些當前和新興的技術?
每項重大的技術發明都會重新引發雙重用途困境——新技術有可能用于善也有可能用于惡。生成式人工智能(GenAI)技術,如大型語言模型(LLMs)和擴散模型,已經展示了顯著的能力(例如,在上下文中學習、代碼自動完成以及文本到圖像的生成和編輯)。然而,攻擊者同樣可以利用GenAI來生成新的攻擊手段,并增加現有攻擊的速度和效果。 本文報告了在谷歌(由斯坦福大學和威斯康星大學麥迪遜分校共同組織)舉行的一個關于GenAI帶來的雙重用途困境的研討會的發現。這篇論文并非旨在全面探討,而是試圖綜合研討會中一些有趣的發現。我們討論了社群在這個話題上的短期和長期目標。我們希望這篇論文既能為這一重要話題提供一個討論的起點,也能提出一些研究社群可以努力解決的有趣問題。 概述
強大的技術的出現,比如生成式人工智能,帶出了雙重用途的困境,根據維基百科的定義是: . . . 雙重用途也可以指任何能夠在任何給定時間滿足多于一個目標的商品或技術。因此,本來只能造福民用商業利益的昂貴技術,如果沒有另外的用途,也可以用于軍事目的,比如全球定位系統(GPS)。 這個困境最初是由于合成和大規模生產氨的過程的發現而引起注意的,這一過程用現代化肥革命了農業,但也導致了第一次世界大戰中化學武器的創造。這個困境導致了一些有趣的政策決策,包括國際條約如化學武器公約和不擴散核武器條約[92]。在計算機安全和密碼學中,雙重用途困境在多個情境中出現。例如,加密用于保護“靜態數據”,但也可以被勒索軟件用來加密文件。同樣地,匿名技術可以幫助保護普通用戶在線,但也可以幫助攻擊者逃避檢測。 生成式人工智能(GenAI)技術,如大型語言模型(LLMs)和穩定擴散,已經展示了顯著的能力。其中一些令人驚奇的能力包括在上下文中學習、代碼補全和生成逼真的多媒體內容。然而,GenAI重新引發了“雙重用途困境”,因為它可以用于生產性和惡意目的。GenAI已經為攻擊者和防御者提供了強大的新能力,并且正在迅速改進。這改變了針對個人、組織和各種計算機系統的惡意攻擊的格局。過去那些因為使用初級英語而能被檢測出的笨拙的“尼日利亞騙局”已經成為過去。我們也看到了改進防御的機會,包括監控電子郵件和社交媒體上的操縱性內容,以及極大地改善網絡入侵檢測的潛力,例如。無論GenAI的快速發展和廣泛應用最終是有利于攻擊者還是防御者,未來幾年肯定會存在許多不可預測和不確定性,因為這些工具和我們使用它們的能力在不斷演變。GenAI已經改變了威脅格局,因此我們需要更好地了解它。 第二部分描述與攻擊和防御相關的GenAI能力。 第三部分聚焦于攻擊者如何利用這些GenAI能力。第四部分探討防御者如何利用GenAI技術來減輕這些攻擊的風險。這份攻擊和防御的列表并非旨在全面,而是反映了研討會期間反復出現的幾個主題。社群的短期(即,在接下來的一兩年內)目標在第五部分中進行了討論。與具有挑戰性問題相對應的長期目標在第六部分中進行了討論。我們以一些結論性的言論結束本文。我們承認這篇論文并不是這個話題的最終觀點,并重申它并非旨在全面。本文的重點是總結研討會的發現,并描述研究社群面臨的一些有趣的問題和挑戰。 生成式人工智能能力
由OpenAI [70, 68, 69]、Google [32]、Meta [60]、Salesforce [65]、開源團隊 [62]以及其他團隊 [61]開發的模型和工具代表的生成式人工智能(GenAI)為專家和普通大眾帶來了廣泛的新能力。合成生成圖像、文本、視頻和音頻的能力包括: * 生成與最佳手工編寫的消息散文相媲美的有針對性文本,具有模仿、同情以及引用任何先前溝通或情境的具體內容的能力。 * 生成逼真的圖像和視頻,這些圖像和視頻可以基于非常具體的用戶輸入進行定制。合成逼真組件的組合和引人注目的深度偽造容易制作并且非常引人注目。 * 由于訓練集中包含大量和復雜的源材料,能夠借鑒詳細的技術知識和專業知識。特別是,模型可以生成和分析復雜的源代碼或機器代碼,重現專門的推理,并回答關于生物學、計算機架構、生理學、物理學、法律、防御策略和其他主題的復雜問題。目前的模型并不是無懈可擊的,但能夠有效地執行某些任務具有改變游戲規則的能力。 * 總結或改述給定的源材料或溝通,保持風格、語氣、意義、情感和意圖。 * 在不降低質量的情況下,持久地進行耗時和令人疲憊的任務。雖然人類容易疲勞,例如在檢查具有挑戰性的社交媒體溝通時可能會遭受心理創傷,但AI模型可以毫不動搖地繼續。
攻擊
本節討論了由生成式人工智能(GenAI)啟用或加強的攻擊。然而,本節并不是對這一主題的全面討論,也不是最重要攻擊的優先列表。這些是在研討會期間由演講者和小組成員提到的攻擊。 GenAI系統非常擅長生成逼真的輸出,在多種模態(文本、圖像、視頻、音頻等)下,很多時候與現實或歷史事實、物理定律、數學定律或社會規范和法規幾乎沒有聯系。例如,圖1顯示了兩個(據稱是)由GenAI創建的輸出以及相關分析,指出了這些輸出為何是假的和誤導性的。大型語言模型(LLMs)有一些固有的局限性,比如幻覺。幻覺可能會侵蝕對LLMs的信任,特別是如果攻擊者頻繁觸發它們。換句話說,LLMs的固有局限性為攻擊者提供了一個途徑。基于或由LLMs加強的攻擊包括: 網絡釣魚。由于生成式人工智能(GenAI)的出現,過去用于檢測釣魚電子郵件的糟糕語法、拼寫錯誤和不尋常的問候方式已經一去不復返了。現在,騙子可以熟練地制作連貫、富有對話性和令人難以置信的令人信服的釣魚電子郵件,使它們難以與合法通信區分開來。這一技術進步對在線安全構成嚴重威脅。更為復雜的是,GenAI能夠利用社會工程學策略來生成專門針對個別目標量身定制的釣魚電子郵件。例如,這些模型可以從目標的社交媒體信息流中獲取信息,并使用它來創建高度個性化的消息,從而增加成功欺騙接收者的可能性。
GenAI模型容易出現“幻覺”,即生成的輸出在表面上看似連貫,但可能在事實上是錯誤的或完全捏造的。這種對事實真實性的缺乏是一個重大問題,特別是當沒有足夠領域知識的用戶過度依賴這些越來越令人信服的語言模型時。這種過度依賴的后果可能是有害的,因為普通用戶可能不了解這一局限性。一個突出這一問題的現實世界例子是一名紐約律師用ChatGPT為法律案件準備文件,不幸的是,由ChatGPT生成的文本包括了六個完全捏造的案例。這名被告律師不知道ChatGPT不是一個“搜索工具,而是一個生成性的語言處理工具”。
GenAI模型擅長快速、大規模生成高保真多模態輸出,幾乎不需要人工干預。不幸的是,這一能力可能被惡意用戶利用,廣泛傳播與他們特定敘述相符的錯誤信息和假信息。在沒有數據出處的情況下,毫無戒心的讀者容易成為假消息的受害者。這樣的風險涵蓋從黃色新聞到信息生態系統的危險政治化,媒體被有目的的錯誤信息污染。
GenAI模型具有極大地放大網絡攻擊規模、效力和隱蔽性的潛力。例如,當前的LLMs表現出生成高質量代碼的顯著效能,對手可以利用這一點自動設計復雜的惡意軟件;這樣的惡意軟件甚至可能包括自動代碼生成和執行功能。此外,LLMs可以用于創建智能代理系統,自動設計和執行攻擊,多個LLMs可以處理不同的角色,例如規劃、偵查、搜索/掃描、代碼執行、遠程控制和數據竊取。一個例子是ChemCrow化學代理,它被開發用于執行有機合成、藥物發現和材料設計等任務。ChemCrow展示了自主規劃合成多種化合物(包括一種驅蟲劑和三種有機催化劑)的能力。然而,這種進步是有代價的,因為它創造了更大的攻擊面。
進行網絡攻擊曾經需要在多個語言處理任務上進行大量的人工工程,使其成為一個耗時、費力和成本高昂的努力。然而,隨著GenAI模型的出現,語言處理得到了徹底改革,實現了前所未有的速度、最少的人工干預和微不足道的金錢成本。首先,攻擊規模大幅增加。最近,StackOverflow平臺在一次拒絕服務(DoS)攻擊中被LLMs生成的回復淹沒,這讓人類版主不堪重負,并促使對LLMs進行了暫時的封禁。此外,GenAI模型的廣泛可用性為更多潛在對手敞開了大門。
GenAI模型在生成語法和語義正確的文本方面表現出色,這些文本在統計上與給定的提示一致。然而,它們缺乏對社會背景、社會因素(例如,文化、價值觀、規范)以及我們自然期望的與人交往時的敏感性的更廣泛的理解。因此,當GenAI模型繼續發展并獲得人們的信任時,這一局限性可能會對毫無戒心的用戶造成嚴重后果。
從公開可用的互聯網數據派生的數據集已經成為大規模機器學習成功不可或缺的一部分。然而,隨著GenAI模型越來越受歡迎,機器生成的輸出將不可避免地出現在互聯網上。這種數據反饋為未來依賴于從互聯網上抓取數據的訓練迭代帶來了潛在問題。
現今的LLMs完全是通用目的的,能夠在零樣本設置中(即,沒有任何訓練數據)執行多種語言處理任務。隨著我們不斷探索這些模型的能力,我們不斷發現新的“突現能力”,這些能力并沒有被明確地設計進去。
隨著GenAI能力的不斷發展,已經提出了幾種類型的防御措施。這些防御措施涵蓋了從改進GenAI系統的核心功能(例如,通過更好的訓練進行對齊)到增強這些GenAI系統集成到的生態系統(例如,LLM輸出檢測,LLM輸出水印)以及更好地使用GenAI(例如,人機合作)等多個方面。本節討論與GenAI有關的防御措施。再次強調,鑒于防御措施的廣闊領域,本節并非旨在全面討論此主題,也不是最重要防御措施的優先列表。這些是在研討會上由演講者和小組成員提到的防御措施。
LLM內容檢測:有一系列工作專注于檢測由LLM生成的內容(即,給定一個文本x,檢測器D(x)輸出1(如果由LLM生成)或0(如果是自然文本)。值得注意的是,這里的文本沒有什么特殊之處,因為檢測器也可以為其他形式設計,例如圖像、代碼或語音。本質上,這些檢測器利用由LLM生成的文本分布與自然文本稍有不同的事實。假設我們有這樣一個檢測器D,那么你基本上可以用它來檢測由LLM生成的內容,并根據此做出決策(例如,抑制一個包含由LLM生成的內容的推文)。然而,這種檢測器存在被強大攻擊擊敗的風險[78]。這些攻擊的關鍵思想是,這些檢測器對于改述(paraphrasing)并不不變——即,一個由LLM生成的文本可以通過改述的方式使得像DetectGPT[63]這樣的檢測器無法檢測出它是由LLM生成的。
水印技術:在水印過程中,一個“統計信號”被嵌入到GenAI生成過程中,以便稍后可以檢測到這個信號。例如,在文本生成的情況下,下一個標記預測的概率稍微被調整,以便稍后可以檢測到。水印技術的目標是,文本或圖像可以被歸因于由某個特定系統(例如GPT或DALLE)生成。然而,通過簡單的轉換(例如文本的改述)很容易就能移除水印[78]。
代碼分析:代碼分析是一個難題(即,由于Rice定理,大多數靜態分析問題是不可判定的)。對于與信息安全相關的問題(例如惡意軟件檢測),問題更加復雜,因為對手會嘗試混淆代碼以逃避檢測。
滲透測試:滲透測試(簡稱pen-testing)是評估系統脆弱性的主要技術之一。然而,滲透測試可能是一個繁瑣且主要是手動的任務。不充分的滲透測試可能導致部署脆弱的系統,從而在后續過程中引發重大問題。
多模態分析:在LLM領域的最新進展(例如由DeepMind發布的[71])引入了對多個模態的支持,包括文本、代碼、圖像和語音。通過一起利用多個模態,LLM可以提供對復雜信息更全面的理解。
個性化技能培訓:通過利用GenAI在多個領域生成高保真媒體的能力,可以創建定制的、滿足個體學習者獨特需求的沉浸式學習體驗。
人機合作:LLM的最新進展展示了它們在任務如可靠的文本分類、文檔摘要、問題回答和在多個領域生成可解釋性解釋等方面的出色能力。
結論
每一項重大的技術進步,比如GenAI(通用人工智能),都會引發雙重用途的困境。我們的論文探討了這些強大技術的攻擊和防御能力。本文并不是該話題的“最終定論”。我們的論文受到了在Google舉辦的研討會的影響,但這也意味著觀點更偏向于研討會的發言人和參與者。短期目標(第5節)描述了社群應立即開始調查的一些問題。長期目標(第6節)描述了需要大量研究努力的挑戰性問題。這個研討會只是一個開始,我們認為需要多次此類會議以探索完整的領域。然而,我們相信,對GenAI風險及其緩解措施的調查至關重要和及時,尤其是因為攻擊者已經開始使用這些技術,防御者不能被“措手不及”。
在大量文本數據中篩選并總結關鍵信息對于醫生如何分配他們的時間構成了巨大的負擔。雖然大型語言模型(LLMs)在自然語言處理(NLP)任務中展現了巨大的潛力,但它們在多樣的臨床總結任務中的有效性尚未被嚴格檢驗。在這項工作中,我們使用領域適應方法對八個LLMs進行了調整,這些模型覆蓋了六個數據集和四個不同的總結任務:放射科報告、患者問題、進展注釋和醫患對話。我們全面的量化評估揭示了模型和適應方法之間的權衡,以及最新進展在LLMs上可能不會帶來改進結果的情況。進一步,在與六名醫生進行的臨床閱讀研究中,我們描述了最佳適應的LLM生成的摘要在完整性和準確性方面優于人工摘要。我們接下來的定性分析描繪了LLMs和人類專家共同面臨的挑戰。最后,我們將傳統的量化NLP指標與閱讀研究分數進行了相關性分析,以增強我們對這些指標如何與醫生偏好一致的理解。我們的研究標志著LLMs在多個臨床文本總結任務中首次超過人類專家的證據。這意味著將LLMs整合到臨床工作流程中可能減輕文檔負擔,使醫生能夠更多地專注于個性化患者護理和醫學中其他不可替代的人類方面。
如何探索CV中的AGI?華為這篇論文進行了論述
人工智能社區一直在追求被稱為通用人工智能(AGI)的算法,這些算法可以應用于任何類型的現實世界問題。最近,由大型語言模型(LLMs)驅動的聊天系統嶄露頭角,并迅速成為在自然語言處理(NLP)中實現AGI的有力候選,但是在計算機視覺(CV)中實現AGI的道路仍然不明朗。這種困境可能歸因于視覺信號比語言信號更復雜,但我們對尋找具體原因以及吸取來自GPT和LLMs的經驗以解決問題充滿了興趣。在這篇論文中,我們從AGI的概念定義開始,簡要回顧了NLP如何通過聊天系統解決各種任務。這個分析啟示我們,統一性是CV的下一個重要目標。但是,盡管在這個方向上做出了各種努力,CV仍然遠離像GPT那樣自然集成所有任務的系統。我們指出,CV的根本弱點在于缺乏從環境中學習的范式,然而NLP已經在文本世界中完成了這項任務。然后,我們設想了一個流程,將一個CV算法(即,一個代理)放置在世界級的、可交互的環境中,預先訓練它根據其行動預測未來的幀,然后對其進行細化訓練以完成各種任務。我們期望通過大量的研究和工程努力推動這個想法向前發展并進行擴大,對此,我們分享了我們對未來研究方向的觀點。
1. 引言
世界正在見證向人工通用智能(AGI)的史詩般的奧德賽,我們按照慣例將AGI定義為可以復制人類或其他動物可以做的任何智能任務的計算機算法。特別是,在自然語言處理(NLP)中,已經開發出了一些可以通過與人類聊天來解決各種任務的計算機算法。一些研究人員認為,這樣的系統可以被看作是AGI的早期火花。這些系統大多是基于大型語言模型(LLMs)建立的,并通過指令調優進行增強。它們配備了外部知識庫和專門設計的模塊,可以完成諸如解決數學問題、生成視覺內容等復雜任務,反映了它強大的理解用戶意圖和進行初步思維鏈的能力。盡管在某些方面(例如,講述科學事實和命名人物之間的關系)存在已知的弱點,但這些開創性的研究已經顯示出一個明確的趨勢,即將NLP中的大多數任務統一到一個系統中,這反映了對AGI的追求。 與自然語言處理(NLP)中統一化的快速進展相比,計算機視覺(CV)領域離統一所有任務的目標還很遠。常規的CV任務,如視覺識別、追蹤、字幕、生成等,大多使用大不相同的網絡架構和/或特別設計的流程進行處理。研究人員期待有一個像GPT那樣的系統,可以用統一的提示機制處理各種CV任務,但在實現個別任務的良好實踐與在多種任務中實現泛化之間存在著權衡。例如,為了在物體檢測和語義分割中報告高識別準確率,最好的策略是在強大的骨干網絡上設計特定的頭部模塊,但這種設計一般不適用于圖像字幕或視覺內容生成等其他問題。顯然,統一化是CV的趨勢。近年來,這個方向有許多努力,我們大致將它們分為五個研究主題,即(i) 基于視覺-語言對齊的開放世界視覺識別,(ii) 用于通用視覺識別的“分割任何物體”任務,(iii) 統一視覺任務的通用視覺編碼,(iv) LLM引導的視覺理解,以增強CV中的邏輯,以及(v) 多模態對話,以促進視覺-語言交互。這些工作都顯示出統一化的希望,但是,它們還不能組成一個像GPT那樣可以解決現實世界中通用CV任務的系統。
因此,產生了兩個問題:(1)為什么在CV中實現統一如此困難?(2)我們可以從GPT和LLMs中學到什么來實現這個目標?為了回答這些問題,我們重新審視GPT,將其理解為在文本世界中建立一個環境,并允許一個算法(或代理)通過交互學習。計算機視覺研究缺乏這樣的環境。因此,算法無法模擬世界,所以它們只能采樣世界,并學習在所謂的代理任務中實現良好的性能。在深度學習的史詩般的十年之后,代理任務不再能夠表示CV算法的能力;越來越明顯的是,繼續追求它們的高精度可能會使我們遠離AGI。基于上述分析,我們提出了一個朝向CV中的AGI的想象流程。它涉及三個階段。第一階段是建立一組忠實的、豐富的、可交互的環境。第二階段的目標是通過迫使代理探索環境并預測未來幀來訓練代理:這對應于NLP中的自回歸預訓練階段。第三階段涉及教代理完成各種任務:在這個階段,可能需要引入人類的指令,這對應于NLP中的指令微調階段。可選地,可以通過簡單和統一的提示來調整代理以執行代理任務。這個想法與一些現有的研究主題有關,包括3D環境建立、視覺預訓練、強化學習和具身CV。但是,現有的工作大多是初步的,我們預期需要大量的努力,才能使它成為解決現實世界問題的有效范式。
本文的其余部分組織如下。首先,在第2部分,我們簡要介紹了AGI的歷史和思想,并繼承了AGI是一種最大化獎勵的算法的定義。接著是第3部分,我們展示了GPT的能力,這是一種最先進的NLP算法,被認為是AGI的火花。然后,在第4部分,我們根據CV研究的當前狀態,分析了在計算機視覺中實現AGI為什么困難,并指出了基本的困難在于過時的學習范式。這個分析引導我們到了第5部分,我們在那里設想了一種將CV推向AGI的流程,并基于此對未來的研究方向進行了一些評論。最后,在第6部分,我們對本文進行了總結并分享了我們的思考。
2. CV:AGI的下一個戰場
人類基于多種數據模式感知世界。我們都知道,我們學到的大約85%的東西是通過我們的視覺系統。因此,鑒于NLP社區已經展現了AGI的前景,自然而然地將計算機視覺(CV)或多模態(至少包括視覺和語言領域)視為AGI的下一個戰場。在此,我們提供兩個額外的評論來補充上述陳述。首先,顯然,CV是NLP的超集,因為人們閱讀文章是首先通過識別捕獲圖像中的字符,然后理解內容。換句話說,CV(或多模態)的AGI應該覆蓋NLP的所有AGI能力。其次,我們認為在許多情況下,僅依靠語言是不夠的。例如,當人們試圖找到關于一個未知對象(例如,動物、時尚等)的詳細信息時,最好的方式是拍攝一張圖片并用它進行在線搜索;純粹依賴文本描述可能會引入不確定性和不準確性。另一個例子,如我們將在第4.3節中看到,不總是容易指出場景中的細粒度語義(用于識別或圖像編輯),并且以視覺友好的方式思考更有效,例如,使用一個點或框來定位一個對象,而不是說一些像“穿著黑色夾克,在黃色汽車前站著和另一個人交談”的人這樣的話。
我們期望有一個CV算法能解決一般性任務,可能通過與環境的交互。注意,這個要求不僅限于識別所有事物或者基于圖像或視頻片段進行對話。它應該是一個全面的系統,接收來自人類的通用命令并產生所需的結果。但是,當前的CV狀態還很初級。如圖7所示,CV社區一直在為不同的視覺任務使用不同的模塊甚至系統。
**統一化是趨勢 **
下面,我們將朝向計算機視覺統一化的最近研究主題總結為五個類別。
**開放世界視覺識別 **
在很長一段時間里,大多數CV算法只能識別出現在訓練數據中的概念,導致了一個“封閉世界”的視覺概念。相反,“開放世界”的概念指的是CV算法能夠識別或理解任何概念,無論它是否以前出現過。開放世界的能力往往通過自然語言引入,因為這是人類理解新概念的自然方式。這解釋了為什么與語言相關的任務,如圖像字幕 [73],[74] 和視覺問題回答 [91],[92],[93] 對視覺識別的開放世界設定做出了最早的貢獻。最近,隨著視覺語言預訓練(例如 CLIP [13] 和 ALIGN [94])的出現,將視覺和語言領域的特征對齊變得更容易。統一的特征空間不僅為圖像字幕 [75],[76],[77] 和視覺問題回答 [11],[76],[95] 提供了更簡單的管道,而且創造了一種新的方法 [13] 用于傳統的視覺識別任務。例如,圖像分類可以通過簡單地將查詢圖像與一組模板(也被稱為“提示”)匹配來完成,說一張{某物}的照片,其中某物可以是任何(因此是開放世界的)概念,比如貓或西伯利亞雪橇犬,并將結果設置為匹配得分最高的候選者。除了原始版本之外,研究人員開發了名為“學習提示”的算法 [96],[97] 來提高分類準確性。后來,該方法從圖像分類繼承到物體檢測 [87],[98],語義分割 [88],[99],實例分割 [100],全景分割 [101],[102],并進一步擴展到視覺接地 [103] 和復合視覺識別 [90] 任務。這些任務可以從視覺語言模型中受益,這些模型經過增強的定位預訓練 [103],[104]。開放世界視覺識別與零樣本視覺識別密切相關,因為它們都試圖將識別能力泛化到訓練集中未出現的概念。
"分割任何事物"任務
"分割任何事物"任務 [14] 最近被引入作為一個通用模塊,將原始圖像像素聚類為多個組,其中許多對應于圖像中的基本視覺單元。該任務支持包括點、輪廓、文本等在內的多種提示,并為每個提示或每個提示的組合產生一些掩碼和分數。該模型,SAM,在一個包含約1000萬圖像的大規模數據集上進行了訓練,能夠轉移到廣泛的分割任務,包括醫學圖像分析 [111],[112],[113],偽裝對象分割 [110],[114],3D對象分割 [108],對象跟蹤 [115],以及應用場景如圖像修復 [109]。SAM也可以與最先進的視覺識別算法一起使用,例如將視覺接地 [116] 算法產生的邊界框精煉為掩碼,并將分割的單元輸入到開放集分類算法中進行圖像標記 [107],[117]。
技術上,SAM的關鍵在于提示機制和數據閉合,即通過標注者的少量反饋來閉合分割任務。提示的統一形式使SAM看起來像是視覺基礎模型或管道的一部分,但仍然存在許多未解決的問題。例如,關于SAM的上游和下游模塊(如果SAM確實是管道的一部分)仍然不清楚,而且SAM可能會嚴重受到像素級外觀的影響,例如,手臂可以精確地在衣服的邊界處從軀干上分割出來,這意味著顏色是分割的主導因素。總的來說,SAM可能已經過度適應了"分割任何事物"任務本身,從而削弱了其分類能力。
通用視覺編碼
另一種統一計算機視覺任務的方式是為它們提供一個通用的視覺編碼。有幾種方法可以實現這個目標。一個關鍵的困難在于視覺任務之間的巨大差異,例如,對象檢測需要一組邊界框,而語義分割需要對整個圖像進行密集預測,這兩者都與圖像分類所需的單個標簽非常不同。正如我們都能理解的,自然語言提供了一種統一的形式來表示所有事物。一個名為 pix2seq [15] 的早期工作顯示,對象檢測結果(即邊界框)可以被形式化為自然語言和坐標,然后轉換為視覺模型的輸出標記。在稍后的版本,pix2seq-v2 中,他們將表示形式一般化,以統一對象檢測、實例分割、關鍵點檢測和圖像字幕的輸出。類似的想法也被用于其他的圖像識別 [120]、視頻識別 [121] 和多模態理解 [16],[122],[123] 任務。
LLM指導的視覺理解
視覺識別可以非常復雜,尤其是當涉及到組合概念和/或視覺實例之間的關系時。對于端到端模型(視覺-語言預訓練模型用于視覺問題回答[11],[76],[95])來說,按照人類容易理解的程序生成答案是困難的。為了緩解這個問題,一個實際的方法是生成可解釋的邏輯來協助視覺識別。這個想法并不新鮮。幾年前,在Transformer架構出現之前,研究人員提出使用長短期記憶模型(LSTM)[72]生成程序,以便將視覺模塊作為復雜問題回答的模塊[126]。在那個時候,LSTM的能力在很大程度上將這個想法限制在相對簡單和模板化的問題范圍內。最近,大型語言模型(尤其是GPT系列)的出現使得任意問題的轉換成為可能。具體來說,GPT可以以不同的方式與人類交互。例如,它可以將基本識別結果總結為最終答案[125],或者生成代碼[18],[124]或自然語言腳本[19]來調用基本視覺模塊。因此,視覺問題可以被分解為基本模塊。這對于邏輯問題特別有效,例如,詢問對象之間的空間關系或依賴于對象數量的問題。LLMs可能理解這種邏輯,但它們尚未展示出協助基本視覺識別模塊的能力。也就是說,一旦基本的識別結果錯誤(例如,檢測算法錯過了一些小的和/或部分遮擋的對象),答案仍然會是錯誤的。我們期望在未來形成一種基本的視覺邏輯(例如,算法可以按照順序算法來檢測每個對象,或者被常識[127]指導來解決難題),可能是在LLMs的幫助下,從而提升基本的視覺識別。
多模態對話
多模態對話將基于文本的對話擴展到視覺領域。早期的工作涉及到視覺問題回答,其中構建了各種簡單問題的數據集 [128],[129],[130]。隨著LLMs的快速發展,通過對預訓練的視覺和語言模型進行微調,實現了多輪問答 [11],[95]。還展示了在多模態中可以通過上下文學習 [76] 或使用GPT作為邏輯控制器 [131] 來回答各種問題。最近,在GPT系列中開發的一種新的范式,稱為指導學習 [4],已被繼承用于提高多模態對話的質量 [20],[46]。其思想是提供一些參考數據(例如,對象、描述)來自于基準標注或識別結果,并要求GPT模型生成指導數據(即,豐富的問答對)。通過這些數據(無需參考),用于視覺和語言的基礎模型可以通過輕量級的網絡模塊(例如,Q-former [11])相互交互。多模態對話為計算機視覺提供了一個初步的交互性基準,但作為一個由語言引導的任務,它也具有開放世界視覺識別中分析的弱點(見第4.2.1節)。我們期望豐富查詢形式的方法(例如,使用通用的視覺編碼方法,參見第4.2.3節)可以將多模態對話推向更高的水平。
3 未來:從環境中學習
上述分析要求我們為計算機視覺(CV)的強大代理制定一個新的范式。在本節中,我們將我們的觀點和洞見轉化為一個假想的流程,回顧與這個流程相關的現有工作,并基于這個流程對未來的研究方向提出評論。
圖14展示了我們的想法。這個流程包括三個階段:第0階段建立環境,第1階段進行預訓練,第2階段進行微調。在需要的時候,微調后的模型可以被用于傳統的視覺識別任務。下面,我們將詳細描述每個階段。
?** 第0階段:建立環境**。正如前面的分析,高質量的環境對于計算機視覺(CV)中的人工通用智能(AGI)是非常必要的。這里的"高質量"概念包括但不限于豐富性(應該有充足和多樣化的環境)、真實性(視覺外觀和其他代理的行為應接近真實世界)以及交互性的豐富性(代理可以通過與環境交互來執行廣泛的任務)。
?** 第1階段:生成式預訓練**。算法被要求探索環境并預訓練以預測未來的幀。這與自然語言處理(NLP)中的 GPT 任務(預測下一個詞元)的最大區別在于,未來的幀取決于代理的行動(在 NLP 中,預訓練的文本語料庫保持不變),所以模型試圖學習狀態和行動的聯合分布。這個策略在已經建立的環境集無法近似世界分布時特別有用。需要注意的是,由于計算機視覺(CV)是自然語言處理(NLP)的超集(參見第4.1節前的段落),預訓練的計算機視覺模型的大小(例如,參數的數量)應該比自然語言處理模型大幾個數量級。
第2階段:指導微調。預訓練模型被指導完成真實世界的任務,遵循人類的指示。直觀上說,代理與環境之間允許的交互類型有很多,包括探索、導航、使用語言、執行物理動作等等。一個合理的推測是,應該收集更多的指示數據,這也對應于基礎計算機視覺模型的大小。
? 可選:下游感知。我們期望計算機視覺算法可以從前一階段學習到所有需要的感知能力,例如,為了完成一個非常簡單的任務,比如"給我買一杯咖啡",模型必須至少學會(i) 安全地四處探索,(ii) 識別咖啡店在哪里,(iii) 用語言與店員交流,并且(iv) 抓取買到的咖啡。這樣的模型,當適當地提供提示時,應該輸出期望的感知結果,包括追蹤另一個代理(以避免與其碰撞),開放集的視覺識別(用于找到酒吧和買到的咖啡)等等。這與通過合成進行分析的想法[136]有關。
4 結論
在這篇論文中,我們討論了如何推動計算機視覺(CV)算法向人工通用智能(AGI)發展。我們首先回顧了計算機視覺為統一而進行的當前狀態和最近的努力,然后我們繼承了來自自然語言處理(NLP),尤其是 GPT 系列的想法和洞見。我們的結論是,計算機視覺缺乏一個可以從環境中學習的范式,為此我們提出了一個假想的流程。我們期望需要實質性的技術進化來使這個流程成為現實。
COVID-19大流行的例子表明,我們的健康和福祉取決于一個難以衡量的社會因素和個人行為網絡。我的研究旨在建立能夠影響這種社會挑戰的計算方法。這一努力需要新的算法和數據驅動的范式,涵蓋收集昂貴數據、學習模型以理解和預測交互作用以及優化干預中有限資源的使用的整個過程。針對這些需求,本文提出了機器學習、優化和社交網絡交叉的方法學發展,這些方面的發展是由在艾滋病毒預防、結核病治療和COVID-19反應方面的實地合作所推動的。這些項目產生了已部署的應用程序和策略影響。一個例子是在無家可歸的青年中開發一項預防艾滋病毒的人工智能增強干預措施。該系統在一項涉及700多名青年的實地測試中進行了評估,發現它顯著降低了艾滋病毒的關鍵風險行為。
//dash.harvard.edu/handle/1/37370083
南海外緣一個未開發島嶼,蝙蝠?12?無人機(UAS)從一片空地起飛。這架彈力發射的低可偵測/隱形戰術飛機飛越水面尋找海上目標。蝙蝠?12?無人機的操作員是一名美國陸軍軍士,她從一個裝有被動電磁感測的高空氣球和另一個連接美國海軍裝備數據饋送的氣球收到提示——這兩個氣球都是從數百公里外的海上發射。規劃員——一名陸軍一級軍士位于另一個島嶼上的多域特遣部隊(MDTF)總部,通過使用定制人工智能和機器學習能力,將來自航空裝備的數據與海上無人機傳感器相結合。
蝙蝠?12?操作員和多域特遣部隊規劃員均在嚴苛的條件下開展工作。兩人均使用小型凈水系統喝水,不需要運送飲用水。兩人都利用微電網技術獲得電力供應——該技術使用電池和發電技術的組合智能地分配、存儲電力,從而實現移動性,減少熱量信號,并大大減少物流人員運輸燃料的需求。自主陸地車輛和線索跟蹤技術減少了持續行動的人員配置需求。
給多域特遣部隊總部的分散節點分發物資的陸軍船只還配備了電磁和通信套件,有助于加強多域特遣部隊的復原力。這些船只當中任一艘均可配置去發射無人機或充當高機動火箭系統(HIMARS)的發射平臺。船上有一個緊湊的關鍵護理設施,準備好接收一支創傷小組及其要護理和要在沿岸水道運送的傷員。
圖:一名士兵在肯塔基州坎貝爾堡訓練區進行試驗飛行時發射?RQ-11?無人駕駛航空系統。 亞倫·達格蒂中士/美國陸軍
來自軍隊所控制傳感器的數據以及來自美國其他服務平臺和空間裝備的信息注入多域特遣部隊總部以及情報、信息、網絡、電子戰和空間(I2CEWS)G2?數據集成中心。陸軍情報分析人員與數據科學家并肩構建和維護人工智能/機器學習程序,在短短幾分鐘內構建、整理數兆字節的數據,而不必跨洋發送數據并等待行動情報。現在,多域特遣部隊可獨立將這些數據與聯盟的其他情報來源進行比較,以維持多域共同運行情況 (COP)和多域特遣部隊目標確定進程——這個進程反過來又會自動更新為其提供信息的所有共同運行情況。
蝙蝠?12?找到目標,提供圖像確認,并確認附近無民用船只。多域特遣部隊共同運行情況向聯合特遣部隊共同運行情況提供最新情況,啟動一個時間敏感的目標確定進程,尋找可調用射擊手。目標的最佳武器是多域特遣部隊的?HIMARS?多火箭發射系統,該系統又位于另一個島上。多域特遣部隊通過單獨的無人機系統提供的通信鏈路傳輸目標數據并下令開火,美國陸軍向天空齊射遠程反艦武器。為避開反炮兵火力,HIMARS?設備移動到一個替代開火位置,I2CEWS?裝備則進行非動力開火以掩蓋和保護其移動。
當今技術變革的步伐對美國的軍事研究、開發和采購流程構成挑戰,潛在對手利用技術創造了美國軍隊必須戰勝的強大軍事能力。根據?2018?年陸軍現代化戰略,美國陸軍解決這一問題的辦法是多方面的,因為美國陸軍認識到,“再也無法拖延推動實施編隊和能力現代化而不必冒著失去優勢及失去在未來戰場完成使命的能力的風險”。美國陸軍兩項最重要的調整是從組織上和概念上做出。組織上,美國陸軍已將研究、開發和采購職能并入陸軍未來司令部——該司令部充當美國陸軍技術管理者的角色。根據?2018?年?12月的一份美國陸軍訓練和準則司令部(United States Army Training and Doctrine Command)手冊,美國在概念上采取了多領域行動(MDO)理念,這種多域行動旨在“滲透和瓦解敵人的反介入和區域阻絕系統” ,并“為新的戰略背景擴展聯合武器,期間考慮到新技術(最突出的是網絡、機器人和自動化系統以及人工智能)和可在所有領域競爭的對手”。
美國陸軍責成美國太平洋陸軍總部為首個多域行動編隊——多域特遣部隊(MDTF)開展試驗項目。幸運的是,美國太平洋陸軍已經組織起來,通過其未來師去解決未來的概念和能力問題。太平洋陸軍未來師與全國性研發組織、行業、智庫、軍隊和國防部分析中心、盟友具有特別的工作關系,并有他們為了在太平洋陸軍和美國印太司令部演習、戰爭游戲和研究中心創造實驗機會所依靠的聯合部隊。太平洋陸軍努力尋找方法,提高多域特遣部隊在通信和陸地機動受到限制的環境中實施長距離精準開火有機靶向的能力。
自動化實驗中,未來師設計各種方法測試不依賴跑道的無人機協調情況,以便與海洋波滑翔機互動,結合空中和海上自動化感應能力,比較和對比數據,積極識別各種海上接觸。由此產生的海域意識將使多域特遣部隊能夠與東道國和聯合部隊分享共同的行動情況。競爭期間,它轉化為多域特遣部隊為國內執法活動作出貢獻的能力,以及在競爭和沖突加劇期間為多域特遣部隊、聯合部隊和多邊部隊辨別敵友的能力。隨著更多的無人駕駛和自主平臺能夠實施遠程發射、控制和恢復,未來師會設法將其交給最低級別的多域行動人員,從而提高力量、能力、冗余和致命性。
有時候,能最好地對抗新技術的是舊技術。美國太平洋陸軍太空司令部和未來師還與姐妹部門和其他作戰指揮部協調開發高空技術,如氣球、飛艇和太陽能固定翼平臺。由于這些技術手段的停留時間和有效載荷能力,它們可提供大量被動和主動的情報、監視和偵察收集能力,并對敵方目標構成重大挑戰。氣球可從附近的陸地地貌或船舶發射,也可以由多域特遣部隊親自發射,攜帶可進一步協助預警、多域通用行動圖和確定目標流程的被動視覺和電磁感應能力。飛艇和固定翼平臺也可從遙遠的地點發射回收。這些裝備還可用于提供戰術和行動通信能力,或是增強多域特遣部隊與其他聯合部隊和盟軍協調的能力,或是取代因對抗性反介入和區域阻絕行動而喪失的能力。美國陸軍和美國太平洋陸軍將發展高空技術,以進一步推動多域特遣部隊的進步。
圖:美國陸軍在阿拉巴馬州的雷德斯通阿森納測試發射一枚愛國者導彈。陸軍空中和導彈防御?2028年愿景(Army Air and Missile Defense 2028)包含陸基機動防御攔截器,該愿景結合了威懾、預防、挫敗空中襲擊和導彈襲擊的尖端技術及成熟技術/美國陸軍
多域特遣部隊能夠在多個領域控制傳感器平臺并從服務或全國性傳感器接收數據的好處是具有真正有機的超視野確定目標能力,但如果這些數據用于及時決策,則附帶一個大數據處理負擔。幾乎所有作戰開火?(無論是動力學還是非動力學開火)的數據融合都發生在遠遠高于旅的級別,需要將數據傳輸出去進行分析,并將信息傳輸回發動攻擊者。正如物流技術將整合到多域特遣部隊以減少燃料和水的運輸需求一樣,人工智能/機器學習也被整合以減少數據傳輸需求并提高有機決策能力。
戰術數據團隊(Tactical Data Team )是陸軍未來司令部和陸軍應用實驗室與美國太平洋陸軍合作開展的一項舉措,旨在滿足多域特遣部隊等多域編隊的前沿計算需求。小型數據科學家團隊部署到數據輸入點,通過在現場構建自定義人工智能/機器學習軟件解決方案來構建和分析數據。這種前緣計算能力可極大地提升多域特遣部隊開火的及時性,無論是非動力學性質還是動力學性質的開火。此外,由于執行這些開火的授權必須屬于進行適當分析的環節,因此這種新的人工智能/機器學習能力有助于將授權下放至多域特遣部隊,使他們能夠在通信被阻絕時根據任務命令更有效地采取行動。
在太平洋建立多域行動編隊去戰斗并取得勝利所需的技術是多方面的,涵蓋了戰斗職能的范圍。研究、演習、實驗和戰爭游戲揭示了多項極為有效的技術應用。未來師繼續設計和支持這些工作,他們堅持評估太平洋陸軍的需求,并作為美國太平洋陸軍的技術管理人改進多域行動在太平洋戰區的概念和應用。
我們提出了一種方法,使用機器學習從觀察數據中自動發現實際物理系統的控制方程和隱藏的規律。我們訓練一個“圖神經網絡”來模擬我們太陽系的太陽、行星和大型衛星的動態,這些數據來自30年的軌道數據。然后,我們使用符號回歸來發現神經網絡隱式學習的力學定律的解析表達式,我們的結果表明,它是等效于牛頓的萬有引力定律。需要的關鍵假設是平移和轉動等方差,以及牛頓的第二和第三運動定律。我們的方法正確地發現了符號力定律的形式。此外,我們的方法不需要任何關于行星和衛星質量或物理常數的假設。它們也是通過我們的方法準確地推斷出來的。當然,經典的萬有引力定律自艾薩克·牛頓(Isaac Newton)以來就已為人所知,但我們的結果證明,我們的方法可以從觀測數據中發現未知的定律和隱藏的屬性。更廣泛地說,這項工作代表了實現機器學習加速科學發現潛力的關鍵一步。
以數據為中心的AI (DCAI)代表了最近從專注于建模到用于訓練和評估模型的底層數據的轉變。越來越多地,通用模型架構開始主導廣泛的任務,可預測的擴展規則也出現了。雖然構建和使用數據集是這些成功的關鍵,但這種努力往往是手工的——辛苦而昂貴。社區缺乏高生產率和高效的開放數據工程工具,使得構建、維護和評估數據集更容易、更便宜、更可重復。在演講中,Ng博士將介紹DCAI是什么,面臨的挑戰,以及使用DCAI方法的技巧。