Sonalysts 正在開展一項計劃,通過開發該領域的原創性研究,將我們目前在團隊合作方面的專業知識擴展到人類-人工智能(AI)團隊。為了給這項研究奠定基礎,Sonalysts 正在調查合成任務環境 (STE) 的開發情況。在上一份報告中,我們記錄了最近一次外聯工作的結果,在這次外聯工作中,我們請軍方主題專家(SME)和人類-人工智能團隊領域的其他研究人員確定他們最看重的測試平臺的品質。這次外聯活動的一個驚人發現是,一些受訪者建議我們的團隊研究現有的人類-人工智能協同測試平臺,而不是創建新的測試平臺。根據這一建議,我們對相關情況進行了系統調查。在本報告中,我們將介紹調查的結果。在調查結果的基礎上,我們制定了測試平臺評估標準,確定了潛在的測試平臺,并對候選測試平臺進行了定性和定量評估。在評估過程中,我們提出了五個候選測試平臺供研究團隊考慮。在接下來的幾個月中,我們將評估各種備選方案的可行性,并開始執行我們的研究計劃。
美國國家科學、工程和數學研究院(National Academies of Sciences, Engineering, and Mathematics)為空軍研究實驗室(Air Force Research Laboratory,AFRL)編寫的一份共識報告記錄了各軍種對支持人類-人工智能團隊合作的普遍和日益增長的愿望(NASEM,2021 年)。Sonalysts 已經開始了一項內部計劃,探索如何最大限度地提高人類-人工智能團隊的性能。為了給我們的研究奠定基礎,Sonalysts 正在探索可作為測試平臺的合成任務環境 (STE) 選項。
基于最近對主題專家(SMEs;McCarthy & Asiala,2023a)和人類-人工智能團隊領域研究人員(McCarthy & Asiala,2023b)的調查結果,我們將在本報告中探討我們將重點關注的測試平臺質量,確定潛在的 STE,并對候選 STE 進行定量比較。
在本節中,我們將概述研究人員在選擇 STE 時可能需要考慮的一系列特性,并確定我們的計劃將重點關注的特性。首先,我們將介紹研究人員可用于組織各種測試平臺的概念分類法,然后探討可能需要的特定 STE 功能。最后,我們將簡要討論我們將重點支持該計劃的科技教育維度和特征。
通過與該領域的多位研究人員討論(例如,M. Steinberg,2023 年),我們創建了圖 1 所示的 STE 分類法。在該分類法的概念中,維度包括團隊成員(人類和智能體)之間的相互依賴程度、測試平臺內任務的相關性以及填充測試平臺的智能體的復雜性。
其中,相互依賴程度可能是最重要的維度。相互依賴程度反映了團隊成員在完成集體任務時對他人的依賴程度。幸運的是,我們可以通過早期的研究來操作這一維度。首先,請看 Saavedra、Early 和 Van Dyne(1993 年)的研究。在以商業為重點的 "小組工作 "領域,這些研究人員引用了湯普森(1967 年)和范德文等人(1976 年)的早期研究成果,討論了圖 2 所示的相互依賴范圍。在一個極端(集合工作流)中,幾乎不存在相互依賴關系;每個人都獨立完成分配的任務,"團隊產品 "是個人努力的總和(例如,某個呼叫中心的工作人員)。在順序工作流程中,個人負責生產自己的工作產品,并將其交給下一個團隊成員進一步處理(即典型的 "流水線 "流程)。在這種配置中,信息、資源、工作成果等都是單向流動的。其余兩種情況的相互依賴程度更高。在互惠模式中,"相鄰 "工人之間存在雙向流動。與順序模式中的單向流動相比,這種 "取與舍 "需要更高水平的協調與合作。最后,在團隊模式中,信息、資源、工作成果等是多向共享的。團隊中的每個成員都可以與團隊中的任何其他成員一起參與 "取與舍"(另見,Singh, Sonenber, & Miller, 2017)。
在開發主題專家和研究人員調查問卷之前,Sonalysts 進行了相當廣泛的文獻綜述。結合我們在一系列建模和仿真工作中積累的經驗,我們預測出了一系列我們認為可能有用的任務領域特征。在調查中,我們要求受訪者指出他們在多大程度上同意或不同意我們的假設,即哪些具體特征在 STE 中會很重要。我們還通過開放式問題對李克特項目進行了補充,使調查對象能夠就 STE 中可能有用的其他功能提出建議。
為了支持這項工作,研究小組重新審視了調查結果,以確定我們可以用來描述和區分候選環境的特征。我們首先將研究人員的調查回復作為確定試驗臺特征的基礎。在對調查回復進行初步分析期間,我們對開放式問題的回復進行了專題分析。我們的目標是識別所有答案中重復出現的觀點,而不管受訪者使用了什么術語或措辭。我們將主題分析結果合并成一份針對每個問題的主題共識列表,然后由研究團隊將各個回復與列表中的條目進行映射。為了創建 STE 特征主列表,我們將共識列表中的條目與假設的特征相結合,假設的特征以李克特(Likert)風格的條目形式呈現,以獲得一致評分。這一分析得出了 289 個條目。
然后,我們將候選特征排序為上位特征描述。我們這樣做是為了識別和解釋開放式問題回答中提到的特征與李克特式問題中的特征之間的重疊。例如,有一個李克特式問題要求參與者對 "STE 應作為'開源'工具實施 "這句話的同意程度進行評分。除了普遍同意這一條外,還有六位受訪者在回答調查中的其他問題時提到 STE 應具有 "開源架構"。我們將這些條目歸入了 "STE 應該是'開源'的 "這一上位特征類別。
上位特征分類過程產生了一百多個上位特征類別。為了創建一個更合理的特征集,我們刪除了開放式回答和李克特風格項目合并少于三個的類別,并合并了幾個概念高度重合的類別。這樣,特征列表就縮小到了 23 個。由于用于評估和比較測試平臺的單個標準仍有 23 個之多,因此我們進一步將上位類別合并為表 1 中列出的八大標準。與每項標準相關的小標題反映了相關的細粒度特征。我們將在第 4 節介紹這些標準對測試平臺量化評估工具的貢獻。
表 1:重要的 STE 特征
美國國家科學、工程和數學研究院為空軍研究實驗室編寫了一份共識報告,其中記錄了各軍種對支持人-人工智能(Al)團隊合作的普遍和日益增長的愿望。Sonalysts 已經開始了一項內部計劃,探索人類-人工智能團隊的培訓。這項工作的第一步是開發一個能夠促進人-人工智能團隊研究的合成任務環境(STE)。決定將 "聯合全域指揮與控制"(Joint Al-Domain Command and Control,JADC2)作為開發 STE 的重點,因為 JADC2 概念中的大量傳感器輸入和決策選項可能需要使用輔助系統才能及時做出決策。有鑒于此,我們聘請了多位具有指揮與控制經驗的主題專家(SMEs),以深入了解如何開發能體現與 JADC2 相關的團隊挑戰的 STE。本報告記錄了我們與這些利益相關方的初步接觸。我們制作了一份包含兩類問題的調查問卷。第一類問題要求受訪者報告他們是否同意我們預計在以 JADC2 為重點的測試平臺中可能非常重要的 STE 功能。第二類問題要求主題專家回答開放式問題,探討任務域、性能評估方法、通信方法和自主隊友的特征等測試平臺特征。研究小組確定了 13 名具有軍事背景和指揮與控制經驗的 Sonalysts 員工(內部稱其為合作伙伴),并邀請他們參與調查。12 名受訪者完成了調查。然后,研究小組對他們的回答進行了分析,以確定出現的主題和需要進一步分析的話題。結果表明,我們的主題專家可以接受使用與軍事環境中類似的任務進行研究,只要這些任務要求團隊處理大量數據以做出復雜決策。主題專家認為,測試平臺應支持代表矩陣式組織的 "體系團隊",并應支持口語、基于文本和面對面通信的強大陣列。
2021 年,美國空軍研究實驗室(AFRL)人類性能單元(Human Performance Wing)要求美國國家科學、工程和醫學院(NASEM)編寫一份共識報告,以審查人工智能(Al)的軍事作用,特別是作為人機團隊的一部分。這項工作的目標是使美國空軍后勤部能夠更好地支持未來系統的設計,在這些系統中,人類與智能體聯手實現任務目標。
NASEM報告在更廣泛的人機協作領域確定了九個重點領域:
1.訓練人機團隊
2 人工智能的透明度和可解釋性
3 人機團隊互動
4 信任人工智能隊友
5 人-AI團隊合作過程與成效
6 人機協作方法與模式
7 人-AI團隊中的態勢感知
8 人類-人工智能團隊中偏見的識別與緩解
9 人機系統集成流程與人機團隊協作和績效的衡量標準
Sonalysts 已開始在內部探索人-AI團隊中的第一個領域--人AI團隊培訓。表 1 轉載了 NASEM 報告的部分內容,其中作者將六項研究需求分為三個階段。
研究計劃的第一步是開發合成任務環境 (STE),為人機團隊提供一個經過驗證的研究環境。為了提出一套能夠最大限度地提高我們的研究適用性的要求,Sonalysts 正在與該領域的主要搜索人員和分部門專家(SMEs)進行接觸。本報告總結了與軍方 SME 進行的首次外聯工作的結果。
雖然各軍種多層次都對人機協同感興趣,但新出現的聯合全域指揮與控制(ADC2)概念提供了一個聚焦視角。JADC2 概念設想將所有軍種和所有領域(如空中、海上、陸地、太空、網絡空間)的傳感器連接成一個龐大的網絡,以便快速使用這些軍種和領域的資產來實現任務效果。為了加快行動速度,同時考慮更多的數據和潛在行動方案(COA),人類決策者很可能要比過去更廣泛地與 AI 隊友合作。此外,我們認為這將是真正的 "團隊合作"。我們的研究將假定,智能體最終將能夠作為同伴/隊友而不僅僅是工具與人類合作。為了實現這一目標,我們設想人類-AI團隊將包括使用AI或類似技術在指定領域內做出決策和/或采取行動的自主系統,這些系統將能夠應對新的性能挑戰,同時與隊友協調和合作。當達到這些里程碑時,我們就可以開始將該系統視為自主隊友,它不僅能夠獨立行動,還能相互依賴。
該項目是為了支持美國國防部高級研究計劃局(DARPA)的 "開放世界新奇事物的人工智能與學習科學"(SAIL-ON)計劃。在第二階段基期工作中,我們推進了第一階段 TALONS 框架的理論和實施,并收集了智能體在新奇事物生成器生成的新奇事物上的基線性能的初步實證結果。在第二階段的選擇階段,我們將基礎階段的工作擴展到更廣泛的新奇事物生成和實施形式。
這項工作的主要成果包括:完成了新奇事物生成器的開發;對來自 3 個不同 SAIL-ON TA1 團隊的新奇事物進行了性能分析;開發了自動且可最大程度減少人為偏差的新奇事物生成與實施流程;將我們的新奇事物生成流程應用于 Monopoly、Vizdoom 和 Blocksworld 領域,從而證明我們的新奇事物生成器與領域無關;以及為 SAIL-ON 計劃提供支持。下面的項目總結和后續報告將更詳細地介紹這些成就。
目前最先進的人工智能可以在已知已知甚至未知的情況下穩健運行。然而,人工智能仍無法可靠地檢測、描述和適應開放世界中的新奇事物。隨著研究界不斷努力實現先進的自主性,我們需要有科學依據的方法來評估人工智能體在開放世界環境中的表現。
PacMar Technologies(PMT)和 Parallax 高級研究公司開發了一套獨立于領域的理論、原則性技術和軟件工具,用于生成、描述和評估新穎性。這些理論和技術涵蓋了與領域無關的新穎性。在合同基期內,我們開發了一個測試平臺,用于評估智能體在自動駕駛汽車領域對新奇事物的反應性能,我們還在南加州大學 SAIL-ON 團隊提供的大富翁領域中實施了由我們的軟件工具自動生成的新奇事物。
我們的新奇事物生成器方法使用原則性技術自動生成新奇場景。這些場景被加載到模擬環境中,與給定的第三方人工智能體對接,以收集該智能體的性能數據。然后評估智能體在各種不同情況下處理各類新奇事物的能力。
我們將新奇定義為環境中的變化。簡而言之,變化可以是過渡函數的變化,也可以是狀態空間的變化。我們的方法有能力在過渡函數(包括行動和事件)、狀態空間定義和觀察函數中生成新穎性。精確生成新穎性的計算方法可分為兩種類型的轉換,其方式與創造性系統框架(Wiggins,2006 年)一致。我們方法的關鍵在于從八個維度對新穎性進行表征,從而支持將情景生成的重點放在可能挑戰智能體魯棒性的情況上。
我們的方法目標如下
1.為新奇性的特征描述奠定科學基礎。 2.開發生成可用于評估智能體的新情景的技術。 3.確定這些技術的可行性及其在各領域的適用性。
本報告旨在清晰地描述我們的方法,包括新穎性生成、模擬和評估的方法。將我們的方法應用于 CARLA 的自動駕駛汽車領域、Monopoly、VizDoom 和海洋領域,有助于進一步發展理論和測試平臺軟件。最后,我們對本報告進行了總結,并提出了進一步研究的思考和啟示。
在第一階段的工作中,我們開發了一個基于新穎性多維表征的新穎情景生成框架。我們正式規定了這一多維表征、收集受測智能體數據的指標,以及評估智能體對不同類型新穎性的魯棒性的方法。在使用轉換生成新穎性的過程中,我們定義了 24 個函數簽名,并計算了應用這些簽名生成新穎性的上限復雜度。我們的研究表明,根據我們對新穎性的多維表征,使用這兩種類型的變換來改變場景生成,我們能夠顯著減少新穎場景的空間。為了支持新穎性的精確生成,我們構思了 TALONS 模擬器抽象語言(T-SAL)來描述環境和這些環境中的各個場景。我們利用這些概念來支持第三方智能體對新奇事物的魯棒性評估。
在第二階段基期工作中,我們推進了 TALONS 框架的理論和實施,并收集了智能體在新奇事物生成器生成的新奇事物上的基線性能的初步實證結果。我們制作了三個源代碼庫,詳見基礎階段最終報告,其中包含以下內容的實現:(1) TSAL 語言;(2) 新穎性生成器(實現 R 變換);(3) 使用 CARLA 自動駕駛汽車模擬器的評估框架。從理論角度來看,我們利用第一階段工作中開發的新穎性維度理論對新穎性進行了初步分析研究,并正式定義了 R 變換,然后利用這些定義正式定義了新穎性層次結構級別。
我們在第二階段選擇期內做出的獨特貢獻包括以下內容:
我們研究了野外拍攝的視頻中多人三維重建的問題。人類的動作是動態的,準確地在各種環境中重建它們對于開發沉浸式社交遠程呈現、輔助性人形機器人和增強現實系統至關重要。然而,創建這樣的系統需要解決關于數據和模型架構的以前工作的基本問題。在這篇論文中,我們開發了幾個大規模的3D基準測試,旨在評估在苛刻條件下的多人重建,以及對遮擋和擁擠環境有韌性的自上而下的算法。 數據 - 為深度學習模型獲得大規模的3D監督是實現真實世界泛化的關鍵。然而,與大規模2D數據集不同,3D數據集的多樣性顯著受限 - 主要是因為在3D空間中手工注釋是不切實際的。因此,大多數3D基準測試都限制于室內環境,或者最多是兩個室外的人類主題,攝像機的移動緩慢或固定,并且遮擋最小。為了解決這個差距,我們探索使用3D合成數據,并構建兩個真實的多人3D數據集,這些數據集包括動態的人類活動、快速的攝像機移動和人與人之間的接觸,這些在之前的基準測試中都被忽視了;以突出現有方法的關鍵局限性。 方法論 - 一個通用的多人3D重建方法應該對尺度變化和遮擋具有韌性,并結合絕對深度理解。我們在2D和3D設置中引入了這些特性的算法,這些算法使我們能夠推理在動態環境和擁擠場景中的多個人。我們的自上而下的方法利用空間-上下文信息來推理3D場景中嚴重遮擋的人類。 基于這兩個組件,我們開發了從野外視頻中重建動態場景中的多個人的通用3D方法。
計算機視覺領域的一個主要目標是人體的三維重建[78]。這種能力對于視頻游戲、電影和遠程呈現的應用至關重要。然而,目前大多數關于3D人體重建的方法和數據集都是針對單一人體場景的[95, 109, 263]。考慮到人類本質上是社交生物,經常與其他人互動,多人場景的存在顯得十分重要。現有的方法往往做出了限制性的假設,不容易擴展到這些多人情境。此外,現有的單一人體數據集提供的監督在泛化到多人上下文時,特別是在不可預測的、野外的條件下,都顯得不足。 本論文描述了在野外捕獲的大規模3D多人數據集的新技術。此外,它還提出了一些不僅定制于多人場景,而且對于擁擠和遮擋等挑戰表現出強大韌性的方法。從圖像和視頻中推導人體的3D結構的主要挑戰是這個任務的數學病態性。正如Adelson和Pentland[1]在工作坊的比喻中所強調的,以及Sinha和Adelson[229]的多面體線條圖所展示的,許多3D配置都可以匹配一個給定的2D圖像。然而,我們的世界是有結構的,這些配置并不都同樣可能。盡管如此,我們的世界具有固有的結構,使得某些配置比其他配置更有可能。人們根據環境中的熟悉模式和規律來辨識可能的3D結構。同樣地,我們讓計算機掌握3D的努力也主要依賴于將這種先驗知識嵌入到推斷過程中。 在當前的計算機視覺領域,像圖像分類[46]、物體檢測[144]和語義分割[40]這樣的領域,3D人體重建主要依賴于帶有3D注釋的3D數據集來編碼這些固有的先驗。獲得這些3D人體注釋的主要方法是通過多視圖捕獲設置,因為手工3D注釋既低效又具有挑戰性。然而,值得注意的是,許多這些3D人體重建數據集主要集中在單一人體場景上,忽視了多人互動。是什么驅動了這種趨勢?人們可能會辯稱,收集單一人體數據更簡單、更直接。此外,在多視圖設置中,框架中只有一個主題可以避免多個個體之間的跨視圖對應關系的復雜性。然而,這種對數據集組成的狹隘關注無意中推動了該領域朝向在多人環境中失誤的方法,參見圖1.1。總之,深入研究構建一個全面的多人3D重建系統不僅需要開發能夠適當地建模人與人之間的深度關系和互動的方法,如人與人之間的接觸,而且更關鍵的是,解決現有3D人體數據集中的局限性。
在本論文中,我們解決了這兩個主要的挑戰:創建大規模的多人數據集以及改進3D人體重建技術。我們的討論分為三部分。在第一部分中,我們探討了使用合成3D監督以及它糾正當前數據集偏見的潛力。這引出了關鍵問題:純粹在合成數據上進行訓練的模型可以被信任在真實數據上工作得很好嗎?我們如何在它們之間建立域間的橋梁?在第二部分,我們評估了當前方法在多人上下文中的局限性,從簡單的任務如2D姿態估計開始,然后轉向更復雜的任務,如從單一圖像恢復3D網格。在第三部分,我們回到數據主題,考慮在確保其真實性和多樣性的同時,在大規模收集實際的多人數據的需要和挑戰。 第一部分:合成3D監督。利用最先進的模擬器為3D人體重建的大規模監督生成合成數據的想法是一個令人信服的想法。在這一部分,我們檢查一個中心問題:當純粹在合成數據上進行訓練時,3D方法可以可靠地擴展到真實世界的數據嗎?在第2章,我們提供了證據,表明使用域隨機化的數據允許方法泛化,即使沒有真實世界的注釋,特別是對于3D對象姿態估計任務。然而,我們觀察到,對域隨機化的普通方法并不是最有效率的,通常需要許多合成樣本才能達到可靠的實數據泛化。第3章解決了這一挑戰,引入了一個更有效的域隨機化方法,使合成數據的生成與深度模型在訓練期間的持續進展保持一致。這一章還概述了關于需要多少數據才能實現可靠的實際世界泛化的理論保證。
第二部分:多人姿態和形狀估計。在這部分,我們解決了3D多人重建方法的關鍵限制。第4章主要關注2D姿態估計,尤其是在由遮擋和擁擠標記的復雜多人情境中。我們介紹了一套專為這些場景設計的新穎的自上而下的方法,有效地擺脫了限制性的單人假設。基于這一基礎,第5章擴大了這些方法,以從圖像中解決3D人體網格恢復的問題。我們的主要哲學是將人的點基表示與它們的邊界框表示相結合。我們展示了,令人驚訝的是,這種簡單的集成能夠維持自己,即使在具有挑戰性的多人遮擋的情境中也能夠取得令人印象深刻的結果。 第三部分:真實的3D多人數據集。雖然在第一部分中,我們調查了用于3D的合成數據的使用,但第三部分將焦點轉向真實的多人數據。在第6章中,我們設計了一個適合野外設置的無標記捕獲系統,以記錄多人活動,重點是動態活動,如體育和舞蹈。同時,我們引入了一個半自動的注釋流程,以減少人為監督地生成大規模的3D注釋,如人體姿態和網格。此外,為了捕獲帶有移動相機的3D場景,我們利用了主題的自中心視圖,并為這一具有挑戰性的視圖提供了注釋。然后第7章深入探討,重點是多人互動,代表了人與人之間的擴展接觸,包括摔跤、擁抱和舞蹈等活動。利用我們之前的方法,我們引入了一個增強的注釋協議,旨在充分處理這些活動中固有的遮擋。總之,第6章和第7章中詳細描述的努力共同為建立兩個全面的多人3D數據集作出了貢獻。 然而,為了開發更大的數據集和高效且普遍的3D多人方法,還有更多的工作要做。第8章通過討論這一領域未來工作的具體方向來結束,包括短期和長期的方向。
在本項目中,我們從多個方面研究了無人機自組織網絡的通信和安全挑戰:i) 我們為特設無人機網絡開發了一種新的路由協議,以處理此類網絡的高度動態性。我們的研究表明,所提出的路由算法在流量成功率、吞吐量和流量完成時間方面都優于所有知名基準;ii) 我們研究了自組織無人機網絡的安全挑戰,并表明現有的基于預分配的密鑰管理協議容易受到合作攻擊。我們設計了一種基于區塊鏈的密鑰交換算法,以提高網絡抵御此類攻擊的能力。
圖1:GAN Turk假標簽和GAN Turk合成系統圖
這份最終報告記錄了在DARPA的“少標簽學習” (LwLL)項目過程中進行的一系列調查。專注于圖像分類的領域適應和目標檢測的地理空間應用。探索了生成建模技術,包括新穎的GAN Turk方法,以及主動學習,以減少圖像分類的標簽要求。還研究了使用GAN Turk、一致性正則化和自我訓練來進行地理空間數據集的目標檢測。發現:
評估了幾種用于圖像分類和物體檢測的生成式建模技術。評估了CycleGAN、CUT和我們自己的GAN Turk方法的兩次迭代,該方法受到CycleGAN的啟發。
作為第一年評估的一部分,還考慮了主動學習,并提交了一個coreset主動學習組件作為評估的一部分。coreset方法是在與基于熵的選擇方法和其他抽樣方法進行比較后選擇的,除了其以特征距離為動機的設計外,還基于公開和內部結果。然而,內部結果和評估結果顯示它不是一個可靠的方法。
自我訓練和一致性正則化的結合是在這個項目中研究的最有希望的方法。研究了STAC方法作為第三年評估的目標檢測系統。內部結果顯示,這兩種技術的結合可以用于合成到真實領域的適應性,也可以更普遍地用于地理空間應用。此外,還表明,在地理空間數據集中,為一致性正則化而對空圖像進行偽標簽的做法對STAC產生了好處。在第三年的評估中,假標簽空圖像的顯著優勢未能得到測試,因為這些數據集不包含任何圖像,即所有的圖像至少包含一個感興趣的目標。
作為項目要求的一部分,參加了年度獨立的第三方評估,并在第3.6至3.8節中記錄了這些結果。在評估過程中,主要挑戰之一是計算預算。提交的GAN Turk和STAC系統需要比基線方法多得多的計算。因此,這些方法學在每個評估任務中只提交了幾個檢查點。
在第4節中,記錄了我們的軟件可交付成果,并對軟件架構進行了簡要概述。還提供了Docker鏡像的配置,以打包系統進行評估。
總的來說,團隊為政府的知識庫做出了貢獻,即哪些方法對少許標簽的學習有希望,哪些沒有。這種探索是使用合理的科學方法和精心控制的實驗進行的,旨在對各種方法進行無偏見的評估。本報告總結了在整個LwLL計劃中的主要發現,并強調了認為有希望的幾個領域,以及根據我們在這個基礎研究計劃中收集到的證據,不建議追求的其他領域。
人工智能(AI)研究人員一直在開發和完善大型語言模型(LLM),這些模型在各種領域和任務中表現出非凡的能力,挑戰了我們對學習和認知的理解。OpenAI開發的最新模型GPT-4是使用前所未有的計算和數據規模進行訓練的。本文報告了對早期版本的GPT-4的調研,當時它仍由OpenAI積極開發。我們認為(這個早期版本)GPT-4是新一代LLM的一部分(例如ChatGPT和谷歌的PaLM),它們比以前的人工智能模型表現出更多的通用智能。討論了這些模型不斷提高的能力和影響。證明了GPT-4除了對語言的掌握外,還可以解決跨越數學、編碼、視覺、醫學、法律、心理學等新穎和困難的任務,而不需要任何特別的提示。此外,在所有這些任務中,GPT-4的性能驚人地接近人類水平的性能,并經常大大超過之前的模型,如ChatGPT。鑒于GPT-4能力的廣度和深度,我們相信它可以被合理地視為人工通用智能(AGI)系統的早期(但仍不完整)版本。在對GPT-4的探索中,特別強調了發現其局限性,并討論了向更深入、更全面的AGI版本前進的挑戰,包括可能需要追求一種超越下一個字預測的新范式。最后,反思了最近技術飛躍的社會影響和未來的研究方向。
美國陸軍CCDC C5ISR中心的夜視和電子傳感器局(NVESD)的任務是開發低光和紅外傳感器技術,其形式包括空中/車載傳感器、步兵武器傳感器、頭戴式傳感器和顯示器。本文討論了NVESD最近獲得的一個沉浸式測試環境,它能夠為不同的傳感器系統進行虛擬原型設計練習,同樣也能夠作為一個沉浸式環境,檢驗AR顯示的變化以及向人類操作者展示AR信息的方法。該沉浸式環境包括一個 "綠色房間",由有機玻璃板組成,通過可控的電致發光帶發出綠光。一對攝像機與Vive虛擬現實頭盔(HTC公司)配對,用于形成真實物體和虛擬覆蓋的復合視圖;在沉浸式測試環境中觀察到的任何物體對用戶來說都是可見的,但開放的綠色空間被虛擬環境取代。我們描述了傳感器和AR技術的新系統和模擬用例,描述了這種模擬技術如何能夠嚴格控制經驗場景,對設備特性進行有力的評估。最終,這種模擬將允許士兵在第一個物理原型建造之前體驗傳感器的特性和AR顯示,在采購生命周期的設計階段早期征求寶貴的用戶反饋。
//www.morganclaypool.com/doi/10.2200/S01052ED1V01Y202009CAC055
人工智能已經在多個領域取得了關鍵進展,但它對計算機架構的影響才剛剛開始。特別是,最近的工作已經探索了更廣泛的應用,以設計,優化和計算機結構的模擬。值得注意的是,基于機器學習的策略往往超越了之前最先進的分析、啟發式和人工專家方法。這本書回顧了機器學習在系統范圍內的模擬和運行時優化的應用,以及在許多單獨的組件,如緩存/存儲器,分支預測器,芯片上的網絡和GPU。這本書進一步分析了當前的實踐,突出有用的設計策略,并確定未來工作的領域,基于優化的實現策略,對現有工作的適當擴展,和雄心勃勃的長期可能性。綜上所述,這些策略和技術為日益自動化的計算機架構設計提供了一個有前途的未來。
計算機架構已經成為設計實踐中一個戲劇性轉變的舞臺。隨著設計復雜性的增加,依賴于窮舉搜索和啟發式逼近的傳統方法正被推到極限。這些限制,再加上摩爾定律的緩慢發展,推動了計算機架構設計的突破。在我們看來,這一突破是以基于人工智能的實用設計的形式出現的。
計算機體系結構的最先進技術已經開始反映這種有希望的新范式,越來越多的工作幾乎涵蓋了所有主要的體系結構組件。然而,現有的人工智能(AI)和架構設計資源往往集中在支持AI模型的新架構上,本質上是為AI設計的架構,而不是為架構設計的AI。在我們的寫作過程中,我們最初試圖通過文獻綜述來滿足這一需求,其中包括簡要的背景和分析。在這個過程中,我們認為這種不斷增長的范式有必要提供更詳細的資源,為更廣泛的受眾提供介紹,特別是那些渴望開始在自己的工作中試驗AI的人。這本書擴展了原來的文獻綜述,包括明顯更多的背景材料,詳細的案例研究,并在整個文本的額外見解。
第一章簡要介紹了架構中的人工智能,對替代設計策略的需求日益增長,以及基于人工智能的設計所提供的機會。在第二章中,我們繼續發展對這些機會的直覺,同時將基本的AI原則與簡要的架構例子聯系起來,從而為后面的章節奠定基礎。這些原則在第3章和第4章中迅速付諸實踐,因為我們探索了廣泛的AI在架構中的應用,然后研究了三個基于流行的AI設計方法的案例研究。這些案例研究旨在為近期使用監督學習、強化學習和無監督學習來解決具有挑戰性的架構問題的工作提供更深入的見解。考慮到所有這些應用,第5章對實際考慮提供了一個更關鍵的視角,這可能指導未來的工作。這種分析包括高級選擇,如模型選擇,以及針對數據收集和訓練開銷的一些特定于任務的優化。本書在第6章達到高潮,我們強調了未來工作的前景。我們希望基于人工智能的設計繼續蓬勃發展,本書鼓勵新的從業者擁抱日益自動化的架構設計。
機器學習的視覺分析最近已經發展成為可視化領域中最令人興奮的領域之一。為了更好地確定哪些研究課題是有前景的,并學習如何在視覺分析中應用相關技術,我們系統地回顧了近十年來發表的259篇論文以及2010年之前的代表性作品。我們構建一個分類法,其中包括三個第一級類別:構建模型之前的技術、構建建模期間的技術和構建模型之后的技術。每個類別的進一步特征是具有代表性的分析任務,每個任務都以一組最近有影響的著作為例。我們也討論并強調研究的挑戰和對視覺分析研究人員有用的潛在未來研究機會。
最近人工智能應用的成功依賴于機器學習模型[1]的性能和能力。在過去的十年里,各種視覺分析方法被提出,使機器學習更加可解釋、可信和可靠。這些研究努力充分結合交互式可視化和機器學習技術的優勢,便于分析和理解學習過程中的主要組件,以提高性能。例如,用于解釋深度卷積神經網絡內部工作原理的可視化分析研究增加了深度學習模型的透明度,并在最近受到了越來越多的關注[1-4]。
用于機器學習的視覺分析技術的快速發展產生了對這一領域進行全面回顧的需求,以支持理解可視化技術是如何設計并應用于機器學習管道的。已有幾項初步努力從不同的觀點總結這一領域的進展。例如,Liu等人[5]總結了文本分析的可視化技術。Lu等人對預測模型的可視化分析技術進行了調查。最近,Liu等人[1]發表了一篇從視覺分析的角度分析機器學習模型的論文。Sacha等[7]分析了一組示例系統,提出了一種用于視覺分析輔助機器學習的本體。然而,現有的調研要么專注于機器學習的一個特定領域(例如,文本挖掘[5],預測模型[6],模型理解[1]),要么僅基于一組示例技術來勾畫本體[7]。
本文旨在對機器學習的視覺分析技術進行全面的綜述,重點介紹機器學習管道的各個階段。我們主要關注可視化社區中的工作。然而,人工智能社區也對深度學習模型中視覺解釋特征檢測器的研究做出了堅實的貢獻。例如,Selvaraju等人[8]試圖通過計算類激活映射來識別圖像中分類結果敏感的部分。讀者可以參考張、朱[9]和Hohman等人[3]的調查。通過系統的程序,我們在過去的十年中收集了259篇來自相關頂級場所的論文。基于機器學習流水線,我們將這篇文獻分為建模前、建模中、建模后三個階段。我們分析了可視化分析技術在這三個階段的功能,并抽象了典型任務,包括在建模前提高數據質量和特征質量,建模過程中的模型理解、診斷和轉向,以及建模后的數據理解。每個任務都由一組精心挑選的例子來說明。我們強調了機器學習視覺分析領域六個突出的研究方向和開放問題。我們希望這項調查能夠促進機器學習相關視覺分析技術的討論,并為希望開發機器學習的視覺分析工具的從業者和研究人員提供一個起點。
自動駕駛一直是人工智能應用中最活躍的領域。幾乎在同一時間,深度學習的幾位先驅取得了突破,其中三位(也被稱為深度學習之父)Hinton、Bengio和LeCun獲得了2019年ACM圖靈獎。這是一項關于采用深度學習方法的自動駕駛技術的綜述。我們研究了自動駕駛系統的主要領域,如感知、地圖和定位、預測、規劃和控制、仿真、V2X和安全等。由于篇幅有限,我們將重點分析幾個關鍵領域,即感知中的二維/三維物體檢測、攝像機深度估計、數據、特征和任務級的多傳感器融合、車輛行駛和行人軌跡的行為建模和預測。