亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

生成式人工智能工具,如大型語言模型(LLMs),提供了多種方法來提高效率,改進從需求生成和管理到設計分析和正式測試的系統工程流程。大型采購項目可能尤其適合利用大型語言模型來幫助管理復雜的系統和系統的采購。然而,生成式人工智能工具容易出現各種錯誤。

我們的研究探索了當前大型語言模型生成、修改和查詢系統建模語言(SysML)v2 模型的能力。我們利用檢索增強生成(RAG)等技術為大型語言模型添加特定領域的知識,提高模型的準確性。我們介紹了一個初步案例研究,在該案例研究中,生成模型的提示次數降到了最低。還討論了大型語言模型的局限性以及未來與大型語言模型相關的系統工程研究。

基于模型的系統工程

國際系統工程理事會(INCOSE)將 MBSE 定義為 "正式應用建模來支持系統需求、設計、分析、驗證和確認活動,從概念設計階段開始,貫穿整個開發和后期生命周期階段"(INCOSE,2007 年)。傳統上,系統工程采用基于文檔的方法。然而,隨著系統和系統之系統的復雜性不斷增加,需要 "捕獲、分析、共享和管理與產品完整規范相關的信息"(Friedenthal 等人,2009 年)。在模型中捕獲這些信息可以讓多個利益相關者從各自的視角來看待系統,簡化系統工程師和特定領域工程師之間的協作,通過設計和驗證/確認活動來跟蹤需求,并在解決方案開發過程中提供一種正式的方法來識別、分析和跟蹤系統變化/缺陷(Carroll & Malins,2016)。

系統建模語言(SysML)

為實施 MBSE 方法,2006 年開發并采用了系統建模語言(SysML)v1.0 版,2007 年由對象管理集團(OMG)正式發布。SysML v1.6 于 2019 年正式發布,是 SysML v1.x 標準的最新版本。SysML v1.x是統一建模語言(UML)2標準的擴展,包含UML 2的部分(但不是全部)元素和一些新的SysML特定元素(OMG,n.d.)。SysML v1.x 是一種圖形語言,由九種圖表類型組成,其中每種圖表都代表了底層模型元素的一種視圖。

提高大型語言模型的響應速度

大型語言模型的好壞取決于它們所訓練的數據集。為了改進對特定領域請求的響應,通常需要通過以下方法之一為模型提供額外的背景:

  • RAG 利用外部數據來增強大型語言模型的知識,而不改變基礎大型語言模型的參數(權重;Nucci,2024 年)。對于經常產生新知識的領域,或者當信息屬于專有/私有信息,用戶不希望將其作為大型語言模型訓練集的永久組成部分時,RAG 尤其有用(Nucci,2024 年)。

  • 微調通過傳授大型語言模型的專業知識,對其內部參數進行微調(Nucci,2024 年)。Nucci 強調,只需調整少量參數,就能大大節省微調時間,而無需重新訓練整個模型。

  • 快速工程

    • 零鏡頭提示是要求大型語言模型在第一次嘗試時就正確執行任務,即使該模型尚未針對特定任務接受過直接訓練(Oleszak,2024 年)。它們通常用于只需要一般知識的簡單任務,或者當特定領域的知識已包含在訓練集中或通過 RAG 或微調提供時。

    • 對于需要多步驟推理的更復雜任務,或者大型語言模型不了解特定領域知識時,可使用少量提示通過實例來教授大型語言模型(Oleszak,2024 年)。通過提供代碼語法示例,少量提示學習可用于正確格式化代碼。

還可以將上述方法結合起來。OpenAI 允許用戶創建自定義 GPT,在其中可以提供具體的說明,并提供一個上傳包含特定領域知識的文件的區域(OpenAI,2023)。這種將 RAG 與提示工程相結合的方法可使用戶減少完成復雜任務所需的提示次數,而這些任務模型并未經過專門訓練。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

在飛速發展的人工智能(AI)領域,大型語言模型(LLM)在理解和生成自然語言方面展現出了前所未有的能力。然而,它們在專業領域的能力,尤其是在復雜和跨學科的系統工程領域的能力,仍然較少被探索。本文介紹了 SysEngBench,這是一個新穎的基準,專門用于在系統工程概念和應用的背景下評估大型語言模型。SysEngBench 將包含一整套源自核心系統工程流程的任務,包括需求分析、系統架構設計、風險管理和利益相關者溝通。SysEngBench 利用各種真實世界和合成生成的場景,旨在評估大型語言模型解釋復雜工程問題和生成創新解決方案的能力。

利用 SysEngBench 對大型語言模型進行的評估揭示了他們在系統工程背景下的現有能力和局限性。這些發現為今后的研究和開發提出了建議,旨在提高大型語言模型在系統工程學科中的實用性。SysEngBench 有助于理解人工智能對系統工程的潛在影響。

SysEngBench框架

為 SysEngBench 選擇的框架是一個簡單的多選題基準。該基準目前涵蓋系統工程入門,但將擴展到未來工作中討論的系統工程子領域。

所使用的數據來源包括海軍研究生院 SE 3100 課程的幻燈片。該課程的教學大綱包括學習該課程后獲得的以下知識:

  • 定義系統工程,包括其目的和范圍以及系統工程師的角色。

  • 定義系統架構,包括其目的和范圍以及系統架構師的角色。

  • 在系統的整個生命周期中恰當地應用系統工程流程的基本要素。

  • 根據用戶需求和操作目標,提出、闡述和記錄系統要求;將其轉化為技術要求。

  • 創建反映利益相關者目標的系統價值層次。

  • 使用 IDEF0、FFBD 等建模工具和其他技術完成系統功能分析,以支持需求工程。

  • 開發、評估和記錄備選系統架構。整個課程中的一項補充性共同努力將是獲得對國防部(DoD)系統工程應用的共同理解。

多選題是在一些人工智能輔助下創建的,但每道題都由人類系統工程師對半合成數據集的正確性進行審查。更復雜的問題將考察大型語言模型在系統工程的 "灰色 "范圍內進行推理的能力,特別是在有多種配置可以滿足要求的高維交易空間。

付費5元查看完整內容

在過去幾年中,大型語言模型(LLM)的能力迅速提高,OpenAI 的 GPT-4 就是最突出的例子。本案例研究探討了 GPT-4 用于協助研究任務的兩種方式:數據分析和撰寫執行摘要。我們之所以選擇這些任務,是因為它們在國防分析研究所(IDA)的項目中很常見,而且經常被作為適合大型語言模型的任務提出。首先,使用 GPT-4 完成了數據清理、探索、建模和可視化等任務。將其質量和速度與人類完成相同任務進行了比較。發現單獨使用人工智能時,分析質量不夠高,但有了人類伙伴后,分析質量大大提高。使用 GPT-4 節省了約 60% 的數據分析任務時間,并為該領域節省大量成本提供了機會。然后,使用 GPT-4 為三份公開的 IDA 出版物生成了執行摘要(EXSUM),并將其與人工生成的執行摘要進行了比較。發現大型語言模型生成的內容提要往往無法為技術性較強的論文提供適當的背景,但考慮到其生成速度和詳盡程度,大型語言模型仍然提供了節省時間和成本的機會。

付費5元查看完整內容

異常檢測對于許多不同的使用案例都至關重要,例如識別安全隱患以防止潛在災難的發生。開發人類-機器人團隊提出有針對性問題的能力對于快速識別違反協議的情況并迅速采取行動糾正這種情況至關重要。在本報告中,試驗了如何利用視覺問題解答算法和一組精心設計的問題來檢測虛擬制造空間和真實世界小巷中的異常情況。我們的探索結果表明,與隨機基線相比,該算法的性能有所提高,還討論了未來工作面臨的挑戰。

圖 1 兩種視覺刺激:虛擬創客空間(左)和現實世界的小巷(右)。向 VQA 提出的問題是 "滅火器周圍是否有任何東西阻擋地面?"VQA 對兩個刺激分別做出了 "是 "和 "否 "的正確回答。

由人類引導的機器人探索有助于在偏遠地區收集信息,特別是那些由于危險條件或自然災害而可能過于危險、荒涼或人類無法進入的地區。現場條件可能是未知的,而且在不斷變化;因此,讓機器人對不斷變化的情況進行可視化監控和報告,將有助于人類伙伴決定機器人下一步應采取什么行動或進一步調查什么。當某一場景違反安全協議或預期時,具有自動檢測功能的機器人或許能實現這一目標。

之前的研究已經在單個實體層面(如一塊布料上的一個洞)、與特定任務相關的場景層面(如自動駕駛汽車的避障)和事件層面(如視頻過程中的意外移動)對異常情況的檢測進行了探索。我們將我們的工作置于場景層面,并在人類-機器人團隊中加入了異常檢測的互動元素。

在本報告中,我們圍繞安全協議和隨后的違規檢測設計了一種視覺場景分析范例。我們收集有關特定領域預期(創客空間安全協議)的背景知識,然后向系統提出有關環境快照的問題,以評估其是否異常。我們的方法將視覺問題解答(VQA)算法的最新進展應用于視覺感官異常檢測的重點研究。我們為研究確定了兩組視覺刺激:一組是虛擬創客空間,我們操縱它違反我們策劃的安全協議;另一組是現實世界中的小巷,它顯示出異常的配置和屬性。兩個領域、問題和 VQA 答案如圖 1 所示。

在這項工作中,提出了以下研究問題: 提出有針對性的問題是否能比要求對圖像進行一般描述(例如,從圖像標題算法中)更準確地識別和評估視覺異常?

貢獻如下: 1) 從安全協議中設計了異常分類,以指導環境設計和 VQA 算法的提問路線;2) 評估了最先進的 VQA 在非典型和非領域環境中的表現。在概念驗證實驗中,以 VQA 為目標的提問方法對創客空間圖像中的異常情況的準確率達到了 70%,而使用標題生成和純描述基線的隨機性為 50%,準確率為 0%。討論了通過提問來評估異常情況的潛力,并介紹了擴大測試規模的未來工作。

付費5元查看完整內容

本項目的研究目標是通過研究游戲化培訓方法能否/如何改善培訓,來改善采購人員的培訓,特別是有關新采購概念和方法的培訓。采購成果在很大程度上取決于國防部(DoD)員工在不斷變化的采購生態系統中的學習和適應能力。鑒于學習時間的限制和勞動力的流動,需要新的方法來提高培訓速度、保持率和興趣。

美海軍研究生院(NPS)和北卡羅來納州立大學(NCSU)的研究團隊制作了一套談判場景,并將其納入一個交互式玩家平臺,允許團隊在談判團隊中扮演政府或行業方面的各種角色。玩家們相互競爭,并努力在各自的任務、限制和目標下為自己的團隊找到最佳解決方案。研究人員評估了團隊在各種復雜的談判交易、各種制約因素和信息不對稱的情況下是如何互動的。

對參與者反饋意見的分析表明,這項練習促進了創造性地解決問題,對采購專業人員具有潛在的益處。然而,參與者希望有更多的時間、結構、明確的預期和可及性。積極的反饋顯示了學習導向,而消極的反饋則反映了對績效的關注。總之,游戲化方法有望提高對收購專業人員至關重要的談判技能。這項研究為游戲化談判培訓提供了初步方法和原型。需要進一步完善和測試,以優化游戲設計、玩家體驗和學習成果。游戲化方法可以提高參與度和實際技能,但要取得成功,還需要認真實施。

付費5元查看完整內容

為了解決如何利用現有數據的增長來建立有用的模型的問題,一個自動發現模型和管道的方法是有序的,它可以利用這些數據。我們已經探索了自動發現模型和管道所需的許多方面:建立一個模型知識庫和基于推薦系統方法的模型排名,通過數據集的圖形表示進行模型推薦,通過擴展基于樹的管道優化工具(TPOT)和基于強化學習的方法進行管道生成。我們探索了一種預算意識到的超參數調整算法和神經網絡的不確定性估計。我們探索了不同的訓練方法,包括無梯度優化、零點學習和持續學習。我們還解決了神經網絡架構的問題。我們將所有這些結合起來,形成了一個模塊化的自動機器學習(AutoML)系統,該系統支持廣泛的任務類型,在項目評估中一直處于前三名。

付費5元查看完整內容

在小型、受控的實驗室環境中,現有的人類自動駕駛運動規劃研究產生了寶貴的知識;然而,據我們所知,文獻中沒有長期運行的大型研究。作為傳統實驗室研究中獲得的高保真研究數據的補充,這種 "野外"方法將以以前無法達到的方式改進人類自動駕駛系統。通過使用對普通消費者來說普遍存在的技術,如智能手機和可穿戴電腦,參與這種長期的移動研究是可行的。已經有人努力將人類自動化研究環境改編為手機游戲,并開發了一個采用消費級可穿戴傳感器的被動連續數據收集平臺。像這樣的系統為設計和部署大規模的人類自動化研究提供了必要的構建模塊。

本技術報告介紹了一項正在進行的大樣本縱向研究的初步結果,其中人類參與者在與自主智能體交換控制權的同時玩動態避障游戲。參與者注冊并安裝了 "Busy Beeway",這是實驗設置中的移動游戲部分,并佩戴了連接到 "StudentLife "應用程序的Garmin傳感器,以提供反映每個玩家生活背景的額外數據。這里提出的評估主要集中在分配不同配置的人工智能伙伴對游戲表現的結果,以發現任何出現的行為模式,并確定玩家的生物背景是否能影響他們的游戲。我們發現各種各樣的游戲模式取決于特定的玩家、分配的人工智能,有時甚至取決于玩家的生物背景的變化。這表明需要在未來的工作中找到一種方法,可以根據每個人所有這些因素的組合來預測什么樣的人工智能配置能產生最理想的結果。

付費5元查看完整內容

本報告總結了迄今為止在路線偵察領域的本體開發的進展,重點是空間抽象。我們的重點是一個簡單的機器人,一個能夠感知并在其環境中導航的自主系統。該機器人的任務是路線偵察:通過觀察和推理,獲得有關條件、障礙物、關鍵地形特征和指定路線上的敵人的必要信息。路線偵察通常是由一個排的騎兵和非騎兵進行的。這項研究探討了機器人執行部分或全部必要任務的合理性,包括與指揮官進行溝通。

1.1 背景與動機

這是一項具有挑戰性的對抗性任務,即地形穿越加上信息收集和解釋。偵察的解釋方面需要考慮語義學--確定相關的信息和確定它如何相關(即有意義)。語義信息在本質上是定性的:例如,危險是一個定性的概念。為了將危險與某些特定的區域聯系起來,我們需要一種方法來指代該區域。這意味著至少能夠給空間的某些部分附上定性的標簽。

Kuipers在他的空間語義層次的早期工作中指出了空間的定性表示對機器人探索的重要性。例如,層次結構的拓撲層次包含了 "地方、路徑和區域的本體",歸納產生了對較低層次的因果模式的解釋。

最近,Izmirlioglu和Erdem為定性空間概念在機器人技術中的應用提供了以下理由:

  • 各種任務,如導航到一個目的地或描述一個物體的位置,涉及處理物體的空間屬性和關系。......或某些應用(如探索未知環境),由于對環境的不完全了解,可能并不總是有定量的數據。......可理解的相互作用和可接受的解釋往往比高精確度更可取(Kuipers 1983)。對于這些應用,定性的空間關系似乎更適合。

對于負責路線偵察的無人地面車輛(UGV)來說,其架構中的不同模塊將消費和產生語義信息:負責語義感知和目標識別、計劃和執行、自然語言對話等的模塊,加上主要負責維護信息的語義世界模型。例如,在美國陸軍作戰能力發展司令部陸軍研究實驗室的自主架構中,語義/符號世界模型被用來 "實現符號目標(例如,去接近一個特定的物體)",*其中接近是一個語義概念。

一個關鍵問題是如何在世界模型和其他模塊之間分配維護和處理不同類型語義信息的責任。從語義世界模型的角度來看,這取決于有多少符號推理是合適的。例如,假設要接近的物體位于一個給定區域的某個位置,而不是靠近該區域的外部邊界。一旦機器人靠近物體,就可以推斷出機器人在物體的位置附近,而且也在同一區域內。如果有公制信息,就可以用幾何例程得出這個結論。在沒有公制信息的情況下,是否會出現在純粹的定性空間中推斷有用的情況?

本報告不涉及這個問題。我們的目標是確定什么應該被代表,而把如何代表和在哪里代表留給未來的工作。

1.2 路線偵察

以下片段取自FM7-92中對路線偵察的描述。空間表達是彩色的,周圍有一些文字作為背景。

  • 路線偵察的重點是獲得關于一條指定路線和敵人可能影響沿該路線移動的所有地形的信息。路線偵察的方向可以是一條道路、一條狹窄的軸線(如滲透通道),或一個總的攻擊方向......防御陣地。......部隊可以機動的可用空間......所有障礙物的位置和類型以及任何可用的繞道位置。障礙物可包括雷區、障礙物、陡峭的峽谷、沼澤地或核生化污染 ......沿途和鄰近地形的觀察和火力范圍 ......沿途提供良好掩護和隱蔽的地點 ......。橋梁的結構類型、尺寸和分類。著陸區和接駁區。與路線相交或穿越的道路和小徑。. . 如果建議路線的全部或部分是道路,則該排認為該道路是一個危險區域。它使用有掩護和隱蔽的路線與道路平行移動。當需要時,偵察和安全小組靠近道路,以偵察關鍵區域。

路線偵察的結果是一份報告,以圖表的形式,并附有文字說明。FM7-92給出了一個例子,我們可以從中提取一些更必要的概念:

  • 網格參考。磁性北方箭頭..道路彎道..陡峭的坡度..道路寬度的限制(橋梁,隧道等)..岔道的位置..隧道..

讓我們把這段關于路線偵察的描述中提到的概念建立一個綜合清單,重點放在空間概念上,并盡可能地保留軍事術語:

1)必須指定環境中的位置、路線、區域和感興趣的物體。稱這些為 "實體"。

2)這些實體之間的空間關系是相關的(例如,一個地點在另一個地點的北邊)。值得注意的是,不同類型的實體之間的關系是被指定的。

a. 物體(例如,障礙物)在位置或區域。

b. 一些地點在空間上與路線有關(例如,沿著路線,毗鄰,或靠近道路)。

c. 地點可能代表更大的區域(例如,雷區的位置)。

d. 道路和小徑可以與路線相關:它們可能相交、重疊(部分疊加),或平行運行。

  1. 一些實體對路線具有戰術價值,無論是進攻還是防御(例如,雷區)。

a. 一些地點相對于其他地點或區域有方向性的定位(例如,一個防御性的位置)。

b. 有些區域是由其與另一個區域或地點的關系來定義的,這可能不是一種局部的關系(例如,觀察和火力場是由一個潛在的遠程位置來定義的,該位置有一條通往路線上的一個區域的線路)。

4)路線可能被障礙物阻擋,障礙物可能是明確的物體或更大的區域(例如,一個障礙物與一個雷區)。

  1. 路線和地形的三維幾何特性是相關的:道路上的急轉彎,陡峭的坡度,等等。

6)有時,描述物理基礎設施(如道路、橋梁)及其屬性是很重要的。

1.3 路線偵察抽象

路線偵查收集和解釋不同種類和不同來源的信息:

  • 背景知識。這包括關于環境特征的類型和預期成為任務一部分的物體的信息,包括道路、障礙物、溝壑、橋梁等等。

  • 任務規范。確定偵查的區域和路線,以及當時可獲得的任何信息。

  • 環境。通過空間分析(包括幾何學、拓撲學等)、感知、地圖衛星數據的離線圖像處理和其他類型的分析,確定環境的相關特征。

  • 任務執行期間的通信。我們假設指揮官或人類操作員在偵察過程中可以向UGV提出詢問或命令,提供新信息或集中注意力。

  • 如前所述,一份報告。

原則上,所有這些信息都以某種抽象的形式組合在一個語義世界模型中。我們把環境的物理屬性和特征稱為 "實體"。把我們用來表示這些實體和它們之間關系的抽象概念稱為 "概念"。

不同類型的實體的概念。層次結構在語義表征中很常見,用來捕捉關于世界上遇到的實體類型的一般知識。一個類型就是一個概念,類型被組織在一個層次中:MRZR是一種輕型的、戰術性的、全地形的車輛,它是一種輪式地面車輛,它是一種地面車輛的類型,等等。屬性和關系可以與一個給定的概念相關聯,而下級概念則繼承這些屬性。在路線偵察中,如果有信息說某一地區有一條道路,但沒有更多的細節,仍然可以從道路的概念中推斷出它的預期屬性:它比它的寬度長得多;它在人們感興趣的地點之間通向;在其他條件相同的情況下,它可能比周圍的地形行駛得快。從實用的角度來看,這意味著如果有可能將某物歸類為一個已知的概念,那么語義世界模型就不需要記錄關于該物的每一條相關信息。

用于實體的目的和用途的概念。一個代表道路典型用途的概念可以進一步區分其長度和寬度的語義,這反過來又導致了跨越和沿途、穿越和跟隨等概念之間的區別。這將使UGV能夠以不同的方式對待 "偵察道路對面的區域 "和 "偵察前方的道路 "的命令。前方的道路也是一個語義概念:它取決于對過去去過的地方的了解。

代表部分信息的概念。有時可能會有定性的信息。想象一下,任務規范的一部分是關于雷區在計劃路線上存在的信息,但不知道具體位置,或者知道雷區的位置,但不知道其范圍。這種無知可以很容易地在代表實體的概念中得到體現。

新概念適用于新環境。另一個交流的例子可能是信息性的。想象一下,當一輛UGV穿越一條東西走向的道路時,它與遠程指揮官進行交流,指揮官問道:"道路北側是什么?"* 需要識別的物體可能不在道路和地形的邊界上(與 "建筑物的一側 "形成對比),而是在以道路邊緣為界的某個感興趣的區域內,距離UGV的位置向北不遠,向東和向西也有一些距離。這個區域可能沒有事先作為一個概念被劃定;相反,它是在當前的背景下構建或推斷出來的。這是一個有趣的例子,一個概念不是從公制數據中抽象出來的,而是被強加在公制數據上的。

背景中的概念的適應和組合。想象一下,對一張地圖的分析產生了對代表區域、道路等等的概念的分解。這些概念可能直接適用于某些目的。例如,與道路相聯系的概念在推理兩點之間的導航時是有用的。然而,在其他情況下,這些概念可能需要調整或與其他概念相結合。例如,如果一條道路被指定為 "危險區域",那么這個區域的概念可能會超出道路的邊界,延伸到周圍的地形。

付費5元查看完整內容

在這份報告中,我們提出了一種數據驅動的方法,用于實驗室技術載具的閉環控制。我們使用近似策略優化(PPO)算法,這是一種強化學習算法,已被證明在各種任務中表現良好。PPO的成功是由于它在尋找解決方案方面的穩定性,此外還具有策略梯度方法的許多積極特性。雖然PPO在整個文獻中被證明是成功的,但在獎勵稀疏的情況下,它確實受到了影響;這恰好是我們的精確彈藥應用的情況,其目標是擊中一個特定目標。為了解決這個稀疏獎勵的問題,我們提出了一個圍繞PPO的課程學習方法。該課程將學習分為幾個階段,這些階段的復雜度逐漸增加,緩解了獎勵信號的稀疏性。所提出的方法被證明優于沒有課程的學習方法。

1 引言

最近,用于自主系統的引導、導航和控制的數據驅動方法已經得到了普及。這要歸功于機器學習的最新進展,特別是深度學習和人工神經網絡。強化學習(RL)是深度學習的一種類型,旨在利用與環境的互動來學習從環境狀態到代理行動的適當映射,從而使所需的輸出最大化。這個程序的靈感來自于自然過程,因為大多數生物系統通過大量的行動和隨后的反饋來學習在其環境中的操作。在RL中,來自環境的反饋被稱為獎勵信號。系統試圖調整輸入以最大化這個期望的獎勵信號。系統的輸入被定義為代理行動,而狀態和獎勵是從環境中觀察到的。這些收集的數值被用來驅動學習過程。在這項工作中,我們提出了一種RL方法來開發一個遠程精確武器的閉環控制方案。我們在本報告中使用的數據驅動的方法是基于近似策略優化(PPO)RL算法的。

快速發展的機器學習行業導致了RL的新進展,使新穎的、數據驅動的方法能夠用于控制開發。即使是高度密集的輸入,如圖像幀,也可以推斷出行動,使性能最大化。很多時候,這種方法使閉環控制更加直接,如在基于視覺的系統中,基于圖像的算法將不必與控制分開獨立開發。這種非常規的方法與傳統的控制器設計相反,它是一種基于模型的方法,依賴于系統模型的近似。由于參數的不確定性和/或系統的非線性而做出的近似,往往阻礙了基于模型的方法,導致控制器性能不足或保守的控制器。例如,自主特技飛行是一個具有挑戰性的控制問題,因為它需要在飛行包絡線的邊緣進行精確控制。盡管傳統的、基于模型的方法在面對不相干的情況時可能表現不佳,但它們確實對已知的操作領域提供了寶貴的性能保證,使它們通常是安全的和可預測的。另外,無模型方法需要較少的模型開發和調整來得出閉環控制。純粹的數據驅動,無模型方法可以學習系統的復雜性,甚至可以擴展使用的代理數量。然而,他們需要更多的數據,而且控制設計中的性能保證可能更難實現。

RL方法得益于環境的簡化,如獎勵的塑造或行動空間和狀態的離散化,以實現更快的學習。在經典的RL任務中,可以同時收集行動和獎勵,以不斷調整策略和最大化獎勵。現實世界的問題很少以允許這種方式提出。例如,當訓練一個自主代理找到一個迷宮的盡頭時,在每個時間步驟中,沒有跡象表明代理正在對系統應用正確的行動,直到它達到時間范圍或目標。這些類型的問題注定要用稀疏的獎勵信號來定義。為了幫助使用稀疏獎勵的學習,設計者可以塑造獎勵以持續提供反饋。這種成型的獎勵有一個缺點,即無意中支配了閉環控制的解決方案,減少了通過允許代理不定向探索而獲得的緊急解決方案的機會。然而,當有廣泛的領域知識可供利用時,這種方法仍有其優點。好奇心驅動的方法采取相反的方法,鼓勵對不為人知的領域進行探索。這已被證明在許多環境中是有效的,因為好奇心是唯一的獎勵信號。另一種方法是將系統結構化,使其逐步學習更難的任務以獲得期望的目標。這被稱為課程學習,其中課程是系統必須逐步學習的逐漸困難的任務的集合。這里的想法是,當任務容易時,獎勵會在開始時更頻繁地出現,為RL算法提供有價值的反饋,以用于調整其控制器。

2 問題

RL已經在許多空間得到了實現,包括醫療、社會和工程應用。在本報告中,我們應用RL來控制一個智能彈藥。以前關于導彈制導的RL的工作利用獎勵塑造方法來克服稀疏的獎勵問題。如前所述,這種方法可能導致系統不探索對設計者來說不直觀的路徑。由于彈丸的高度不確定性和非線性動力學,自主彈藥制導、導航和控制是一項艱巨的任務。由于在估計視線率和走時方面的挑戰,比例導航可能難以實現。

比例導航是基于線性化的嚙合幾何,這可能不適合于整個軌跡。這常常導致從 "中途 "制導法和 "終點 "制導法轉換的臨時決定點。估計方面的一些困難來自于系統的非線性,這迫使控制設計者對系統進行近似和線性化。一些用于射彈控制的系統使用飛行方程的數值微分,這導致控制決策是基于由噪聲測量產生的可能錯誤的狀態。數據驅動的方法對這些系統可能是有利的。然而,由于稀疏的獎勵信號,機器學習過程非常困難。

2.1 貢獻

在這份報告中,我們提出了一種將RL應用于智能射彈的閉環控制這一難題的方法。我們設計了一個OpenAI gym環境,其中嵌入了一個功能模擬單元(FMU)模型,以密切模擬真實的射彈。因此,由于尋找有用的控制策略所需的探索任務的規模,這個問題比經典的RL任務更加困難。這里的狀態包括位置、速度和與目標的距離。輸入動作是在身體框架的水平和垂直方向上的加速指令。由于我們的問題中存在稀疏的獎勵,因此實施了一種課程學習方法,其中課程的各個階段與從大到小的 "目標 "尺寸一致。我們通過實驗表明,通過這個系統,我們可以學會駕駛智能彈藥并精確地擊中目標。

2.2 組織

我們在第3節中介紹了我們的環境模擬,在第4節中提供了PPO算法的概述,在第5節中介紹了我們的課程學習方法,在第6節中給出了訓練的概述,然后在第7節中介紹了我們的結果。

付費5元查看完整內容

本報告將描述數字任務工程--建模和仿真中缺失的部分。當今天大多數技術都是相互聯系的時候,僅僅模擬組件或系統是不夠的。忽視動態世界變量的錯誤已經寫在歷史上......和傳說中。然而,這些條件和相互作用往往被排除在工程模擬之外,以需求為唯一目標。

數字任務工程填補了建模和仿真中的這一空白,將操作環境納入其中,以評估任務結果。這是一個對系統進行建模的過程,因為它將在其預期的條件下運行,并與其他系統一起或對抗。

雖然數字任務工程可能看起來像是在項目的最后--一旦系統被設計出來--事實卻完全不同。它應該從一開始就應用于整個產品的生命周期。用數字任務工程創建的操作環境模型有助于你的項目的數字線索,這樣你就可以快速評估設計變化對現實世界的影響,并在工程團隊中分享這些信息。通過模擬運動中的世界,數字任務工程提供的洞察力遠遠超過了需求驗證。

圖1-1:多域資產的任務分析示例。

圖1-2:導彈防御場景任務分析示例。

圖1-4:數字任務工程愿景。

付費5元查看完整內容
北京阿比特科技有限公司