亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

deepseek模型密集更新,用戶數將持續高速增長   自2024年起,DeepSeek在AI領域迅速掘起并不斷選代。2024年12月底至2025年1月底,更新尤為密集,發布了參數眾多且性能提升的V3、支持思維鏈輸出和模型訓練的R1,以及深耕圖像領域的視覺和多模態模型。2024年12月底到2025年1月底,全球用戶數從34.7萬激增至1.19億。與ChatGPT相比,DeepSeek僅用一年多就達到ChatGPT兩年的用戶規模,在國內1月躍居月均活躍用戶數榜首,APP下載量也大幅增長。   Deepseek具備低成本、高性能、強推理三大特點   DeepSeek-V3通過算法創新和工程優化大幅提升模型效率,從而降低成本,提高性價比。DeepSeekV3訓練成本僅為557萬美元,耗時不到兩個月。DeepSeek通用及推理模型成本相較于OpenA等同類模型大幅下降。DeepSeek-R1在繼承了V3的創新架構的基礎上,在后訓練階段大規模使用了強化學習技術,自動選擇有價值的數據進行標注和訓練,減少數據標注量和計算資源浪費,并在僅有極少標注數據的情況下,極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上,DeepSeek在AIME2024測評中上獲得79.8%的pass@1得分,略微超過OpenAl-01;在MATH-500上,獲得了97.3%的得分,與OpenAl-01性能相當,并且顯著優于其他模型   DeepSeek驅動模型平價化,建議關注算力、AI應用和端側的投資機會   1)算力:隨著更多用戶對DeepSeek的使用,以及未來更多AI應用的不斷涌現,對算力的需求呈現出幾何級增長超勢。AI技術的進步,雖然模型效率提高了,但不斷增長的用戶和應用數量,卻對算力資源提出了更高要求,消耗也隨之劇增。2)B端應用:AlAgent正在對傳統SaaS應用進行全面重構。與傳統知識庫結構化管理模式相比,AlAgent的向量數據庫具備強大的自主學習能力,能夠自動理解文檔內容,實現更加高效的知識管理,為企業的數字化轉型提供了有力支持。C端應用:作為生成式AI的重要商業化應用,AlAgent在電商、教育、旅游、酒店以及客服等多個行業得到了廣泛應用。3)端側:AI正在內容、應用、硬件、生態上影響世界,AlAgent從“數字”走向“具身”隨著市場發展,大模型更廣泛地接入硬件產品,做好軟硬件協同發展是未來競爭的關鍵。

付費5元查看完整內容

相關內容

深度求索(DeepSeek),全稱杭州深度求索人工智能基礎技術研究有限公司,是中國的一家人工智能與大型語言模型公司。2025年1月10日,DeepSeek為iOS和安卓系統發布其首款免費的基于DeepSeek-R1模型聊天機器人程序。截止到27日,DeepSeek-R1超過ChatGPT成為美區iOS應用商店免費應用程序榜首[3],并導致英偉達股價大跌18%[4][5]。DeepSeek成功挑戰實力更強、更為著名的競品從而被認為是顛覆人工智能[6]、打響了全球人工智能領域競賽的第一槍[7]、引領人工智能下邊緣政策新紀元

AI編程:重構代碼編寫的范式。AI編程已經成為AI發展的一個重要的細分領域,正在逐步賦能編程工作的各個方面,包括代碼自動補全、代碼生成、測試驗收等。根據《2024年中國AI代碼生成市場觀測報告》,2023年中國AI代碼生成市場規模達到65億元,隨著規范化開發需求和中小型企業用戶對輔助開發工具的需求增加,預計到2028年,中國AI代碼生成市場規模預計將增長至330億元,年復合增長率達38%。   GitHub Copilot引領AI編程,智能體、多模態等技術持續提升行業潛力。   據2024年7月微軟財報電話會議所披露信息,Github Copilot的年度經常性收入(ARR)已經成功突破3億美元大關,ARR數值占Github當年整體增長的40%,已然成為推動Github業務拓展的核心驅動力之一。而對比2023年,Github Copilot在2023年的ARR約為1億美元。   2025年2月納德拉表示GitHub Copilot將all-in智能體,GitHub現任CEOThomas Dohmke表示自主SWE智能體也將融入GitHub用戶體驗。智能體將GitHub Copilot的體驗提升到人類程序員水平,在處理代碼問題時,無需開發者特別指定相關代碼,便可主動定位合適代碼并解決問題,如同為每個代碼庫配備了專屬的工程師,并且具有強大的自主能力,識別錯誤并自動修復。與此同時,Github Copilot也將實現“Vision”等功能,向多模態等方向不斷進發。   國內企業重點發力,大廠已實現在內部的大量應用。科技大廠中,以百度、阿里、字節的火山引擎為例,均在AI編程領域取得成績,在三方基準測試平臺Chatbot Arena公布的最新的大模型盲測榜單中,Qwen2.5-Max在數學和編程等單項能力上排名第一;截至2024年4月,Baidu Comate深度融入開發流程,參與了大量項目的開發工作,編寫了百度內部四分之一的代碼;在字節內部,豆包MarsCode已經覆蓋了70%以上的開發者,從編碼階段就開始為開發者貢獻代碼和技術解決方案。   上市公司中,卓易信息旗下艾普陽的SnapDevelop集成ChatGPT,在智能化時代引領IDE新發展;普元的低代碼開發平臺推動AI編程效率提升,同時與華為等國產化生態持續深入融合;截至2024年9月,商湯的代碼小浣熊個人用戶超過10萬人,實現了單日生成代碼量突破十億Tokens;金現代自身低代碼平臺持續迭代,已經積累多個重要政企客戶。

付費5元查看完整內容

監督微調(SFT)和強化學習(RL)是基礎模型常用的后訓練技術。然而,它們在增強模型泛化能力方面的具體作用仍不清楚。本文研究了SFT和RL在泛化和記憶方面的比較效果,重點關注基于文本和視覺的環境。我們引入了GeneralPoints,一款算術推理卡牌游戲,并考慮了V-IRL,一個現實世界的導航環境,以評估通過SFT和RL訓練的模型如何在文本和視覺領域中泛化到未見過的變種。我們展示了RL,特別是在使用基于結果的獎勵進行訓練時,能夠在基于規則的文本和視覺環境中實現泛化。相反,SFT傾向于記憶訓練數據,并且在任何情況下都難以在分布外泛化。進一步的分析揭示,RL提升了模型的基礎視覺識別能力,促進了其在視覺領域的泛化能力。盡管RL在泛化能力上優于SFT,我們仍然表明SFT對于有效的RL訓練仍然有幫助:SFT穩定了模型的輸出格式,從而使得隨后的RL能夠實現性能提升。這些發現展示了RL在復雜多模態任務中獲取可泛化知識的優勢。1 引言雖然監督微調(SFT)和強化學習(RL)都廣泛用于基礎模型的訓練(OpenAI, 2023b;Google, 2023;Jaech et al., 2024;DeepSeekAI et al., 2025),但它們在泛化(Bousquet & Elisseeff, 2000;Zhang et al., 2021)上的不同影響仍不清楚,這使得構建可靠和穩健的AI系統具有挑戰性。分析基礎模型泛化能力的一個關鍵挑戰(Bommasani et al., 2021;Brown et al., 2020)是區分數據記憶與可轉移原則的獲取。因此,我們研究了一個關鍵問題,即SFT和RL是否主要記憶訓練數據(AllenZhu & Li, 2023a;Ye et al., 2024;Kang et al., 2024),或是它們學習了可以適應新任務變種的可泛化原則。為了回答這個問題,我們關注泛化的兩個方面:基于文本的規則泛化和視覺泛化。對于文本規則,我們研究模型將學習到的規則(給定文本指令)應用到這些規則的變種上的能力(Zhu et al., 2023;Yao et al., 2024;Ye et al., 2024)。對于視覺-語言模型(VLMs),視覺泛化衡量模型對視覺輸入變化(如顏色和空間布局)的性能一致性,任務保持不變。為了研究基于文本和視覺的泛化,我們調查了兩個不同的任務,分別體現了規則性和視覺變種。我們的第一個任務是GeneralPoints,這是一種原創卡牌游戲任務,類似于RL4VLM中的Points24任務(Zhai et al., 2024a),旨在評估模型的算術推理能力。在GeneralPoints中,模型接收四張卡片(以文本描述或圖像呈現),并要求使用每張卡片的數字值精確計算一個目標數字(默認值為24)。第二個任務是采用V-IRL(Yang et al., 2024a),這是一個現實世界的導航任務,專注于模型的空間推理能力。我們采用了類似于Zhai et al.(2024a)的方法,通過在主干模型上運行SFT后,再實施RL的多步強化學習框架(Dubey et al., 2024),并使用序列修正公式(Snell et al., 2024)。在GeneralPoints和V-IRL中,我們觀察到RL能夠學習到可泛化的規則(以文本形式表達),其中在訓練分布內的性能提升也能轉移到未見過的規則。相反,SFT似乎會記憶訓練規則,無法實現泛化(具體示例見圖1)。除了基于文本的規則泛化,我們進一步研究了視覺領域的泛化,觀察到RL同樣能泛化到視覺的分布外(OOD)任務,而SFT仍然難以應對。作為視覺OOD泛化能力的副產品,我們的多回合RL方法在V-IRL小型基準測試中實現了最新的性能,提升了+33.8%(44.0% → 77.8%)(Yang et al., 2024a),突顯了RL的泛化能力。為了理解RL如何影響模型的視覺能力,我們在GeneralPoints上進行了額外分析,揭示了使用基于結果的獎勵函數(Cobbe et al., 2021)訓練RL能提升視覺識別能力。盡管RL在泛化能力上優于SFT,我們仍然表明,SFT對于穩定模型的輸出格式仍然有幫助,這使得RL能夠實現性能提升。最后,我們觀察到,通過增加最大步驟數來擴大推理時間計算,從而提高了泛化能力。

付費5元查看完整內容

多任務學習(MTL)是一種學習范式,有效地利用任務特定和共享信息同時解決多個相關任務。與單任務學習(STL)相比,MTL提供了一系列優勢,增強了訓練過程和推理效率。MTL的主要優點包括流線型模型架構、性能提升和跨領域泛化能力。在過去二十年中,MTL已廣泛被認為是在包括計算機視覺、自然語言處理、推薦系統、疾病預測與診斷及機器人技術等多個領域中,一種靈活有效的方法。本綜述全面概述了MTL的演變,涵蓋了從傳統方法到深度學習乃至最新趨勢的預訓練基礎模型的技術層面。我們的綜述有條不紊地將MTL技術分類為五個關鍵領域:正則化、關系學習、特征傳播、優化和預訓練。這種分類不僅按時間順序概述了MTL的發展,還深入探討了每個類別內的各種專門策略。此外,綜述揭示了MTL如何從處理固定任務集合轉變為不受任務或模態限制的更靈活方法。它探討了任務可提示和任務不可知訓練的概念,以及零樣本學習的能力,這些都釋放了這一歷史上備受推崇的學習范式的未開發潛力。總的來說,我們希望這份綜述能為研究社區提供自1997年以來MTL進展的全面概覽,直至2023年。我們討論了當前挑戰,并展望未來的可能性,從廣泛的角度揭示了MTL研究的機遇和潛在途徑。這個項目可以在 //github.com/junfish/AwesomeMultitask-Learning 公開獲取。

在介紹中,我們希望在回顧多任務學習(MTL)的方法論之前回答以下五個研究問題(RQs): * RQ1:多任務學習的概念和定義是什么?(見§ 1.1) * RQ2:多任務學習如何從其他學習范式中區分出來?(見§ 1.2) * RQ3:在學習場景中使用多任務學習的動機是什么?(見§ 1.3) * RQ4:多任務學習的有效性依賴于哪些基本原理?(見§ 1.4) * RQ5:我們的綜述與以往的研究有何不同?(見§ 1.5)

在§ 1.1中,我們逐步介紹多任務學習(MTL),從廣義上開始,最終給出一個正式定義。隨后,§ 1.2探討了MTL在機器學習(ML)領域中的定位,與轉移學習(TL)、少樣本學習(FSL)、終身學習、多視圖學習(MVL)等相關范式進行比較。§ 1.3深入探討了采用MTL的動機,從明顯和微妙的角度提供見解,同時也討論了MTL如何惠及相關任務。在§ 1.4中,我們更深入地探討了支撐MTL的基本機制和理論,具體包括:1) 正則化,2) 歸納偏見,以及3) 特征共享,為理解其基本原理提供了解釋。最后,§ 1.5回顧了關于MTL的現有綜述,強調我們綜述的獨特貢獻,并為本文的其余部分制定了一個結構化的路線圖。我們綜述的結構在圖2中描述。在深入本綜述之前,讀者可以快速參考表1,了解與數據集、機構和新提出的方法無關的首字母縮寫詞列表,而數學符號概述則提供在表3和表6中。

在過去幾十年中,MTL的日益流行在圖3中得到了明顯體現,該圖顯示了與關鍵詞搜索“allintitle: 'multitask learning' OR 'multi-task learning'”相關的論文數量的趨勢,數據來源于谷歌學術。正如其名稱所示,MTL是ML的一個子領域,在此多個任務被共同學習。通過這種方式,我們希望利用這些相關任務之間的有用信息,并打破傳統的各任務獨立執行的做法。在單任務學習(STL)中,手頭任務的特定數據是支撐學習者的唯一來源。然而,MTL可以方便地轉移從其他任務學到的額外知識。MTL的本質在于通過結合數據資源和共享知識,利用任務之間的共識和補充信息。這揭示了一種更好的學習范式,可以減少內存負擔和數據消耗,并提高訓練速度和測試性能。例如,同時學習圖像中的單眼深度估計(測量到相機的距離)(Eigen等,2014年)和語義分割(為每個像素值分配一個類別標簽)(傅克勝和梅玉,1981年)是有益的,因為這兩個任務都需要感知有意義的對象。隨著實驗和理論分析持續驗證其有前途的結果,MTL已變得越來越普遍。例如,使用面部ID解鎖iPhone是一個典型但不易察覺的MTL應用,涉及同時定位用戶的面部和識別用戶。通常,當我們在優化階段嘗試處理兩個或更多的目標時,就會發生多任務處理。 因此,即使在執行帶有正則化的STL時,MTL也無處不在于ML中。這可以理解為有一個目標任務和一個額外的人為任務,例如通過?2正則化器學習受限模型或通過?1正則化器學習簡約模型。這些假設偏好可以作為歸納偏見,增強歸納學習者(Caruna, 1993)。在MTL的早期探索中(R. Caruana, 1997),所涉及任務提供的額外信息被視為其他任務的特定領域歸納偏見。由于從其他任務收集訓練信號比從模型設計或人類專業知識獲得歸納偏見更實際,因此我們可以通過這種MTL范式增強任何ML模型。 動機和好處: MTL可以從以下五個具有不同好處的角度受到激勵:認知/社會心理學、數據增強、學習效率、現實世界場景和學習理論。

從心理學角度看,人類天生具有適應新問題和環境的靈活性,因為人類學習過程可以將一種經驗中的知識轉移到另一種經驗中(Council等,2000)。因此,MTL的靈感來自于模擬這一過程,賦予模型多任務處理的潛力。巧合的是,這種知識轉移也發生在組織之間(Argote等,2000)。已證明,具有更有效知識轉移的組織更具生產力,并且更有可能生存下來。這些在其他領域的轉移或互惠的先前成功鼓勵了ML中任務的聯合學習(R. Caruana, 1997)。

在大數據時代之前,現實世界的問題通常由小型但高維的數據集表示(樣本數 < 特征數)。這種數據瓶頸迫使早期方法學習一個稀疏結構的模型,總是導致對數據不足問題的簡約解決方案。然而,MTL的出現是為了聚合來自不同領域或任務的標記數據,以擴大訓練數據集,對抗過擬合。

追求效率和效果也是動機之一。MTL可以將來自不同來源的數據聚合在一起,多任務的聯合訓練過程可以節省計算和存儲資源。此外,性能提升的潛力使其在研究社區中廣受歡迎。簡而言之,可以從多源數據中學習任何任務的通用表征,并在學習成本和性能方面惠及所有任務。

由于大多數現實世界問題自然是多模態或多任務的,MTL被提出來補救STL只單獨模擬部分問題而達到的次優。例如,預測阿爾茨海默病(AD)生物標志物對輕度認知障礙(MCI)風險和臨床診斷的進展同時基于多模態數據,如計算機斷層掃描(CT)、磁共振成像(MRI)和正電子發射斷層掃描(PET)(H. Chen等,2022;Jie等,2015;Kwak等,2018)。自動駕駛是另一個例子,也涉及多個子任務來計算最終預測(Chowdhuri等,2019;Z. Yang等,2018),包括識別周圍物體、根據交通條件調整最快路線、效率與安全之間的平衡等。

從學習理論的角度看,已證明無偏學習是不可能的(Mitchell,1980),因此我們可以通過使用相關任務的額外訓練信號來激發MTL。通常,MTL是通過多任務協助實現歸納轉移的方式之一,它可以提高學習速度和泛化能力。具體來說,在多任務聯合訓練過程中,某些任務可以從其他相關任務獲得歸納偏見,這些較強的歸納偏見(與通用正則化器相比,例如?2)能夠實現知識轉移,并在固定訓練數據集上產生更多的泛化能力。換句話說,與任務相關的偏見使學習者更傾向于可以解釋多個任務的假設,并防止特定任務過擬合。

機制與解釋。 在本節中,我們將探討三個關鍵機制——正則化、歸納偏見和特征共享——這些機制揭示了MTL如何操作以在多個任務中實現性能增強。

正則化。在MTL中,總損失函數是針對每個任務的多個損失項的組合。相關任務充當正則化器的角色,增強了跨任務的泛化能力。MTL模型的假設空間因同時處理多個任務而被限制在更狹窄的范圍內。因此,對假設空間這種約束減少了模型復雜性,減輕了過擬合的風險。

歸納偏見。共訓練任務的訓練信號由于它們共享的領域信息而充當相互歸納偏見。這些偏見在訓練期間促進跨任務知識轉移,引導模型偏好與任務相關的概念而不是任務本身。因此,這擴展了模型的視野,超越單一任務,增強了其對未見分布(OOD)數據的泛化能力。

特征共享。MTL可以在相關任務之間實現特征共享。一種方法涉及選擇重疊特征并最大化其在所有任務中的利用率。這被稱為“竊聽”(Ruder,2017),考慮到某些特征可能對特定任務不可用,但可以由相關任務學習的特征替代。另一種方式是將不同任務提取的所有特征合并在一起;這些特征可以通過線性組合或非線性轉換在任務之間整體使用。

總的來說,通過正則化、歸納轉移和特征共享,MTL可以是提升ML模型在多個任務上性能的一種高效且有效的方式。 貢獻與亮點。

現有綜述。Ruder (2017) 的研究是MTL的先鋒綜述,提供了MTL的廣泛概述,并專注于2015年到2017年深度神經網絡的進展。Thung和Wee (2018) 從輸入輸出變體的分類學角度回顧了MTL方法,主要集中在2016年之前的傳統MTL。這兩篇綜述可以相輔相成。Vafaeikia等人 (2020) 是一份不完整的綜述,簡要回顧了近期的深度MTL方法,特別關注于選擇輔助任務以增強學習性能。Crawshaw (2020) 從應用的角度介紹了2020年之前的成熟和先進的MTL方法。Vandenhende等人 (2021) 提供了在密集預測任務中深度MTL的全面綜述,這些任務生成像素級預測,如在語義分割和單眼深度估計中。Y. Zhang和Yang (2021) 首先從基于特征和基于參數的方法的分類學提供了MTL模型的全面概述,但對深度學習(DL)方法的包含有限。值得注意的是,所有這些綜述都忽略了過去三到四年MTL的發展,即大型PFMs(預訓練基礎模型)時代(Bommasani等,2021;C. Zhou等,2023),以GPT系列模型為代表(Brown等,2020;OpenAI,2023;Radford等,2018,2019)。

路線圖。本綜述采用了一個組織良好的結構,區別于其前輩們,展示了MTL從傳統方法到DL以及由PFMs引入的創新范式轉變的演變之旅,如圖1所示。在§ 2.1中,我們提供了傳統MTL技術的全面總結,包括特征選擇、特征轉換、分解、低秩因子化、先驗共享和任務聚類。接下來,§ 2.2致力于探索深度MTL方法的關鍵維度,包括特征融合、級聯、知識蒸餾、跨任務注意力、標量化、多目標優化(MOO)、對抗訓練、專家混合(MoE)、基于圖的方法和NAS。§ 2.3介紹了PFMs的最新進展,分類基于任務可泛化微調、任務可提示工程以及任務不可知統一。此外,我們在§ 3中提供了MTL的雜項方面的簡潔概述。§ 4提供了寶貴的資源和工具,以增強研究人員和實踐者與MTL的互動。我們的討論和未來方向在§ 5中呈現,隨后是我們在§ 6中的結論。這篇綜述的目標是三重的:1) 為新來者提供MTL的全面理解;2) 作為工程實踐者的工具箱或手冊;3) 通過提供對MTL未來方向和潛力的洞察,激發專家的靈感。

付費5元查看完整內容

Sora推出有望推動內容創作變革也是AIGC組成一部分   2024年2月迎Sora,推動多模態熱度。Sora的核心技術是基于OpenAI在自然語言處理和圖像生成方面的深厚積累(從LLM的ChatGPT到DALL-E3,再結合Diffusion和Transformer模型)與Runway、Pika等相比,Sora在視頻生成的真實感、細節表現上均具標志性價值。AI視頻生成雖不是新事,但Sora的推出具有新里程碑價值,作為AIGC組成部分,有望推高AI多模態的熱度,可關注AI多模態應用塑造數字內容生產與交互新范式,賦能視覺行業,從文字、3D生成、動畫電影、到長短視頻、劇集等方面,均有望帶來內容創作的變革,助力內容消費市場的繁榮發展,也在加速拓展AI應用新邊界(從中長期看,真人生產的內容對比AI生成內容的稀缺性也是凸顯)。同時,AI的發展,需要算力等支持,若算力獲得持續賦能,應用也有望百花齊放。   以Sora為支點有望撬動AI多模態應用新熱度     每一次技術的進步與推動均有望帶來時代的紅利,AI多模態的應用有望在2024年持續,對傳媒領域有望帶來存量的提質增效以及新增的應用場景,有望推動傳媒走向智媒。從投資維度看,第一維度,OpenAI的產品迭代,微軟受益,A股映射的受益公司是與微軟合作的藍色光標;第二維度,內容應用,核心看三點,第一點,對于動畫電影帶來產能提升,如光線傳媒;第二點,對于靜態文字領域商業新增量,如中信出版、新經典、果麥文化等;第三點,Sora的AI生成視頻模型,人人成為UGC及PGC制作者,有利于豐富元宇宙、長短視頻、MR應用生態,虛實融合如風語筑、藍色光標、浙文互聯、力盛體育等。

付費5元查看完整內容

12 月 6 日,谷歌 CEO 桑達爾?皮查伊官宣 Gemini 1.0 版正式上線。這次發布的 Gemini 大模型是原生多模態大模型,是谷歌大模型新時代的第一步,它包括三種量級:能力最強的 Gemini Ultra,適用于多任務的 Gemini Pro 以及適用于特定任務和端側的 Gemini Nano。


現在,谷歌的類 ChatGPT 應用 Bard 已經升級到了 Gemini Pro 版本,實現了更為高級的推理、規劃、理解等能力,同時繼續保持免費。谷歌預計在明年初將推出「Bard Advanced」,其將使用 Gemini Ultra。

谷歌 DeepMind CEO 和聯合創始人 Demis Hassabis 代表 Gemini 團隊正式推出了大模型 Gemini。 Hassabis 表示長久以來,谷歌一直想要建立新一代的 AI 大模型。在他看來,AI 帶給人們的不再只是智能軟件,而是更有用、更直觀的專家助手或助理。 今天,谷歌大模型 Gemini 終于亮相了,成為其有史以來打造的最強大、最通用的模型。Gemini 是谷歌各個團隊大規模合作的成果,包括谷歌研究院的研究者。 特別值得關注的是,Gemini 是一個多模態大模型,意味著它可以泛化并無縫地理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。 谷歌表示,Gemini 還是他們迄今為止最靈活的模型,能夠高效地運行在數據中心和移動設備等多類型平臺上。Gemini 提供的 SOTA 能力將顯著增強開發人員和企業客戶構建和擴展 AI 的方式。

目前,Gemini 1.0 提供了三個不同的尺寸版本,分別如下:

  • Gemini Ultra:規模最大、能力最強,用于處理高度復雜的任務;
  • Gemini Pro:在各種任務上擴展的最佳模型;
  • Gemini Nano:用于端側(on-device)任務的最高效模型。

谷歌對 Gemini 模型進行了嚴格的測試,并評估了它們在各種任務中的表現。從自然圖像、音頻和視頻理解,到數學推理等任務,Gemini Ultra 在大型語言模型研發被廣泛使用的 32 個學術基準測試集中,在其中 30 個測試集的性能超過當前 SOTA 結果。 另外,Gemini Ultra 在 MMLU(大規模多任務語言理解數據集)中的得分率高達 90.0%,首次超越了人類專家。MMLU 數據集包含數學、物理、歷史、法律、醫學和倫理等 57 個科目,用于測試大模型的知識儲備和解決問題能力。 針對 MMLU 測試集的新方法使得 Gemini 能夠在回答難題之前利用其推理能力進行更仔細的思考,相比僅僅根據問題的第一印象作答,Gemini 的表現有顯著改進。 在大多數基準測試中,Gemini 的性能都超越了 GPT-4。

**Gemini 高性能多模態大模型Gemini: A Family of Highly Capable Multimodal Models

這份報告介紹了一種新的多模態模型系列——Gemini,它在圖像、音頻、視頻和文本理解方面展現出非凡的能力。Gemini系列包括Ultra、Pro和Nano三種尺寸,適用于從復雜推理任務到設備內存受限用例的各種應用。在一系列廣泛的基準測試中的評估顯示,我們最強大的Gemini Ultra模型在這些基準測試的32項中的30項中推進了最新技術水平——特別是它是首個在廣受研究的考試基準MMLU上達到人類專家表現的模型,并且在我們檢查的所有20項多模態基準測試中提升了最新技術水平。我們相信,Gemini模型在跨模態推理和語言理解方面的新能力將使各種用例成為可能,我們討論了將它們負責任地部署給用戶的方法。

我們在Google開發了一系列高性能的多模態模型——Gemini。我們對Gemini進行了聯合訓練,覆蓋圖像、音頻、視頻和文本數據,旨在構建一個在多種模態上都具有強大的通才能力,并在各自領域內具有先進的理解和推理性能的模型。 Gemini 1.0,我們的首個版本,有三種尺寸:Ultra用于高度復雜的任務,Pro用于提升性能和大規模部署能力,Nano用于設備上的應用。每種尺寸都專門針對不同的計算限制和應用需求進行了優化。我們在一系列內部和外部基準測試上評估了Gemini模型的性能,涵蓋了廣泛的語言、編程、推理和多模態任務。 Gemini在大規模語言建模(Anil等,2023;Brown等,2020;Chowdhery等,2023;Hoffmann等,2022;OpenAI,2023a;Radford等,2019;Rae等,2021)、圖像理解(Alayrac等,2022;Chen等,2022;Dosovitskiy等,2020;OpenAI,2023b;Reed等,2022;Yu等,2022a)、音頻處理(Radford等,2023;Zhang等,2023)和視頻理解(Alayrac等,2022;Chen等,2023)方面推進了最新技術。它還基于序列模型(Sutskever等,2014)、深度學習基于神經網絡的長期研究(LeCun等,2015),以及機器學習分布式系統(Barham等,2022;Bradbury等,2018;Dean等,2012)來實現大規模訓練。 我們最強大的模型,Gemini Ultra,在我們報告的32個基準測試中的30個中取得了新的最新技術成果,包括12個流行的文本和推理基準測試中的10個,9個圖像理解基準測試中的9個,6個視頻理解基準測試中的6個,以及5個語音識別和語音翻譯基準測試中的5個。Gemini Ultra是首個在MMLU(Hendrycks等,2021a)上達到人類專家表現的模型——一個通過一系列考試測試知識和推理的著名基準測試——得分超過90%。除了文本,Gemini Ultra在挑戰性的多模態推理任務上也取得了顯著進展。例如,在最近的MMMU基準測試(Yue等,2023)上,該測試包含了關于圖像的多學科任務,需要大學級別的主題知識和深思熟慮的推理,Gemini Ultra取得了62.4%的新最新技術成績,比之前最好的模型高出5個百分點以上。它為視頻問答和音頻理解基準測試提供了統一的性能提升。 定性評估展示了令人印象深刻的跨模態推理能力,使模型能夠本地地理解和推理音頻、圖像和文本輸入序列(見圖5和表13)。以圖1中描繪的教育場景為例。一位老師畫了一個滑雪者下坡的物理問題,一位學生對其進行了解答。使用Gemini的多模態推理能力,模型能夠理解凌亂的手寫字,正確理解問題的構成,將問題和解決方案轉換為數學排版,識別學生在解決問題時出錯的具體推理步驟,然后給出問題的正確解決方案。這為教育領域開辟了激動人心的可能性,我們相信Gemini模型的新多模態和推理能力在許多領域都有重大應用。大型語言模型的推理能力展示了構建能夠解決更復雜多步驟問題的通才型代理的前景。AlphaCode團隊構建了AlphaCode 2(Leblond等,2023),一種新的由Gemini驅動的代理,它結合了Gemini的推理能力、搜索和工具使用,擅長解決競賽編程問題。AlphaCode 2在Codeforces競賽編程平臺上排名前15%,比其最先進的前輩排名前50%有了大幅提升(Li等,2022)。 與此同時,我們通過Gemini Nano推進了效率的前沿,這是一系列針對設備上部署的小型模型。這些模型擅長于設備上的任務,如摘要、閱讀理解、文本完成任務,并在推理、STEM、編碼、多模態和多語言任務方面相對于它們的大小展示了令人印象深刻的能力。 在接下來的部分,我們首先提供模型架構、訓練基礎設施和訓練數據集的概述。然后,我們詳細評估了Gemini模型系列,涵蓋了廣泛研究的基準測試和跨文本、代碼、圖像、音頻和視頻的人類偏好評估——包括英語性能和多語言能力。我們還討論了負責任部署的方法,包括我們對影響評估的過程、開發模型政策、評估和在部署決策前減少傷害的方法。最后,我們討論了Gemini的更廣泛影響,它的局限性以及其潛在應用——為AI研究和創新的新時代鋪平道路。

付費5元查看完整內容

機器之心報道

機器之心編輯部

平替再平替,可以在消費級 GPU 上運行的 Koala 模型能實現 ChatGPT 一半的性能。

自從 Meta 發布并開源了 LLaMA 系列模型,來自斯坦福大學、UC 伯克利等機構的研究者們紛紛在 LLaMA 的基礎上進行「二創」,先后推出了 Alpaca、Vicuna 等多個「羊駝」大模型。

羊駝已然成為開源社區的新晉頂流。由于「二創」過于豐富,生物學羊駝屬的英文單詞都快不夠用了,但是用其他動物的名字給大模型命名也是可以的。

最近,UC 伯克利的伯克利人工智能研究院(BAIR)發布了一個可以在消費級 GPU 上運行的對話模型 Koala(直譯為考拉)。Koala 使用從網絡收集的對話數據對 LLaMA 模型進行微調。

項目地址://bair.berkeley.edu/blog/2023/04/03/koala/

Koala 已經推出線上測試 demo:

Demo 地址: * 開源地址:

Koala 概述

與 Vicuna 類似,Koala 也使用從網絡收集的對話數據對 LLaMA 模型進行微調,其中重點關注與 ChatGPT 等閉源大模型對話的公開數據。

研究團隊表示,Koala 模型在 EasyLM 中使用 JAX/Flax 實現,并在配備 8 個 A100 GPU 的單個 Nvidia DGX 服務器上訓練 Koala 模型。完成 2 個 epoch 的訓練需要 6 個小時。在公共云計算平臺上,進行此類訓練的成本通常低于 100 美元。

研究團隊將 Koala 與 ChatGPT 和斯坦福大學的 Alpaca 進行了實驗比較,結果表明:具有 130 億參數的 Koala-13B 可以有效地響應各種用戶查詢,生成的響應通常優于 Alpaca,并且在超過一半的情況下與 ChatGPT 性能相當。

Koala 最重要的意義是它表明:在質量較高的數據集上進行訓練,那么小到可以在本地運行的模型也可以獲得類似大模型的優秀性能。這意味著開源社區應該更加努力地管理高質量數據集,因為這可能比簡單地增加現有系統的規模更能實現安全、真實和強大的模型。從這個角度看,Koala 是 ChatGPT 一種小而精的平替。

不過,Koala 還只是一個研究原型,在內容、安全性和可靠性方面仍然存在重大缺陷,也不應用于研究之外的任何用途。

數據集和訓練

構建對話模型的主要障礙是管理訓練數據。ChatGPT、Bard、Bing Chat 和 Claude 等大型對話模型都使用帶有大量人工注釋的專有數據集。為了構建 Koala 的訓練數據集,研究團隊從網絡和公共數據集中收集對話數據并整理,其中包含用戶公開分享的與大型語言模型(例如 ChatGPT)對話的數據。

不同于其他模型盡可能多地抓取網絡數據來最大化數據集,Koala 是專注于收集小型高質量數據集,包括公共數據集中的問答部分、人類反饋(正面和負面)以及與現有語言模型的對話。具體而言,Koala 的訓練數據集包括如下幾個部分:

ChatGPT 蒸餾數據:

公開可用的與 ChatGPT 對話數據(ShareGPT); * Human ChatGPT 比較語料庫 (HC3),其中同時使用來自 HC3 數據集的人類和 ChatGPT 響應。

開源數據:

Open Instruction Generalist (OIG); * 斯坦福 Alpaca 模型使用的數據集; * Anthropic HH; * OpenAI WebGPT; * OpenAI Summarization。

實驗與評估

該研究進行了一項人工評估,將 Koala-All 與 Koala-Distill、Alpaca 和 ChatGPT 幾個模型的生成結果進行比較,結果如下圖所示。其中,使用兩個不同的數據集進行測試,一個是斯坦福的 Alpaca 測試集,其中包括 180 個測試查詢(Alpaca Test Set),另一個是 Koala Test Set。

總的來說,Koala 模型足以展示 LLM 的許多功能,同時又足夠小,方便進行微調或在計算資源有限的情況下使用。研究團隊希望 Koala 模型成為未來大型語言模型學術研究的有用平臺,潛在的研究應用方向可能包括:

安全性和對齊:Koala 允許進一步研究語言模型的安全性并更好地與人類意圖保持一致。 * 模型偏差:Koala 使我們能夠更好地理解大型語言模型的偏差,深入研究對話數據集的質量問題,最終有助于改進大型語言模型的性能。 * 理解大型語言模型:由于 Koala 模型可以在相對便宜的消費級 GPU 上運行,并且執行多種任務,因此 Koala 使我們能夠更好地檢查和理解對話語言模型的內部結構,使語言模型更具可解釋性。

參考鏈接:

? THE END 轉載請聯系本公眾號獲得授權 投稿或尋求報道:

付費5元查看完整內容

2022年6月1日,美國防高級研究計劃局(DARPA)宣布推出最新的人工智能(AI)項目——“有保證的神經符號學習和推理”(ANSR),試圖以新的、混合的(神經符號)AI算法的形式來解決諸多挑戰,該算法將符號推理與數據驅動的學習深度融合,以創建強大的、有保證的、因而值得信賴的系統

ANSR項目的首要目標是推進混合AI算法并開發基于證據的技術,以支持對這些算法進行自信的保證判斷。該項目旨在探索各種混合架構,這些架構可以以先驗知識為種子,通過學習獲得統計和符號知識,并適應學習的表示。該項目旨在通過與國防部任務相關的用例來演示和評估混合人工智能技術,其中保障和自主性是關鍵任務

項目背景

自主和高度自主系統是美國防部 (DoD) 諸多任務,包括情報、監視和偵察 (ISR)、后勤、規劃、指揮和控制等所需的能力。所謂的好處很多,包括:1.改進的作戰節奏和任務速度;2.降低作戰人員在自主系統操作和監督方面的認知需求;3.增加對峙以提高作戰人員的安全性。正如2016年國防科學委員會 (DSB) 關于自主的報告所強調的那樣,與自主相關的一個關鍵需求是對可信賴性和信任的需要。一般而言,信任是對自主系統執行未指定任務的能力的信心表達。確保自主系統安全運行并按預期運行是信任的組成部分,這是國防部成功采用自主的關鍵。

自DSB自主報告發布以來的六年中,機器學習(ML)算法取得了重大改進,這些算法對于實現自主至關重要。同時,保證技術的創新提供了在設計時評估系統的正確性和安全可信度并在運行時具有彈性的機制。盡管取得了這些進展,但高度自主仍然難以捉摸,DARPA將其歸因于數據驅動的機器學習的基本限制,這激發了新的思維和方法,將機器學習超越數據驅動的模式識別并用知識增強它——包括上下文、物理和其他背景信息的驅動推理。

過去十年見證了數據驅動ML應用的巨大進步,這得益于計算能力和數據的增長,其領域涵蓋從棋盤游戲到蛋白質折疊、語言翻譯到醫學圖像分析等廣泛領域。在其中幾個應用程序、ML和相關技術已經證明了在一組狹義的指標方面可以與人類能力相媲美,有時甚至超過人類能力的性能。然而,盡管取得了這些明顯的成功,但仍有許多與最先進(SOTA)ML算法相關的問題。例如,眾所周知,SOTA ML算法不能很好地泛化, 缺乏透明度和可解釋性,對環境不穩健和對抗性擾動。存在一些限制,例如對對抗性示例缺乏強健性,在理論上已被確定為本質上的基礎。

工業ML研究的主流趨勢是擴大到千兆級和兆兆級模型(數十億個參數的數百個),作為提高準確性和性能的一種手段。這些趨勢是不可持續的,因為訓練此類模型需要極高的計算量和數據,以及縮放定律。這些趨勢也無法響應國防部應用程序的需求,這些應用程序通常缺乏數據和計算能力,對云規模計算資源的訪問有限。此外,DoD應用程序是安全的和關鍵任務的,需要在看不見的環境中運行,需要可審計,并且需要人工操作員信任。總而言之,ML研究的主流趨勢不利于DoD應用程序的可保證性和可信賴性需求。

構建智能應用程序和自主系統的傳統方法在很大程度上依賴于知識表征和符號推理。例如,這些方法中的復雜決策通常使用基于條件的編程規則、在有限狀態機中編碼的狀態邏輯以及使用常微分方程表征的環境和對象的基于物理的動力學來實現。這些經典技術有許多優點:

  • 它們使用豐富的抽象,這些抽象基于領域理論和相關的形式,并得到高級工具和方法(Statecharts、Stateflow、Simulink 等)的支持;

  • 它們可以是模塊化和可組合的,以軟件工程實踐支持的方式促進重用、精確和自動化分析;

  • 它們可以通過正式規范和驗證技術支持的方式進行分析和保證,這些技術已在強化任務和安全關鍵系統免受網絡攻擊方面得到驗證。

然而,這些方法在實際自主應用中使用時也有局限性。它們在處理現實世界的不確定性和高維感官數據時表現不佳,這是感知和情境理解應用程序不可或缺的,這些決策應用程序中的規則集和狀態邏輯在暴露于意外情況時通常是不完整和不充分的。此外,眾所周知,常識性知識難以編纂。例如,Cyc知識庫包含數百萬個概念和數千萬條規則,但對于許多現實世界的任務來說還不夠。

確保具有ML組件的網絡物理系統 (CPS) 的挑戰一直是DARPA正在進行的 “有保證自主”(Assured Autonomy)項目以及其他研究項目支持的一個活躍研究領域。具體來說,在Assured Autonomy項目中開發的保證方法產生了:1.形式化和基于模擬的驗證工具,可以全面探索 CPS的行為;2.可以檢測ML組件與預期輸入和行為的偏差的監控工具,避免最壞情況下的安全后果的復原力和恢復策略;3.一個保證案例框架,能夠以證據支持結構化論證,以支持已識別重大安全危害且其根本原因已得到充分緩解的主張。

保證技術的進步,包括形式化和基于模擬的方法,有助于加速識別ML算法的故障模式和缺陷。不幸的是,修復SOTA ML中缺陷的能力仍然僅限于再訓練,這并不能保證消除缺陷或提高ML算法的通用性。此外,雖然運行時保證架構(包括監控和恢復)確保了操作安全,但頻繁調用回退恢復(由ML的脆弱性和普遍性觸發)會損害完成任務的能力。

因此,根據ANSR的目標,DARPA將一個系統定義為值得信賴的,如果它具備以下特征:1.對領域知情和對抗性擾動具有強健性;2.得到保證框架的支持,該框架為安全和風險評估創建和分析異質證據;3. 對“適應度”的某些規范和模型是可預測的。

DARPA假設當今ML的一些限制是:1.無法結合上下文和背景知識的結果;2.將每個數據集視為一個獨立的不相關輸入。在現實世界中,觀察結果通常是相關的,并且是潛在因果機制的產物,可以建模和理解。DARPA認為,能夠獲取和集成符號知識并大規模執行符號推理的混合AI 算法將提供穩健的推理,推廣到新情況,并提供保證和信任的證據。

DARPA設想修改訓練和推理過程以將符號和神經表示交錯以進行迭代推理和表示的相互適應,以利用每種表征的好處并減少每種表征的限制。修改后的訓練過程將產生基于域特定符號的表示,本質上是神經網絡 (NN) 隱式數據表示的符號等價物。修改后的推理過程迭代地收斂到符合符號和神經表示的響應。符號表示可以明確地包括先驗知識和特定領域的規則和約束,并能夠根據規范和保證參數的構造進行驗證。

最近針對特定應用的一些結果提供了信心的基礎。例如,最近的一項研究構建了一種混合強化學習 (RL) 架構的原型,該架構通過數據驅動學習獲取一組符號策略。符號策略采用可解釋和可驗證的小程序的形式。該方法顯然繼承了兩全其美:它學習在已知環境中高性能的策略,并且通過在未知環境中保持安全(無崩潰)來很好地概括。另一種最近的方法使用符號推理來修復NN在估計場景中的對象姿勢時的錯誤,并且它在幾種情況下實現了更高的準確度(比基線高30-40%)。

ANSR項目開發的混合人工智能技術將實現新的任務能力。該項目旨在驗證能夠確保執行獨立的ISR任務,以開發高度動態密集城市環境的通用作戰圖 (COP)。執行ISR任務的自主系統將攜帶效果有效載荷,以減少傳感器到效果的交付時間。雖然效果的傳遞由人在回路控制,但效果承載系統本質上是一個安全和任務關鍵型系統,因此需要對避免碰撞和任務性能有強有力的保證。SOTA機器學習或獨立的符號推理系統無法實現自主系統在深入了解情況和決策方面所需的能力。訓練數據稀疏,進一步激發了混合AI方法的使用。

項目描述

ANSR項目的首要目標是推進混合AI算法并開發基于證據的技術,以支持對這些算法進行自信的保證判斷。該項目旨在探索各種混合架構,這些架構可以以先驗知識為種子,通過學習獲得統計和符號知識,并適應學習的表示。該項目旨在通過與國防部任務相關的用例來演示和評估混合人工智能技術,其中保障和自主性是關鍵任務。

ANSR項目設想了一種新的表示學習和推理方式,以引領混合人工智能。SOTA ML,特別是NN,可以被視為學習低維高維數據集的表示。下圖提供了過度簡化的訓練過程渲染。灰色小山是關于NN的參數(或權重)的目標函數(損失函數)的描述。灰色山丘上的每個點都是該參數空間中的一個點,表示目標函數相對于NN的當前參數配置的值。

圖:神經符號表征學習

獨立的神經機器學習需要爬上梯度來優化目標函數。最佳配置表征最適合訓練數據。該表征雖然非常適合基礎訓練數據,但仍然不知道產生數據的因果關系或基礎機制。在缺乏關于底層機制的任何知識的情況下,推理任務仍然受訓練數據分布的約束,并且無法泛化超出訓練數據分布。

此訓練過程的變體可能會考慮領域知識,并嘗試根據領域原語來學習數據的表征。圖中的淺藍色云描繪了此類域圖元的空間,可以是數學方程、由特定域圖元(組件或函數)組成的符號程序或其他表示形式。修改后的訓練過程需要將數據驅動的更新與尋找可以重現數據的特定領域原語的組合的綜合問題交織在一起。學習到的符號表征可以與神經表征相結合,用于重新評估目標函數。迭代更新一直持續到符號表征中的固定點,當與神經表征結合時,最大化目標函數。此訓練過程的結果是可用于推理的數據的混合神經和符號表征。可以說,這種混合表征可以結合兩全其美,即數據驅動的學習和符號推理,以及在不確定的現實世界情況下更好的性能、可概括性、可解釋性和可保證性的潛在好處。

值得注意的是,上述方法只是學習混合神經和符號表征的一種概念方法,而不是作為解決方案的處方。ANSR項目預期許多架構最適合特定的應用任務將神經和符號表征與不同的方法相結合,以獲取、優化和在推理中使用緊密耦合的神經和符號表征。

項目技術領域

ANSR項目的發展將在以下總結的四個技術領域(TA)中進行協調:

  • 技術領域一(TA1):算法和架構

TA1 的目標是開發和建模新的人工智能算法和架構,將符號推理與數據驅動的機器學習深度集成。TA1將探索和評估一系列適用于不同任務的可能算法和架構模式。

  • 技術領域二(TA2):規范和保證

TA2 的目標是開發保證框架和方法,以獲取和整合正確性證據并量化特定任務的風險。TA2將建立一個管道,將混合神經符號表征抽象為形式上可分析的表征,并根據一組任務相關規范對其進行分析。TA2還將探索估計和量化特定任務風險的技術。

  • 技術領域三(TA3):平臺和能力演示

TA3的目標是開發用例和架構,用于混合AI算法的工程任務相關應用,適用于演示和評估穩健和有保證的性能。具體而言,ANSR項目打算通過確保執行獨立的ISR任務來進行演示驗證,以開發高度動態密集城市環境的通用作戰圖 (COP)。

  • 技術領域四(TA4):保證分析和評估

TA4 的目標是:1.開發具有對抗性AI的保證測試工具;2.評估各個技術領域的技術及其在系統中的構成。TA4將充當紅隊,通過對抗性評估來調查保證聲明的有效性。TA4還將細化提議的計劃指標,并定義衡量系統可信度的特征。TA4將需要通過采用混雜擾動并量化系統性能損失的對抗性評估來評估穩健性、普遍性和保證聲明。

項目階段和時間表

ANSR項目分為三個階段。第一階段將持續 18個月,將開發和驗證高風險技術組件情況理解、活動識別和安全機動決策。第一階段實驗將是在游戲環境中并通過SIMexp進行的多個部分線程:(線程1)展示了安全可靠的機動決策,同時假設完美感知; (線程2)演示驗證活動識別和情況理解,同時假設人工引導的安全操作;(線程3)演示COP開發、洞察力和分析,同時假設完美感知和人類引導的安全操作。評估將根據任務能力指標以及SOTA基線進行。

圖:ANSR項目時間安排

ANSR項目的第二階段將持續15個月,將整合這些單獨的線程,并演示驗證閉環態勢理解、確保和安全的機動決策、COP構建和分析,以用于獨立ISR任務的端到端演示。評估將針對任務能力指標(例如,COP 完整性、準確性和及時性、掃描效率、所需人力、傳感器到效果時間線)和技術指標(例如,保證有效性、穩健性、普遍性、準確性)。

ANSR項目的第三階段也將持續15個月,將演示驗證端到端ISR任務,并在國防部設施中進行現場演習。除了任務能力和技術指標外,評估還將包括事后審查和士兵反饋。

出于預算目的,2023年1月5日作為所有ANSR項目的開始日期。

參考鏈接//mp.weixin.qq.com/s/TH9j-dI2zviMkizrdeXNBw

附項目解讀PPT與項目詳細介紹(見附件)

付費5元查看完整內容

近年來,人們對計算機視覺中的具身人工智能研究越來越感興趣。在研究界已經舉辦了多個嵌入式AI研討會和挑戰,包括ICLR 2022年物理世界的廣義策略學習、IROS 2020年的OCRTOC:開放云機器人表組織挑戰、CVPR 2019年的棲息地:嵌入式agent挑戰和研討會,以及CVPR 2020年和2021年的嵌入式AI研討會。計算機視覺現在是具身人工智能研究的一個重要模塊,但我們仍然缺少一個基本的教程來指導研究人員,尤其是那些有視覺和機器學習背景的研究人員,開始在這個領域。

特別是,在物理模擬和渲染技術的最新進展的推動下,虛擬環境中的具身AI已經取得了許多令人印象深刻的進展。這些平臺使得許多視覺機器人問題的研究成為可能,而這些問題在現實世界中是無法進行大規模研究的。更快的速度、更容易的并行化、更簡單的數據收集和更低的成本的本質允許模擬中的嵌入式AI研究建立更大的社區,具有不同的研究人員背景、改進的代碼共享和標準基準。但是,虛擬環境也有其自身的問題,例如模擬參數和域間隙,在構建和使用它們時值得注意。

我們的教程旨在為計算機視覺研究人員提供入門指南,以研究環境中具身代理的視覺問題,以及突出使用這些環境時遇到的常見問題。本教程將側重于跨平臺共享的原則,并教授使用多個模擬環境的概念。

//ai-workshops.github.io/building-and-working-in-environments-for-embodied-ai-cvpr-2022/

付費5元查看完整內容

在過去的幾年里,Meta AI產生了一系列的研究項目,每個項目都解決了多模態感知的一個重要挑戰從解決用于訓練的公開可用數據的短缺(Hateful 的模因),到為視覺、語音和文本創建單一算法(Data2vec),到建立跨多個任務工作的基礎模型(FLAVA),到找到正確的模型參數(Omnivore),以及其他許多。綜合來看,它們代表了一個明顯的趨勢: 在不久的將來,對多模態的理解將對更智能的AI系統至關重要。

付費5元查看完整內容
北京阿比特科技有限公司