AI工程:基于基礎模型構建應用
在人工智能(AI)的發展過程中,基礎模型(Foundation Models)已成為推動技術創新的重要力量。這些模型,通常具有大規模的參數量和強大的泛化能力,能夠通過遷移學習應用于多個領域,并已成為AI工程應用中的核心組件。基礎模型在許多實際應用中顯示了其卓越的性能,尤其是在自然語言處理(NLP)、計算機視覺(CV)和多模態學習等領域,逐漸成為構建復雜AI系統的基礎。 隨著基礎模型的快速發展和廣泛應用,AI工程面臨了全新的機遇與挑戰。構建AI應用程序不僅要求對基礎模型有深刻的理解,還需要解決諸如模型優化、數據準備、訓練效率、模型推理和部署等技術難題。本文旨在探討如何將基礎模型應用于AI工程的實際構建中,涵蓋從模型訓練到部署的全過程。 1. 基礎模型概述
基礎模型通常是指那些通過大規模無監督學習(如自監督學習、自回歸學習)進行訓練,并能夠適應多種任務的預訓練模型。這些模型能夠通過微調(fine-tuning)進行快速適應,以執行多種具體的任務。近年來,隨著大型預訓練模型(如GPT-3、BERT、DALL-E和CLIP)的崛起,AI的應用領域迎來了革命性的進步。 基礎模型的一個關鍵特點是它們的通用性——即能夠應用于多個領域并取得顯著的效果。例如,GPT系列模型通過對海量文本數據的預訓練,能夠在文本生成、翻譯、問答和摘要等任務中展現出強大的性能。同樣,DALL-E和CLIP等視覺-語言模型在生成圖像和進行圖像理解時也具有非常高的效率。 2. 基礎模型在AI工程中的應用
AI工程主要關注如何將AI技術轉化為實際可用的應用程序,基礎模型作為構建這些應用程序的關鍵技術,涉及的領域包括自然語言處理、計算機視覺、語音識別、推薦系統等。在AI工程的實際應用中,基礎模型的能力被充分發揮,并通過以下幾個步驟進行實際部署: * 模型訓練和微調: 在具體任務上,基礎模型往往通過微調來適應特定需求。通過遷移學習,基礎模型可以從不同領域的知識中進行學習,并在多個任務中獲得最佳性能。 * 數據準備: 盡管基礎模型已經通過海量數據進行預訓練,但在實際應用中,數據的質量和多樣性對模型效果至關重要。為確保基礎模型能夠適應實際任務,需要對數據進行精細的篩選和處理。 * 推理與部署: 基礎模型的推理能力可以通過優化計算資源(如硬件加速、分布式計算)來提升。在實際部署過程中,可能需要將模型集成到各種平臺上,包括移動設備、Web應用和云服務。
3. 持續的挑戰與未來發展
盡管基礎模型在AI應用中取得了顯著進展,但在實際應用中仍面臨許多挑戰。基礎模型通常需要極高的計算資源,這對訓練和推理效率提出了很大的挑戰。此外,模型的可解釋性和公平性也是AI工程中亟需解決的問題。隨著基礎模型的規模和復雜性的不斷增加,如何在保持性能的同時,降低計算成本和提高可解釋性,成為未來AI工程發展的關鍵方向。 未來的發展趨勢可能包括: * 更高效的模型: 研究人員正在致力于通過模型壓縮、量化和蒸餾等方法,提高模型在推理過程中的效率,使其能夠在資源有限的設備上運行。 * 跨領域融合: 隨著多模態學習的進展,基礎模型將能夠更好地融合語言、視覺、聲音等多個領域的知識,提升在復雜應用場景下的表現。 * AI倫理和可解釋性: 隨著AI在各行業中的普及,如何確保AI模型的透明度、公平性以及避免模型偏見,成為行業和研究者關注的焦點。
4. 結語
基礎模型的崛起為AI工程帶來了新的機遇與挑戰。通過合理應用這些強大的預訓練模型,AI工程師可以構建出高效、智能的應用程序,推動各行各業的技術革新。然而,要使這些技術真正應用到實際場景中,還需要解決計算資源、數據處理、模型優化等一系列問題。隨著技術的不斷發展,基礎模型將會在未來AI工程中扮演更加重要的角色,推動智能應用的廣泛普及和發展。
Transformer 模型的崛起顯著推動了機器學習模型的發展。大規模語言模型(LLMs)通過對海量數據進行訓練,并依托強大的計算資源,統一了傳統的自然語言處理(NLP)范式,能夠通過將多種下游任務整合到生成工作流中,來有效處理這些任務。在現實世界的影響方面,LLMs 已經徹底改變了研究人員、開發人員和用戶的可訪問性和可用性。此外,LLMs 極大地降低了人工智能的應用門檻,為應用程序和用戶提供了預訓練的語言理解與指令跟隨能力。因此,強大的 LLMs 為各個領域帶來了新的可能性,包括智能體、智能助手、聊天機器人和搜索引擎。然而,這些模型的廣泛可用性和可訪問性也帶來了潛在的風險,包括惡意使用和隱私問題。使 LLMs 具有價值的自由生成工作流也可能被濫用,從而危及隱私或用于有害目的。盡管已經做出了大量努力以提升 LLMs 的可信度,解決其安全性和隱私問題,但新型攻擊經常被提出,旨在繞過現有的防御機制,并將 LLMs 用于惡意用途。因此,針對 LLMs 的可信度,惡意攻擊者和防御者之間存在持續的博弈,許多重大挑戰仍未被發現。為了全面研究 LLMs 的可信度問題,我們識別了新型的攻擊,集中于信息泄露問題,改進了防御機制以應對各種攻擊,并通過實證評估攻擊在有無防御的情況下的效果。對于已識別的攻擊,我們重點關注向量數據庫中的信息泄露問題,研究嵌入的隱私泄露。除了嵌入信息泄露外,我們還演示了如何通過越獄提示詞攻擊 LLMs,進而恢復私密的訓練數據。在討論了攻擊后,我們提出了新的防御方法,以防止嵌入中的信息泄露。最后,我們實現了一個基準測試,用于實證評估攻擊在有無防御情況下的表現。我們進行了大量實驗,以驗證我們發現的攻擊與防御的有效性。我們的評估基準結果揭示了攻擊假設與防御假設之間未曾察覺的差距。
預訓練語言模型(LMs)基于 Transformer 架構,標志著自然語言處理(NLP)領域變革時代的開始。通過在特定任務數據上微調預訓練的 LMs,可以在廣泛的任務上實現無與倫比的性能[98]。目前,生成式大規模語言模型(LLMs)通過將多種自然語言處理任務整合到一個全面的文本生成框架中,展現了卓越的能力。這些 LLMs,包括 OpenAI 的 GPT-4 [112]、Anthropic 的 Claude 3 和 Meta 的 Llama 3 [3],在理解和生成自然語言方面展現了最先進的表現。因此,盡管沒有額外的微調,這些 LLMs 在預定義任務和現實世界挑戰中依然占據主導地位[129, 33, 12, 112, 113, 68, 21]。除了生成可讀文本,LLMs 還能夠自動化許多跨領域的任務,使其成為編程和藝術設計等應用中不可或缺的工具。此外,LLMs 展現了令人印象深刻的泛化能力,能夠處理未見過的任務。在適當的指令(提示)和示范下,LLMs 甚至能夠理解特定的上下文或處理新任務,而無需進一步的微調[30, 200, 75, 169, 134]。因此,將 LLMs 融入各種應用場景,從科學研究到智能助手,具有廣闊的前景。然而,LLMs 的開放式生成也帶來了內容安全和數據隱私方面的固有脆弱性。在內容安全方面,惡意攻擊者可能會操控 LLMs 的指令,使其輸出有害的響應。提示注入攻擊[160, 121, 97, 144, 96, 52]和越獄攻擊[84, 36, 141, 167]能夠引導 LLMs 輸出攻擊者希望的任何內容。在數據隱私方面,LLMs 可能會泄露其敏感的訓練數據。在提高性能的背后,LLMs 以巨大的模型規模吞噬了海量的訓練數據。即便是 API 級別訪問 LLMs,也可能導致個人身份信息(PII)的意外泄露[84, 99, 60, 19, 202, 163]。安全性和隱私風險引發了廣泛的討論和批評,關于如何合理使用人工智能的議題已成為焦點。作為回應,政府已更新或提出新的關于生成式人工智能的法規。這些新法規,如《歐盟人工智能法案》、通用數據保護條例(GDPR)和《加利福尼亞消費者隱私法案(CCPA)》都強調了人工智能模型的合理使用,以實現社會公益。盡管存在風險,將多種應用整合到 LLMs 中已成為日益增長的趨勢。這些整合賦予 LLMs 有效解決數學問題的工具(如 ChatGPT + Wolfram Alpha)、解釋格式化文件的能力(如 ChatPDF),并通過使用搜索引擎響應用戶查詢以減少幻覺(如新 Bing)。然而,當 LLMs 與外部工具(如搜索引擎)結合時,領域特定的隱私和安全風險也隨之而來。例如,正如[84]中討論的,惡意攻擊者可能會利用新 Bing 將受害者的個人身份信息(PII)與部分數據關聯起來。因此,LLMs 中存在的完整安全性和隱私問題仍然不明確。本論文的最終目標是提升 LLMs 在內容安全和數據隱私方面的可信度。因此,本文的重點集中在以下幾個方面的攻擊、防御和評估:
語言模型(LM)基于深度神經網絡(DNN)的構建,最近在軟件工程任務中,如代碼生成、代碼補全和代碼修復,表現出了突破性的效果。這為基于語言模型的代碼優化技術的出現鋪平了道路,這些技術對于提升現有程序的性能,特別是加速程序執行時間,具有重要意義。然而,專門針對這一特定應用的全面綜述尚缺乏。為了解決這一空白,我們進行了一項系統的文獻綜述,分析了超過50篇核心研究,識別出新興趨勢并回答了11個專業性問題。結果揭示了五個關鍵的開放性挑戰,例如平衡模型復雜性與實際可用性、提升模型的普適性以及建立對人工智能驅動解決方案的信任。此外,我們提供了八個未來的研究方向,以促進更高效、穩健和可靠的基于語言模型的代碼優化。因此,本研究旨在為快速發展的這一領域的研究人員和從業人員提供可操作的見解和基礎性參考。
1. 引言
代碼優化,或程序優化,長期以來一直是計算領域中的一項重要任務[137]。代碼優化通過在不同層級上轉換程序——如源代碼[119]、編譯器中間表示[28]或二進制[11, 36, 78]——以實現特定的性能目標,例如減少執行時間[84]、最小化代碼大小[48, 111]或優化內存使用[39]。它支撐著廣泛的軟件工程(SE)任務,包括代碼生成[71]、代碼修復[65]、代碼編輯[51]和代碼改進[158]。
傳統上,代碼優化依賴于專家設計的啟發式方法和規則[137]。這些技術通常與基于編譯器的代碼分析[146]相結合,以捕獲程序的關鍵屬性,例如數據和控制依賴,進而識別出優化代碼的最有效方法。隨著時間的推移,已經開發出多種優化技術,涵蓋從低級策略,如指令調度[33]、寄存器分配[19]、向量化[3]和循環轉換[139]——這些通常應用于編譯器的中間表示或鏈接時優化——到更高級的策略,旨在通過在源代碼級別更改算法或數據結構來提高性能[112]。
代碼優化的一個關鍵挑戰是存在大量可能的優化方式,使得窮舉搜索在計算上是不可行的,通常需要耗費大量的計算資源來全面探索[112]。在這個龐大的優化空間中,好的優化往往是稀缺的,并且在不同的程序之間差異很大[48, 137]。對于低級性能優化,最佳優化往往依賴于底層計算硬件[26, 132]。這使得手工設計有效的優化策略變得極為具有挑戰性。即使能夠開發出一種調優良好的啟發式方法,它也可能需要隨著應用負載和計算硬件的變化而進行調整[29]。
在過去的幾十年中,已有大量研究探討了機器學習在代碼優化中的應用[7, 12, 137]。現有的證據充分表明,機器學習技術在各種代碼優化任務中具有顯著的效果[137]。更近些年,基于深度神經網絡(DNN)的語言模型(LM)和生成性人工智能(genAI)的出現,標志著這一領域的重要突破[119]。這些先進的模型在從訓練數據中提取知識并將其遷移到測試樣本中表現出了強大的能力[44],并在性能上超越了傳統的機器學習方法[26]。它們能夠對復雜的代碼結構進行建模和推理,進一步推動了將語言模型應用于軟件工程的廣泛研究[57],并在自動化和增強代碼優化過程中取得了良好的成果。機器學習、語言模型和代碼優化之間日益增強的協同作用,為這一領域的研究和創新開辟了新的方向。
然而,盡管基于語言模型的代碼優化在不斷增長的重要性和前景中取得了顯著進展,現有文獻中關于語言模型在代碼相關任務中的應用的綜述大多集中在它們在軟件工程中的一般應用[79]或特定領域,如自動程序修復[155]。值得注意的是,文獻中仍然存在一個重要的空白——尚沒有系統地綜述基于語言模型的代碼優化技術。正如圖1所示,本文旨在填補這一空白,提供一項系統的文獻綜述(SLR),聚焦于基于語言模型的最前沿代碼優化方法。具體來說,我們通過六個學術索引引擎進行檢索,識別并系統地回顧了53篇核心研究[1]。基于四個研究問題(RQ)和11個具體的子問題,我們對這些研究進行了分類,概括了結果中的關鍵發現,并為讀者提供了有價值的建議。例如,我們的主要發現包括:
像 GPT-4 這樣的通用語言模型(LM)被比專門用于代碼的語言模型(43個實例)更廣泛地采用(61個實例),這是由于其更廣泛的理解和推理能力。
大多數研究(57%)利用了預訓練模型,以節省時間和資源,而43%的研究通過微調模型來定制任務特定需求。
最常被提到的挑戰是性能和代碼相關的問題,例如一步優化的限制(18項研究)、平衡正確性和效率(15項研究)以及代碼語法的復雜性(10項研究)。
大多數研究通過設計專門的模型(51個實例)來解決現有挑戰,這些模型雖然有效,但缺乏通用性。提示工程(Prompt Engineering)作為第二大類(34個實例)因其數據效率而脫穎而出,盡管依賴于專家知識。另一類則通過提出新的代碼優化問題(33個實例)提供了更大的優化靈活性,但也需要大量的數據集準備工作。
此外,我們還揭示了現有文獻中的五個關鍵挑戰,并提供了未來研究的潛在方向,總結如下:
語言模型(LM)的規模和復雜性的增加要求在大規模代碼庫中進行代碼優化時,需要大量的計算資源,這就提出了模型壓縮和集成技術的需求。
基于語言模型的代碼優化方法通常在孤立的環境中操作,缺乏與外部系統的無縫集成,強調了具有主動性(agentic)的語言模型的重要性。
單語言研究的主導地位(81%)和對單一性能指標的強調(79%)凸顯了通用性問題,以及對多語言和多目標優化方法的需求。
大多數基于語言模型的方法的研究(68%)是在合成數據集上進行評估的,而不是在更大且更復雜的真實世界代碼庫上進行的,這表明需要標準化基準測試,以反映不同的真實世界場景。
語言模型常常生成不一致或幻覺化的輸出,因此人類與語言模型的協作對于利用AI的計算能力至關重要,同時確保優化結果的可信度和可靠性。
本文的其余部分安排如下:第2節闡述了代碼優化技術的演變。第3節概述了采用的系統文獻綜述(SLR)方法論。第4、5、6和7節分別展示了四個研究問題的結果和發現。第8節探討了現有的挑戰和未來方向。最后,第9節總結了本文內容。 方法論
本次調研遵循了Kitchenham和Charters[69]提出的軟件工程領域系統文獻綜述(SLR)指南,這些指南也被許多SLR研究所采納[44, 57, 134, 143, 155]。如圖4所示,研究方法包括三個關鍵階段:
圖5提供了所有問題的分類概述,接下來的各節將分別介紹每個研究問題的詳細分類、發現和可操作建議。
結論我們為語言模型(LMs)在代碼優化中的應用提供了一項系統的文獻綜述。我們的研究綜合了50多篇近期發表的高質量、相關的LMs在代碼優化中的研究。盡管不可能為所有的研究提供一個全面的目錄,我們盡力提供了一個全面且易于理解的綜述,涵蓋了主要的研究領域和未來的發展方向。具體來說,我們識別出五個關鍵的知識空白,這些空白可能會阻礙該領域的發展,包括平衡模型復雜性與實際應用性之間的挑戰,以及迫切需要提高模型的泛化能力和對AI驅動代碼優化的信任度。解決這些問題需要對更有效的技術進行進一步的研究,并建立標準化的評估基準。通過描繪LMs在代碼優化中不斷發展的格局,本綜述也為克服當前的局限性并加速AI驅動軟件開發的進展提供了路線圖。LMs和深度學習并不是軟件工程和代碼優化中所有挑戰的萬靈藥。LMs必須從它們提供的數據中學習,這本身塑造了它們的能力和局限性。與這些技術可能削弱軟件工程師角色的擔憂相反,它們實際上為增強創造力和探索新的研究前沿提供了機會。
大型多模態模型(LMMs)的研究已經成為深度學習領域的重點,展示了其在當代研究中的重要性。LMMs能夠處理來自不同模態的數據,通過利用互補信息來執行多種任務,從而提高預測能力。LMMs的學習過程分為兩個關鍵階段:計算密集的預訓練階段,旨在從大規模的噪聲數據中獲取通用表示;以及后續的微調階段,專注于將預訓練模型調整到特定任務上。傳統上,基礎LMMs的預訓練被認為是擁有豐富計算資源的研究實驗室的專屬特權。在本論文中,我們提出了一種用于高效預訓練基礎視覺-語言模型(VLMs)的新方法。這涉及通過專門的預訓練過程,利用現成的凍結大型語言模型(LLMs),從而減少對數據的需求。此外,我們引入了一種高效的VLM預訓練方法,減少模態投影中的冗余。通過我們的方法,訓練LLMs所需的數據量從1.29億實例大幅減少到400萬實例,并且相關的訓練成本可減少至1/10,而性能幾乎沒有顯著下降。此外,我們提出了一種簡單但強大的時序融合機制,用于將預訓練的圖像-語言模型適應下游的視頻任務。我們的視頻描述模型在沒有大量視頻-文本數據集預訓練的情況下,能夠達到與最新基準競爭的性能。除了在計算機視覺和自然語言處理中的多模態研究領域外,我們的研究還擴展到了生物信息學領域,通過研究蛋白質-RNA模型進行多模態學習。我們的研究結果表明,預訓練的蛋白質模型包含可與RNA共享的生物結構信息。鑒于實驗解析的RNA結構數量有限,我們的發現為蛋白質和RNA之間的遷移學習開啟了新的研究方向。最后,我們采用物理增強模擬來訓練T細胞-肽模型,表明在機器學習中整合這種模擬顯著提高了模型訓練效果,尤其是在標記數據有限的情況下。這凸顯了將模擬與機器學習結合的潛力,為推動生物領域LMMs的訓練提供了寶貴的策略。
在過去的十年中,深度學習研究取得了顯著進展,并在多個領域中取得了卓越的成就,包括圖像分類、圖像分割、動作識別和語言建模。盡管這些模型通過在大量特定領域的數據集上訓練,表現出了在特定任務中的優異性能,但當代的研究已經轉向開發能夠跨多種模態(如視覺、語言和音頻)解釋信息的模型。 此外,鑒于可以提升模型預測能力的潛力,近期的研究倡導訓練能夠無縫整合不同模態信息的模型。例如,在在線會議的背景下,向模型展示一個視頻可以通過同時考慮視覺內容(展示人類活動)和聽覺線索(捕捉會話動態)來提高摘要質量。這種互補模態的整合有助于做出更為準確的決策。 多模態學習的研究也致力于模擬人類從多種來源獲取知識的能力。通過促進類似于人類感知和認知功能的能力獲取,這些模型旨在突破單一模態的限制,展現出對信息感知和表達的整體理解。 計算機視覺和自然語言處理領域的蓬勃發展推動了多模態學習領域的顯著進展,特別是在視覺-語言模型的開發方面。當前的主流范式通常分為兩個階段: * 預訓練階段:這一初始階段通過利用大規模的網絡數據集進行模型的預訓練,使模型能夠獲取覆蓋視覺和語言領域的廣泛知識。這些通常被稱為“基礎模型”的預訓練模型,作為多模態數據中的復雜模式和表示的基礎。 * 微調階段:在預訓練之后,基礎模型會進行微調,以適應特定任務的需求。值得注意的是,在某些情況下,模型無需微調即可通過上下文學習生成預測。此階段在將模型的能力調整至任務特定需求方面起著關鍵作用。
在接下來的章節中,我們將深入探討這兩個訓練階段。本論文引入了一種新穎的模態投影模塊,并提出了一種新的學習范式,旨在提高視覺-語言模型預訓練的效率。此外,還將詳細闡述新型微調模塊,特別針對在訓練樣本有限的情況下,將預訓練的基礎模型適應于特定任務的挑戰。通過這些貢獻,本研究旨在推進對視覺-語言模型多模態學習的理解和效率提升。
生成模型是一類能夠通過學習并從其統計分布中采樣來創建新數據實例的AI模型。近年來,隨著生成對抗網絡(GANs)、變分自編碼器(VAEs)以及基于Transformer的架構如GPT等方法的發展,這些模型在機器學習中獲得了廣泛關注。生成模型在多個領域都有應用,如圖像生成、文本合成和音樂創作。在推薦系統中,生成模型被稱為生成推薦系統(Gen-RecSys),通過生成結構化輸出、基于文本的交互以及多媒體內容,提升了推薦的準確性和多樣性。通過利用這些能力,Gen-RecSys可以提供更個性化、引人入勝和動態的用戶體驗,從而擴大AI在電子商務、媒體等領域的應用角色。 我們的書超越了現有的文獻,提供了對生成模型及其應用的全面理解,特別是對深度生成模型(DGMs)及其分類的深入探討。我們引入了一種分類法,將DGMs分為三類:ID驅動模型、大型語言模型(LLMs)和多模態模型。每一類別在其各自的研究領域內解決了獨特的技術和架構進展。這種分類法使研究人員能夠輕松地在對話式AI和多模態內容生成等領域中的Gen-RecSys發展中進行導航。此外,我們還探討了生成模型的影響和潛在風險,強調了健全評估框架的重要性。
生成模型(GM)使得人工智能應用的構建不僅可以基于數據做出決策,還能夠通過學習數據集的統計分布并從中采樣“生成”新的數據實例。利用生成技術生成新的數據實例極具潛力,已經在許多人工智能(AI)領域得到了應用,如圖像生成(Harshvardhan et al., 2020)、文本合成(Li et al., 2018c)和音樂創作(Mittal et al., 2021;Yang and Lerch, 2020)。最近,隨著生成對抗網絡(GANs)(Goodfellow et al., 2014)、變分自編碼器(VAEs)(Kingma and Welling, 2013)、擴散模型(Sohl-Dickstein et al., 2015;Ho et al., 2020)以及基于Transformers架構的GPT和其他大語言模型(LLMs)(Wei et al., 2022a;Bubeck et al., 2023)的引入,生成模型在機器學習和深度學習中得到了廣泛關注。這些建模方法促成了顯著的突破或應用,如Saharia et al.(2022)中的照片級真實圖像生成(擴散模型)或Liu et al.(2023b)中基于自然語言處理的對話機器人(Transformers)。這些進展屬于深度生成模型(DGMs)的范疇,結合了傳統的生成概率模型和深度神經網絡(DNNs),捕捉數據的潛在分布。DGMs在生成高質量合成數據、提升自然語言理解、以及展現上下文學習和少樣本泛化的能力方面表現出色(Wei et al., 2022a;Bubeck et al., 2023)。DGMs的核心優勢在于其能夠對訓練數據的分布進行建模和采樣,并用于各種推理任務。 人工智能的另一個重要領域是推薦系統(RS)。這些系統可以嵌入到電子商務網站中,與在線用戶互動,為他們推薦來自通常龐大目錄中精選和個性化的物品子集。推薦系統可以幫助用戶應對信息過載,支持更有效的決策過程,也能幫助市場促進銷售并發掘目錄中新的或不太流行的商品。 生成模型已被用于推薦系統的開發中,揭示了物品消費中的關系和模式,這些模式可以很好地泛化到新數據中。這增強了系統提供準確、多樣且個性化推薦的能力。在本書中,結合生成AI和傳統推薦系統思想的推薦系統被稱為生成推薦系統(Gen-RecSys)(Deldjoo et al., 2024a)。Gen-RecSys可以根據其生成的輸出類型進行區分:
實際上,我們對Gen-RecSys的定義相當廣泛,任何結合生成AI和推薦系統的系統都屬于這一類別。事實上,Gen-RecSys的應用目標與傳統(非生成)推薦系統非常相似,即通過使用能夠生成輸出的新模型,而不僅僅是精確過濾已有的商品目錄信息,來實現更加個性化、多樣化、可控且吸引用戶的推薦體驗。
在本書中,我們將探討生成模型增強或改進推薦系統的各種方式,概述如下。讀者可以參考第1.7節,了解生成模型的更多優勢和機會。
增強核心推薦系統任務:生成模型有潛力通過概率視角或整合知識豐富的外部數據源(如LLMs)來改善top-k推薦的質量。因此,生成模型可以在數據稀缺的場景中解決挑戰,如冷啟動問題(Chae et al., 2019;Yin et al., 2023a;Zhou et al., 2024;Wang et al., 2022e)。例如,像VAEs(Kingma and Welling, 2013)這樣的生成模型通過將用戶-物品交互視為結構化潛在空間內的概率分布,提升了top-k推薦的效果(參見第4章)。這些模型在推薦質量上已被證明優于可比的非生成協同過濾模型,如矩陣分解(MF)和神經矩陣分解(NeuMF)。后者使用固定向量來表示用戶-物品交互,往往無法完全捕捉用戶偏好的復雜性。 另一個例子是大型語言模型(LLMs),它們可以通過解釋用戶偏好的細微自然語言描述,生成高度個性化的推薦(Geng et al., 2022;Sanner et al., 2023;Zhou et al., 2024)。此外,Rajput等人(2024)的新興研究引入了生成檢索的概念,其中生成模型通過預測目標物品的標識符來提升低交互歷史物品的檢索性能,從而改善冷啟動場景中的推薦。 解決傳統推薦系統未能有效應對的能力:生成模型能夠應對傳統(非生成)系統聲稱可以管理但實際上并未有效處理的任務,通過增強用戶-系統的交互性、靈活性并引入創新的設計概念。例如,生成模型能夠通過實時適應用戶偏好的變化,提供更有效的個性化互動。在對話推薦場景中,非生成模型(可以說)仍然無法支持有效的用戶/系統對話。一個典型例子是Wang et al.(2023c)的GeneRec系統,它能夠根據用戶指令生成個性化的微視頻,并將現有內容重新設計為各種風格和主題,提供高度定制化的用戶體驗。除了對話場景之外,生成模型的另一個有前景的應用是跨領域推薦。事實上,正如Petruzzelli等人(2024)所討論的那樣,LLMs可以克服數據稀疏問題,這個問題之前通過跨領域推薦系統得到解決,但尚未產生實際的工業應用。LLMs能夠更有效地利用其已有的知識來跨越不同領域,生成個性化的跨域推薦。 此外,傳統推薦系統優先考慮預測準確性,而忽視了透明性。相比之下,生成模型可以直接生成解釋,例如推薦的動機和反事實場景,說明用戶采取哪些行動可以獲得不同的推薦。例如,通過利用LLMs,這些模型可以更容易地支持實時批評(Amoukou和Brunel, 2022;Antognini和Faltings, 2021),允許用戶提供即時影響推薦的反饋。例如,Antognini和Faltings(2021)介紹了批評解釋型VAE,使用用戶生成的關鍵詞和物品偏好提供動態、個性化的解釋,并根據用戶的批評實時調整。 引入全新的能力:生成模型為推薦系統引入了突破性的功能,如按需內容創作和整頁生成。借助這些模型,推薦系統可以根據用戶偏好生成新物品,或為增強互動生成連貫的多物品頁面(參見第3章)。例如,系統可以與用戶進行對話,了解其偏好,生成一個新的物品,如個性化的微視頻,或推薦一個相關的現有物品。此外,多模態能力使系統能夠理解并生成多種格式的內容,如文本、圖像和視頻。例如,用戶可以提供一個視覺輸入,如產品圖片,并附加文本修改(如“類似但為紅色的連衣裙”),系統可以創建修改后的物品或推薦最接近的匹配物品(參見第5章)。LLMs通過生成說服性且具有上下文意識的互動,進一步增強了這種體驗,使推薦更具吸引力(參見第4章)。
DGMs可以廣泛應用于推薦系統的以下操作模式中:
本專著是關于使用生成模型的推薦系統的中級指南,面向研究人員、從業者、學生和行業專業人士。讀者需要具備推薦系統和機器學習基本概念的理解(如協同過濾、監督學習),以及自然語言處理(NLP)、信息檢索(IR)和多模態學習的核心概念(如密集檢索、對比學習、變分自編碼器),這將有助于理解技術章節(第4至5章)。為幫助具備不同專業水平的讀者,第2章提供了一些基礎定義和結果——從經典模型到生成模型及其應用——應當對大多數讀者是易于理解的,因此也適合教學用途。
盡管如此,本書主要是為那些希望了解生成推薦系統前沿技術的研究人員所編寫的。盡管一些技術還在不斷演變,本書旨在捕捉該領域的最新進展。建議讀者按章節順序閱讀,以便于順暢理解,除了第2章,若讀者已熟悉基礎概念,可以跳過此章。然而,高級讀者也可以根據特定興趣,獨立閱讀各章。
近年來的多篇綜述探討了推薦系統中生成模型的某些方面,例如 Deldjoo 等人(2021年)提出的基于GAN的推薦系統,Li 等人(2023年g)研究的大型語言模型(LLMs)的訓練策略,以及 Wu 等人(2023年a)討論的LLMs作為推薦引擎。此外,Lin 等人(2023年a)詳細描述了LLMs在推薦任務中的適應性,而 Fan 等人(2023年b)則概述了LLMs,強調了其預訓練和微調策略。在 Huang 等人(2024年a)中,作者探討了基礎模型的應用,Wang 等人(2023年c)引入了 GeneRec,一種利用AI生成器的下一代推薦系統。盡管上述綜述提供了重要的信息,其范圍僅限于特定方法論的焦點,如模型類別或訓練范式(如LLMs、FMs)或特定模型(如GANs)。
本書提供了更廣泛的視角,涵蓋了生成推薦系統(Gen-RecSys)的各個方面,并給出了實現生成推薦系統的建議,如圖1.1和圖1.2所示。特別是,我們從系統設計(第3、4、5章)、影響與風險評估(第6、7章)的角度討論了這些系統,并重點介紹了眾多任務和應用。
在本節中,我們通過圖1.2,詳細描述了生成模型對推薦系統的具體優勢。內容圍繞三個主題展開:目標與應用場景、多樣化輸出以及模型和數據增強。
預測能力
生成模型能夠顯著增強推薦系統在捕獲和利用數據方面的能力。本書探討了多種方法,從變分自編碼器(VAEs)等概率方法——通過建模底層數據分布以提高準確性——到預訓練模型如LLMs和多模態基礎模型(見第3至5章)。這些模型在優化復雜輸出方面表現出色,包括通過直接學習項目間關系生成整個推薦列表或頁面。LLMs通過利用多輪對話個性化推薦,能夠根據用戶反饋和自然語言表達的偏好不斷優化推薦。此外,多模態生成學習能夠對齊并整合多種數據類型,在視覺驅動場景中(如美食推薦、時尚、電商等)提供更豐富、個性化的推薦。 生成模型,尤其是LLMs,還具有快速適應和個性化不同場景推薦的強大能力。例如,在電商場景中,LLM可以基于用戶的近期瀏覽歷史或實時聊天輸入,快速調整產品推薦,而無需進行大量的訓練。如果用戶最初搜索“夏季連衣裙”,隨后又轉向“正式晚禮服”,LLM可以無縫調整其推薦,提供這兩個類別中相關的產品選項。 生成能力
生成模型的能力不僅限于推薦預測,它們還能提供更豐富、互動性更強的用戶體驗。這些模型可以個性化單個商品,創建捆綁推薦或整體推薦,還能提供如虛擬試穿或情境可視化等逼真的預覽,如第5章所述。它們還極大豐富了交互式和會話式推薦,允許動態的評審、偏好協商以及多模態交互對話,無縫整合多種用戶輸入和反饋(第4章)。此外,這些模型還能生成個性化、事實性的可視化解釋,幫助用戶理解并信任推薦系統。 支持功能
生成模型還能通過個性化消息和互動,提高用戶的參與度和轉化率。這些模型賦予用戶控制權,使用戶能夠輕松修改其偏好。
除了上述應用場景之外,另一種需要考慮的角度是生成模型的輸出特性。生成模型擴展了傳統(非生成)推薦系統的能力,能夠生成更為復雜、多模態、互動性強的輸出。例如,在個性化廣告中(見第5章和圖1.2),生成模型能夠跨多種媒體格式生成高度定制化的廣告內容,而傳統系統則受限于數據不足和模態限制。此外,在多輪會話推薦中(第4、5章),生成模型憑借動態、實時交互能力表現出色,這使得它們在數據稀疏情況下依然能夠提供富有參與感和個性化的用戶體驗。
將生成模型引入推薦系統的一個關鍵原因在于其在模型和數據增強方面的技術優勢。在模型增強方面,生成模型通過改進系統捕獲和建模用戶-項目交互的方式,提供了更好的潛在表示。例如,VAEs利用概率方法生成更具表現力的表示,既提高了推薦的準確性,也增強了系統在應對數據稀疏場景中的能力。這些模型還在正則化和降噪數據方面發揮作用,這對于處理現實世界中噪聲較大的數據集至關重要,從而確保生成的推薦具有魯棒性且具有上下文相關性。 在數據增強方面,生成模型可以擴充現有的數據集,填補缺失數據或生成合成交互,從而增強訓練過程。如圖1.2所示,這些模型能夠直接增強訓練數據,使其更加多樣和豐富,從而提高項目預測的準確性,改進用戶-項目交互預測的評分功能,特別是在冷啟動場景中。此外,生成檢索技術允許生成更復雜的輸出結構,如捆綁推薦和頁面推薦,提升了整體推薦體驗。
我們可以將本書的組織結構大致分為以下幾部分:介紹性背景主題(第2章)、系統設計章節(涵蓋第3、4、5章中的各種模型和技術)以及與評估、風險和危害相關的內容(第6、7章)。 * 第2章:推薦模型基礎
概述了傳統和生成推薦模型,介紹了區分式和生成式方法的關鍵概念和區別。該章強調了生成模型在創建復雜輸出(如個性化內容、自然語言解釋、全新項目設計)中的不斷擴展的角色,并介紹了生成模型的基礎任務,為后續高級主題鋪平了道路。 * 第3章:基于ID的模型
討論了使用用戶-項目交互數據來增強推薦的生成模型。主題包括模型架構如VAEs、GANs和擴散模型。 * 第4章:LLM驅動模型
探討了如何利用大型語言模型(LLMs)進行自然語言推薦、偏好引導和解釋生成。 * 第5章:多模態模型
重點介紹了整合多種數據模態(文本、圖像、音頻)以提供更豐富、個性化推薦的模型。 * 第6章:評估方法
介紹了生成推薦系統的特定評估指標和基準,解決了輸出復雜性和系統性能等挑戰。 * 第7章:社會危害與風險
分析了生成模型的倫理問題,如偏見放大、錯誤信息和隱私問題。為了幫助讀者進一步理解這些生成模型的實際應用,我們在表1.2中總結了一些選定的案例研究。
生成式人工智能(GAI)和大語言模型(LLM)是以無監督或半監督方式運行的機器學習算法。這些算法利用現有內容,如文本、照片、音頻、視頻和代碼,生成新內容。其主要目標是生成真實且新穎的材料。此外,它們在生成新材料的數量上沒有限制。新材料可以通過應用程序接口(APIs)或自然語言接口生成,例如OpenAI開發的ChatGPT和Google開發的Bard。 生成式人工智能(AI)領域的獨特之處在于其發展和成熟過程極為透明,公眾可以廣泛觀察其進展。目前的人工智能時代受到有效利用其能力以提升企業運營的要求影響。具體而言,屬于生成式AI范疇的大語言模型(LLM)能力,具有重新定義創新和生產力極限的潛力。然而,企業在努力引入新技術的同時,可能會危及數據隱私、長期競爭力和環境可持續性。 本書深入探討生成式人工智能(GAI)和LLM。它考察了生成AI模型的歷史與演變發展,以及由這些模型和LLM產生的挑戰和問題。本書還討論了基于生成AI的系統的必要性,并探討了為生成AI模型開發的各種訓練方法,包括LLM預訓練、LLM微調和基于人類反饋的強化學習。此外,它探討了與這些模型相關的潛在用例、應用和倫理考慮。本書最后討論了生成AI的未來方向,并呈現了多項案例研究,突顯生成AI和LLM的應用。
作為人工智能領域最先進的技術之一,檢索增強生成(RAG) 技術能夠提供可靠且最新的外部知識,為眾多任務帶來了巨大的便利。特別是在AI生成內容(AIGC)時代,RAG強大的檢索能力可以提供額外的知識,幫助現有的生成式AI生成高質量的輸出。最近,大型語言模型(LLMs)在語言理解和生成方面展現了革命性的能力,但它們仍面臨固有的局限性,如幻覺和過時的內部知識。鑒于RAG在提供最新且有用的輔助信息方面的強大能力,檢索增強的大型語言模型(RA-LLMs) 應運而生,利用外部的權威知識庫,而不是單純依賴模型的內部知識,從而增強LLMs的生成質量。
在本教程中,我們全面回顧了現有的關于檢索增強大型語言模型(RA-LLMs)的研究工作,涵蓋了三個主要技術視角:架構、訓練策略和應用。作為基礎知識,我們簡要介紹了LLMs的基本原理及其最近的進展。接著,為了展示RAG對LLMs的實際意義,我們按應用領域對主流相關工作進行分類,詳細說明了每個領域面臨的挑戰及RA-LLMs的對應能力。最后,為了提供更深刻的見解,我們討論了當前的局限性以及未來研究的幾個有前景的方向。
我們的綜述論文:《RAG-Meets-LLMs: 邁向檢索增強的大型語言模型》
學習使用大型語言模型構建具有成本效益的應用 在《基于大型語言模型的解決方案:如何通過具有成本效益的生成式 AI 應用交付價值》一書中,亞馬遜網絡服務的首席數據科學家 Shreyas Subramanian 為希望構建和部署具有成本效益的大型語言模型 (LLM) 解決方案的開發人員和數據科學家提供了實用指南。本書涵蓋了廣泛的關鍵主題,包括如何選擇模型、數據的前處理和后處理、提示工程和指令微調。 作者闡明了優化推理的技術,如模型量化和剪枝,以及典型生成式 AI (GenAI) 應用(包括搜索系統、代理輔助和自主代理)的不同且經濟實惠的架構。您還將找到:
《基于大型語言模型的解決方案》適合有興趣部署基礎模型的開發人員和數據科學家,或計劃擴展其生成式 AI 應用的業務領導者,同時也將使項目負責人、經理、技術支持人員和對此主題感興趣的管理員受益。 封底介紹 在優化成本的同時平衡性能,以釋放 AI 的潛力 隨著 AI 和機器學習的興起,大型語言模型 (LLM) 變得越來越流行,但其高計算成本對許多組織來說是一個進入門檻。本書提供了構建和部署 LLM 的成本效益方法。在從模型選擇、提示工程到微調和部署的每個階段,您都可以在不顯著犧牲性能的情況下盡量減少成本。 《基于大型語言模型的解決方案》為開發人員和數據科學家提供了實施有價值的生成式 AI 應用(如搜索系統、代理輔助和自主代理)所需的實用技術知識。該書探討了優化推理的技術,如模型量化和剪枝,以及在基礎設施層面降低成本的機會。它還考慮了 LLM 成本優化的未來趨勢,以便您在生成式 AI 的下一階段保持競爭力。
由亞馬遜首席數據科學家之一撰寫的本書,使您能夠克服與 LLM 相關的挑戰,并成功實施生成式 AI。 關于作者 SHREYAS SUBRAMANIAN 博士是 AWS 的首席數據科學家之一,該公司是構建和提供企業用大型語言模型的最大組織之一。他目前為亞馬遜內部團隊和大型企業客戶提供構建、調優和大規模部署生成式 AI 應用的建議。Shreyas 主持了以機器學習為重點的成本優化研討會,幫助他們減少云端機器學習應用的成本。Shreyas 還積極參與先進的基礎模型訓練、調優和部署技術的前沿研究和開發。
大型語言模型(LLMs)和擴散模型,如ChatGPT和Stable Diffusion,具有前所未有的潛力。由于它們經過了對互聯網公開文本和圖像的訓練,它們可以為各種任務做出有用的貢獻。隨著入門門檻的顯著降低,幾乎任何開發者都可以利用LLMs和擴散模型來解決以前不適合自動化的問題。通過本書,您將獲得生成式AI的堅實基礎,包括如何在實踐中應用這些模型。大多數開發者在首次將LLMs和擴散模型集成到他們的工作流程中時,往往難以從中獲得足夠可靠的結果以用于自動化系統。作者James Phoenix和Mike Taylor向您展示了一套稱為提示工程的原則,這些原則可以使您有效地與AI合作。學習如何讓AI為您服務。本書解釋了:
“《生成式AI的提示工程》可能是未來保障您技術職業的最具前瞻性的方法。這無疑是任何從事AI實際應用工作的人的最佳資源。這里面豐富、精煉的原則將幫助新老AI工程師在未來可預見的競爭中保持領先。” ——Ellis Crosby,Incremento CTO兼聯合創始人“這是代理和服務專業人員的必備指南。將AI與服務和客戶交付結合起來,利用自動化管理,加快解決方案的速度,將設定新的行業標準。您會在書中找到有用、實用的信息和策略,使您能夠充分理解和利用AI的潛力。” ——Byron Tassoni-Resch,WeDiscover CEO兼聯合創始人作者的話自2020年GPT-3測試版以來,我們一直在做提示工程,當GPT-4推出時,我們發現許多我們曾使用的技巧和竅門已不再必要。這促使我們定義了一套可跨模型和模態轉移的面向未來的原則,這些原則在使用GPT-5或未來的任何模型時仍然有用。提示的五項原則是:1. 提供方向:詳細描述所需的風格,或參考相關的角色。2. 指定格式:定義要遵循的規則和響應的必要結構。3. 提供示例:插入一組多樣的測試案例,其中任務已正確完成。4. 評估質量:識別錯誤并評價響應,測試驅動性能的因素。5. 分工:將任務分成多個步驟,鏈式連接以實現復雜目標。我們首次在2022年7月以博客文章的形式發布了這些原則,它們經受住了時間的考驗,包括與OpenAI自己一年后發布的提示工程指南高度契合。任何與生成式AI密切合作的人都可能會收斂到一組類似的策略來解決常見問題,但這本書旨在更快地讓您達到這一點。在本書中,您將看到數百個提示技術的示例,包括文本和圖像提示,以及使用Python構建AI自動化腳本和產品。這不是一個尋找正確魔法詞組組合的提示技巧列表,而是一個構建系統的實用指南,提供AI應用所需的正確上下文,以及如何測試和擴展生產環境中的AI系統。如果您符合以下情況,這本書將對您有用:- 您的時間價值超過每小時40美元,閱讀這本書節省的幾個小時,而不是從多個來源拼湊一切,對您來說是值得的。- 您不僅是隨便使用AI,而是實際在構建一個AI應用或內部模板,許多人每天將使用數百或數千次。- 您希望通過學習數百個如何解決AI常見問題的真實案例來減少幻覺并提高AI的可靠性。- 您希望比較OpenAI與其他模型的優缺點,以及LangChain等常見框架、不同的向量數據庫選項和AUTOMATIC1111。- 您想看到從一個天真的提示到一個完整AI代理,包括使用Gradio構建基本用戶界面的端到端AI應用構建過程。
在電子設計自動化(EDA)領域內,AI驅動的解決方案已經成為強大的工具,但它們通常是增強而非重新定義現有方法。這些解決方案經常從其他領域——如視覺、文本和圖形分析——重新利用深度學習模型,并將它們應用于電路設計,而沒有針對電子電路的獨特復雜性進行定制。這種“AI4EDA”方法未能實現全面的設計綜合和理解,忽視了電路數據的電氣、邏輯和物理方面復雜相互作用。這篇觀點文章主張從AI4EDA向AI原生EDA的范式轉變,將AI整合到設計過程的核心。這一愿景的關鍵在于開發一種多模態電路表示學習技術,旨在通過協調和提取來自各種數據源的洞見——如功能規格、RTL設計、電路網表和物理布局——提供全面理解。我們倡導創建本質上是多模態的大型電路模型(LCMs),這些模型被設計來解碼和表達電路數據的豐富語義和結構,從而培育出更加強韌、高效和創新的設計方法。擁抱這種AI原生理念,我們預見一條超越當前EDA創新高原的軌跡,點燃電子設計方法論深刻的“左移”。所設想的進步不僅預示著現有EDA工具的發展,而是一場革命,孕育出新的設計工具——這些工具承諾將徹底增強設計生產力,并開啟一個新時代,在這個時代中,電路性能、功耗和面積(PPA)的優化不是通過漸進實現的,而是通過重新定義電子系統能力基準的飛躍來實現的。 //www.zhuanzhi.ai/paper/b1aa7830f077c335b24b8dc2b9c5a7f1
人工智能(AI)領域在近年來因大型基礎模型的出現而發生了深刻的變革。這些模型以其龐大的規模和廣泛的適用性為特征,展示了一種理解、預測和生成內容的能力,這種能力的復雜程度以前是人類智能的專屬領域。
大型基礎模型代表了AI的一次重大飛躍。這些模型通常使用自監督學習技術在網絡規模的數據集上進行預訓練,已被適配以在廣泛的下游任務中表現出色。在結構化數據豐富的領域,如自然語言處理(NLP)和計算機視覺(CV),這些模型不僅設立了新的基準,而且從根本上重新定義了可能性的范圍。 在NLP中,像BERT及其衍生模型(包括RoBERTa和T5)革新了語言理解,尤其是在文本的上下文解釋方面,從而增強了復雜的基于語言的任務。同時,僅限解碼器的GPT系列展現了驚人的多功能性,擅長從創意寫作到代碼生成等多樣化任務,并指向人工通用智能(AGI)的蓬勃潛力。在視覺AI中,自監督的基礎模型在圖像理解任務中實現了與全監督方法競爭的性能。
最近,多模態基礎模型的出現開啟了新的可能性時代,整合了文本、圖像和音頻等多種數據類型。一個開創性的例子是CLIP模型,通過對比學習有效地連接了語言和視覺數據。這一創新為像DALL-E和Stable Diffusion這樣的生成模型奠定了基礎,這些模型展示了從文本描述生成復雜圖像的能力,無縫融合了視覺和語言理解。此外,最近引入的可提示CV系統(例如,SAM)在圖像分割中展現了異常的零次學習泛化能力,使得精確的對象識別和提取成為可能。GPT-4V和Gemini的出現進一步示例了AI的進化,無縫導航和綜合多模態信息,從而在各個領域開辟了創新的新途徑,從創意內容生成到工程和設計中的復雜問題解決。 盡管有這些進步,電路設計領域只是剛剛開始探索基礎模型可以提供的內容。這種猶豫的參與與這些模型為這一重要領域持有的變革潛力形成了鮮明對比。
在電路設計領域,許多新設計與過去的迭代在本質上相似的現象值得注意。盡管存在這些相似性,設計師經常面臨從頭開始重新創建或重新設計電路的挑戰,這是由于滿足雄心勃勃的性能、功耗和面積(PPA)目標所需的微妙而關鍵的細微差別所驅動。這一重復過程凸顯了需要一個能夠有效利用歷史成功和失敗的學習解決方案的需求。
AI用于電子設計自動化(AI4EDA)解決方案的出現標志著嘗試將機器學習(ML)技術整合到電路設計中。這些進步代表了顯著的進展,但通常只是增強而不是重新定義現有方法。通常,AI4EDA重新利用來自其他領域的深度學習模型來執行EDA任務,如PPA估計和優化、驗證或故障檢測。然而,在傳統設計框架的限制下,這些模型更多地作為設計過程中的單獨分析工具,而不是作為其整體組成部分,往往無法充分解決電路數據的獨特復雜性。
具體而言,電路數據的獨特性為機器學習提出了獨特的挑戰。與文本、圖像或常規圖數據不同,電路設計將計算與結構復雜地交織在一起。微小的結構變化可以導致顯著的功能影響,反之亦然。這種相互依賴使得建模電路的任務高度細膩和復雜。在不考慮上述情況的情況下,現有的AI4EDA解決方案經常在實現電路數據的電氣、邏輯和物理方面的多方面相互作用的全面綜合和理解方面不足,這對于真正創新的設計綜合至關重要。 最近在AI原生電路表示學習方面的進步,如[16]、[17]中所呈現的,已經開始解決這些獨特的挑戰。采用多模態學習的整合提供了進一步提高其有效性的重大機會。通過采納現有基礎模型在各種數據類型上展示的原則和能力,我們構想了從AI4EDA到AI原生EDA的范式轉變。這種轉變不僅代表著技術上的進步,而且預示著在電路設計方法和理念上的根本變革。通過將AI核心原理和多模態學習能力融入到電子設計自動化(EDA)的核心,我們可以期待解鎖電路設計中的創新潛能,實現更高效、更精確的設計過程,并最終推動電子工業的發展。
綜上所述,通過將AI原生方法引入到電路設計領域,我們不僅能夠提升設計效率和質量,還能夠開拓新的設計范式,克服長期以來困擾該領域的挑戰。此外,AI原生EDA的發展還有可能激發跨學科合作,將電路設計與其他領域的先進技術和理念相結合,從而在全球科技創新的大背景下,為電子設計自動化(EDA)領域帶來前所未有的變革。
本愿景的關鍵在于復雜大型電路模型(LCMs)的開發。作為能夠整合并解釋電路設計特定多種數據類型的模型,LCMs可能會徹底革新電子電路的設計、優化和驗證過程。
在半導體設計領域,利用大型電路模型的潛力不僅僅是一個抱負;它植根于豐富的技術進化傳統。幾十年的研究和開發積累了大量的電路數據。盡管存在專有障礙,但公共領域中有足夠的數據[18]、[19]、[20]來支撐健壯、智能模型的開發。該行業悠久的歷史提供了豐富注釋的數據,這些數據具有領域專業知識,提供了關于電路設計復雜性的深入洞見。
此外,盡管電路類型的范圍很廣,但它們之間存在的共性超越了個別設計。處理器、域加速器(如數字信號處理器(DSPs)和AI加速器)、通信模塊和其他核心組件顯示了設計模塊重用的模式——算術單元、各種解碼器和密碼核心只是幾個例子。這種一致性提供了一個可預測的模式——類似于歸納偏置——有利于機器學習模型的應用。
尤其是變換器[21]和圖神經網絡(GNNs)[22]等神經網絡架構的進步非常適合捕獲電路原理圖的復雜、圖形狀結構。它們提供了一個機會,將設計元素的復雜網絡轉化為可行的洞見,這是以前無法實現的。其他領域的AI進步,例如具有多模態機器學習能力的CLIP模型[23]和用于代碼生成的大型語言模型[24],進一步強調了LCMs在變革應用中的潛力。這些能力可以被適應以解決各種形式電路設計中的獨特挑戰,實現前所未有的更細致和全面的建模。
總而言之,雖然挑戰不小,但LCMs的開發基于歷史數據、模式普遍性和尖端計算技術的堅實基礎之上。LCMs徹底革新EDA領域的潛力不僅是理論上的可能性,而是一個切實的目標,由歷史知識和現代AI進步的融合驅動。通過處理和解釋包括示意圖、文本規范、寄存器傳輸級(RTL)設計、電路網表、物理布局和性能指標在內的多種數據來源和格式,LCMs可以促進設計方法論的“左移”。這種主動的AI原生方法使得能夠早期識別潛在的性能問題和設計瓶頸,簡化測試和重新設計過程,導致更加明智和高效的開發周期。
本文全面探索AI原生EDA的黎明,聚焦于大型電路模型的開發和應用,這些模型本質上融合了多模態數據。文章跨越九個部分,深入探討EDA的歷史演變、當前AI在該領域的狀態以及LCMs所塑造的充滿希望的未來。 第2節提供了EDA的歷史概述,追蹤其與半導體行業一起的演變。它強調了該領域如何通過抽象來應對復雜性挑戰,為理解LCMs在這一不斷演變的景觀中的重要性奠定了基礎。接下來,我們在第3節討論當前AI在EDA中的集成,突出顯示深度學習如何被利用來改進EDA過程。 第4節我們介紹AI原生LCMs,闡述它們與傳統AI4EDA方法的區別。深入探討了這些模型如何封裝電路設計的復雜性,提供了一種更全面的電路分析甚至創造方法。第5節聚焦于單模態電路表示學習的開發,討論其在構建多模態LCMs基礎中的關鍵作用。探索了這種方法在徹底理解電路數據方面的細微差別。然后,第6節導航至LCMs的多模態整合過渡。討論了對齊和整合不同設計階段表示的技術開發,強調了保留原始設計意圖的重要性。 第7節通過案例研究和設想場景來闡述LCMs的潛在應用,橋接了理論概念與實際實施之間的鴻溝。第8節我們探討LCMs在專業電路領域的應用,討論這些模型如何被適應以滿足除標準數字電路之外的多樣化電路類型的獨特需求,包括標準單元設計、數據通路單元和模擬電路。接下來,我們在 第9節討論采用LCMs在EDA中呈現的挑戰與機遇。它強調了數據稀缺性和可擴展性等問題,以及這些挑戰如何促進潛在的進步。最后,文章以第10節的關鍵見解總結和未來展望結束。它呼吁AI與EDA社區之間持續的合作,并提出了進一步推進該領域的未來研究途徑。
通過這一全面的探索,本文展示了AI原生EDA和大型電路模型在改變電路設計和優化領域中的潛在作用,標志著向更高效、更智能的電子設計自動化前進的新時代的開始。此外,通過強調LCMs在處理多模態數據中的能力,本文為EDA領域的研究人員和從業者提供了一個富有洞察力的框架,幫助他們理解如何利用這些先進技術來應對設計過程中的復雜挑戰,并開啟新的創新途徑。
總之,隨著AI技術的持續進步和電子設計自動化需求的不斷增長,AI原生EDA和大型電路模型的概念和實踐將繼續引領EDA領域的革新,為未來的電子設備設計和制造開辟新的可能性。這種跨學科的合作和研究努力不僅將推動技術界限的拓展,而且也將為解決日益復雜的設計挑戰提供必要的工具和方法論,確保電子行業能夠滿足未來技術進步和市場需求的步伐。
近年來,機器人技術和人工智能(AI)系統的發展可謂非常顯著。隨著這些系統不斷發展,它們被用于越來越復雜和無結構的環境中,如自動駕駛、空中機器人和自然語言處理等領域。
因此,通過手動編程其行為或通過獎勵函數來定義它們的行為(如在強化學習(RL)中所做的那樣)變得異常困難。這是因為這些環境需要高度的靈活性和適應性,很難指定一個能夠考慮到所有可能情況的最佳規則或獎勵信號集。
在這種環境中,通過模仿專家的行為來學習通常更具吸引力。這就是模仿學習(IL)發揮作用的地方 - 一種通過模仿專家的行為來學習所需行為的過程,這些行為是通過示范提供的。
本文旨在介紹IL并概述其基本假設和方法。它還詳細描述了該領域的最新進展和新興研究領域。此外,本文討論了研究人員如何解決與IL相關的常見挑戰,并提供了未來研究的可能方向。總的來說,本文的目標是為機器人和人工智能領域不斷發展的IL領域提供全面的指南。
傳統上,機器和機器人需要手動編程以學習自主行為[1]。傳統方法要求專家提供關于機器必須執行的具體硬編碼規則以及機器操作環境的特征。然而,開發這些規則需要相當多的時間和編碼專業知識[2]。為了自動化每種行為的繁瑣手動編碼,需要一種學習方法[3]。模仿學習提供了通過演示來教授所需行為的途徑。
IL技術有潛力將教授任務的問題減少到提供演示的問題,從而消除了明確編程或開發任務特定獎勵函數的需要[3]。IL的概念基于這樣一個前提,即即使人類專家無法將所需的行為編程到機器或機器人中,他們仍然能夠演示所需的行為。因此,IL可以在任何需要類似于人類專家的自主行為的系統中得到應用[1]。
IL的主要目的是通過提供演示使代理能夠學習模仿專家來執行特定任務或行為[4]。演示用于訓練學習代理執行任務,通過學習觀察和行動之間的映射關系。通過利用IL,代理能夠從在受限環境中重復簡單預定行為過渡到在非結構化環境中采取最佳自主行動,而不會給專家帶來太大負擔[2]。因此,IL方法有潛力為廣泛的行業帶來重大好處,包括制造業[5]、醫療保健[6]、自動駕駛車輛[7]、[8]和游戲行業[9]。在這些應用中,IL允許專業領域的專家,他們可能沒有編碼技能或對系統的知識,有效地在機器或機器人中編程自主行為。盡管模仿學習的理念已經存在一段時間,但計算和感知方面的最新成就,以及對人工智能應用的不斷增長的需求,增加了IL的重要性[10],[11]。因此,近年來該領域的出版物數量顯著增加。在過去的二十年里,已經出版了多次關于IL的綜述,每一次都聚焦于該領域發展的不同方面(圖1)。Schaal [3] 提出了第一份關于IL的綜述,重點關注IL作為創建類人機器人的途徑。最近,Osa等人[1]從算法的角度提供了關于IL的觀點,而Hussein等人[12]全面審查了IL過程各個階段的設計選擇。最近,Le Mero等人[7]為端到端自動駕駛系統提供了基于IL的技術的全面概述。盡管已經存在大量關于IL的調查,但新的調查仍然有必要捕捉這一快速發展領域的最新進展,提供一個關于最新技術發展的最新綜述。隨著這一領域越來越受到關注,并具有多種應用,一份綜合性調查可以作為新手的重要參考,同時提供不同用例的概述。我們承認IL是一個不斷發展的領域,不斷有新的算法、技術和應用被開發出來。
因此,我們的調查旨在整合大量關于IL的研究,以便研究人員和從業者更容易導航。此外,我們旨在識別當前研究中存在的差距和挑戰,為未來的工作提供明確的方向。最后,我們的目標是使IL的概念和技術更容易被更廣泛的受眾,包括相關領域的研究人員,以增進對這一領域的理解。總的來說,我們堅信我們的調查將為推動IL領域的發展做出重大貢獻,并指導這一令人興奮的領域的未來研究。這份綜述論文的目標是全面介紹IL領域。為了實現這一目標,我們將根據歷史和邏輯原因來組織我們對IL方法的討論。首先,我們將介紹IL的兩大廣泛方法類別:行為克隆(BC)和逆強化學習(IRL)。我們將討論它們的表述、發展、優勢和局限性。此外,我們將探討對抗性模仿學習(AIL)如何通過引入對抗性上下文來擴展IRL的方法,突出了將對抗性訓練融入IL的好處,并評估AIL領域的當前進展。此外,我們將介紹來自觀察的模仿(IfO)作為一種新穎的技術,旨在從僅包含狀態(無動作)演示中進行學習。我們將討論IfO的重要性,以及它如何在不同方法中結合并擴展了先前的BC、IRL和AIL類別,以解決從僅包含狀態觀察中進行學習的挑戰。最后,我們將討論IL技術在現實場景中遇到的挑戰,如次優演示和專家與學習者之間的領域差異。我們將總結不同的IL方法、它們的局限性,并探討可以采取的未來研究方向,以解決這些問題。
這份綜述論文提供了關于模仿學習(IL)領域的全面概述,探討了其算法、分類、發展和挑戰。論文首先提出了IL算法的分類,確定了兩種一般的學習方法,即行為克隆(BC)和逆向強化學習(IRL),并討論了它們的相對優勢和局限性。此外,論文強調了將對抗性訓練整合到IL中的好處,并評估了AIL領域的當前進展。論文還介紹了一種稱為IfO的新穎技術,旨在從僅包含狀態的演示中學習。通過檢查各種IL算法,我們對它們的優點和局限性有了寶貴的見解,并確定了一些未來研究的關鍵挑戰和機會。在所有IL方法類別中,一個重要的挑戰是需要收集多樣化和大規模的演示,這對于訓練一個可以在現實世界中應用的可泛化策略至關重要[111]。然而,這帶來了一個挑戰,因為現成的演示資源,如在線視頻,存在額外的困難,例如演示者之間的專業水平不同。IL研究中的另一個挑戰是開發能夠使代理能夠跨領域學習的方法,這些領域具有不同的動態、視角和體現。如果我們要有效地教導代理從專家那里學習并將IL研究的見解應用到現實場景中,那么克服這些挑戰是必不可少的。因此,未來的研究應該集中于開發能夠從不完美的演示中學習、提取有用信息并實現跨領域學習的算法。盡管存在這些挑戰,IL領域為未來研究提供了令人興奮的機會。隨著人工智能領域的不斷發展和成熟,我們相信IL將在使智能體能夠從演示中學習、適應新任務和環境,并最終實現更高級別的智能方面發揮關鍵作用,為人工智能的實際應用鋪平道路。