亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型(LLM)顯示出強大的性能和發展前景,并在現實世界中得到廣泛部署。然而,LLM可以從未經處理的訓練數據中捕獲社會偏見,并將偏見傳播到下游任務。不公平的LLM系統具有不良的社會影響和潛在的危害。本文對LLM中公平性的相關研究進行了全面的綜述。首先,對于中型LLM,分別從內在偏差和外在偏差的角度介紹了評價指標和去偏差方法。然后,對于大型LLM,介紹了最近的公平性研究,包括公平性評估、偏見原因和去偏差方法。最后,討論并提出了LLM中公平性發展的挑戰和未來方向。

大型語言模型(LLMs),如BERT(Devlin等,2019年),GPT-3(Brown等,2020年)和LLaMA(Touvron等,2023a年),在自然語言處理(NLP)的各種任務中展現出強大的性能和發展前景,并在現實世界中產生越來越廣泛的影響。它們的預訓練依賴于來自各種來源的大型語料庫。許多研究已經驗證,LLMs捕捉了未經加工的訓練數據中的人類社會偏見,并且這些偏見體現在編碼嵌入中,這些嵌入會傳遞到下游任務中(Garg等,2018年;Sun等,2019年)。不公平的LLM系統會對弱勢或邊緣化人群做出歧視性、刻板和有偏見的決策,從而引發不良的社會影響和潛在的危害(Blodgett等,2020年;Kumar等,2023年)。語言模型中的社會偏見主要源自于從人類社會收集的訓練數據。一方面,這些未經審查的語料庫包含大量反映偏見的有害信息,導致語言模型學習到刻板化的行為(Mehrabi等,2022年)。另一方面,訓練數據中不同人口群體的標簽存在不平衡,分布差異可能導致在假設同質性的模型應用于異質真實數據時產生不公平的預測(Shah、Schwartz和Hovy,2020年)。此外,語言模型學習過程中的人為因素或嵌入中的意外偏見可能引發甚至放大下游偏見(Bansal,2022年)。

根據訓練范式,LLMs可以分為預訓練和微調范式,以及提示范式。在預訓練和微調范式中,LLMs的參數少于十億個,并且易于調整,例如BERT和RoBERTA(Liu等,2019年),我們稱之為中等規模的LLMs。中等規模LLMs中的偏見可以大致分為兩種類型:內在偏見和外在偏見(Goldfarb-Tarrant等,2021年),如圖1所示。內在偏見對應于LLM編碼的嵌入中的偏見,并反映了模型輸出表示的公平性。外在偏見對應于下游任務的決策偏見,并反映了模型預測的公平性。在提示范式中,LLMs的參數超過十億個,并且基于提示進行調整或不調整,例如GPT-4(OpenAI,2023年)和LLaMA-2(Touvron等,2023b年),我們稱之為大規模的LLMs。大規模LLMs中的偏見通常在給定特定提示時體現在模型輸出中。在本文中,我們對LLMs中的公平性相關研究進行了全面的回顧,總體架構如圖2所示。重點關注預訓練和微調范式下的中等規模LLMs,我們在第2節介紹了評估指標,在第3節和第4節分別介紹了內在去偏見方法和外在去偏見方法。在第5節中,提供了提示范式下大規模LLMs的公平性,包括公平性評估、偏見原因和去偏見方法。我們還在第6節中討論了當前面臨的挑戰和未來發展方向。

付費5元查看完整內容

相關內容

大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

本文提供了一個關于大型語言模型(LLMs)在軟件工程(SE)中應用的新興領域的調查。它還提出了將LLMs應用于軟件工程師面臨的技術問題的開放性研究挑戰。LLMs的新興屬性帶來了創新性和創造力,其應用覆蓋了軟件工程活動的全譜,包括編碼、設計、需求、修復、重構、性能提升、文檔和分析。然而,這些同樣的新興屬性也帶來了重大的技術挑戰;我們需要能夠可靠地剔除錯誤的解決方案,如幻覺。我們的調查揭示了混合技術(傳統的SE與LLMs相結合)在開發和部署可靠、高效和有效的基于LLM的SE中的關鍵作用。本文調查了基于LLM的SE的最近發展、進展和實證結果;即大型語言模型(LLMs)在軟件工程(SE)應用的應用。我們使用這次調查來突出這個迅速發展但尚屬初級階段的研究文獻中的空白。基于文獻中的空白和技術機會,我們還確定了軟件工程研究社區的開放問題和挑戰。盡管對這樣一個迅速擴張的領域的任何調查都既不能渴望也不能聲稱是全面的,但我們希望這次調查能為這個令人興奮的新軟件工程子學科——基于LLM的軟件工程提供一個有用且相對完整的早期概述。盡管該領域的科學和技術結構仍在形成中,但我們已經可以識別出趨勢、對未來研究的有益方向以及需要解決的重要技術挑戰。特別是,我們已經能夠辨別出與軟件工程內的現有趨勢和既定方法及子學科的重要連接(和共鳴)。盡管總的來說,我們找到了很多樂觀的理由,但仍然存在重要的技術挑戰,這些挑戰很可能在未來幾年內影響研究議程。許多作者都從科學和軼事的角度指出,LLMs普遍存在幻覺問題[1],而且它對基于LLM的SE也帶來了特定的問題[2]。與人類智慧一樣,幻覺意味著LLM可以產生虛構的輸出。在軟件工程的背景下,這意味著創造的工程制品可能是錯誤的,但看起來是合理的;LLMs可能引入錯誤。然而,與LLMs的許多其他應用不同,軟件工程師通常有可自動化的真實依據(軟件執行),大部分軟件工程制品都可以基于此進行評估。此外,軟件工程研究社區已經花了很多時間開發自動化和半自動化技術,以檢查人類可能產生的錯誤結果。這意味著,對于這個學科和研究社區,當面對像幻覺這樣的問題所帶來的挑戰時,有大量的經驗和專業知識可以借鑒。

顯然,自動化測試技術 [3]–[5] 將在確保正確性中發揮核心作用,就像它們已經為人工設計的制品所做的那樣。在生成全新的功能和系統時,由于缺乏可自動化的oracle [6](一種自動技術,用于確定給定輸入刺激的輸出行為是否正確),自動測試數據生成受到限制。考慮到LLMs的幻覺傾向,Oracle問題仍然非常相關,對它的解決方案將變得更加有影響力。但是,一些SE應用關心現有軟件系統的適應、改進和開發,對于這些應用,有一個現成的可自動化的oracle:原始系統的功能行為。在本文中,我們稱其為“自動回歸Oracle”,這種方法已在遺傳改進領域得到證明是有益的 [7]。自動回歸Oracle簡單地使用軟件系統的現有版本作為參考,以對任何后續的適應和更改的輸出進行基準測試。當然,有“烘焙”功能錯誤的風險,因為自動回歸Oracle無法檢測系統應該做什么,只能捕捉它當前做什么。因此,自動回歸Oracle只能測試功能退化,所以它最適合于需要保持現有功能的用例。例如,對于性能優化和語義保持不變的重構。LLM的輸入將成為越來越多研究的焦點,我們可以預期關于prompt工程和prompt優化文獻的迅速發展 [8]。在這次調查中,我們突出了關于軟件工程的幾個特定方面的prompt工程的現有工作和開放挑戰。LLM的輸出不僅可以限于代碼,還可以包括其他軟件工程制品,如需求、測試用例、設計圖和文檔。總的來說,LLM的基于語言的特性使其能夠生成任何語言定義的軟件工程制品。我們通常認為軟件工程制品是LLM的主要輸出,但它不是唯一的輸出。與主要輸出一起提供的解釋也是LLM的重要輸出。我們的調查突出了需要進行更多的研究的需求,不僅要優化prompt工程(專注于LLM的輸入),還要優化與主要輸出一起提供的解釋的工作。LLMs本質上是非確定性的:相同的prompt在不同的推斷執行中產生不同的答案(除非溫度設為零,這在多次執行中經常被發現是次優的)[9]。此外,無論溫度設置如何,prompt的微妙變化都可能導致非常不同的輸出[9]。除了激勵‘prompt工程’和輸出處理,這種非確定性行為為基于LLM的軟件工程的科學評估帶來了挑戰:如果每次我們運行整個工程過程時結果都會變化,我們如何確定所提議的技術是否超越了現有的技術?這是一個在經驗軟件工程[10]和基于搜索的軟件工程(SBSE)[11]的背景下已經被深入研究的問題。特別是,SBSE與基于LLM的軟件工程有很多相似之處,在存在嘈雜、非確定性和不完整的結果[12]、[13]的情況下實現穩健的科學評估都與之有關。因此,已經有一個成熟的軟件工程文獻專門研究適用于基于LLM的科學評估所需的穩健的科學評估技術。例如,參數和非參數的推斷統計技術現在經常被用來在SBSE學科中提供在高度非確定性算法存在的情況下的穩健的科學結論。為了找出與LLM相關的計算機科學論文,我們過濾了出版物,將其細分為以下子類別:人工智能 (cs.AI)、機器學習 (cs.LG)、神經和進化計算 (cs.NE)、軟件工程 (cs.SE) 和編程語言 (cs.PL)。我們使用查詢“Large Language Model”、“LLM”和“GPT”在標題或摘要中進行篩選(我們手動排除了重載縮寫,例如將GPT誤認為是通用規劃工具),結果是L列。最后,我們使用相同的查詢來識別基于LLM的軟件工程論文,這些論文位于軟件工程 (cs.SE) 和編程語言 (cs.PL) 類別中。這些查詢本質上是近似的,因此我們只局限于基于總體趨勢得出的結論,而這些總體趨勢有強有力的證據支持,而不是觀察到的數字的具體細節。盡管如此,我們報告了觀察到的原始數字,以支持其他人的復制。

圖2展示了arXiv上發布的計算機科學論文數量(|A|,以藍色表示)和LLM相關論文的數量(|L|,以橙色表示)的增長。特別是與軟件工程和LLM相關的論文以綠色表示(|L ∩ S|)。考慮到總體發表量的快速增長,我們為縱軸使用了對數刻度。不出所料,我們看到了計算機科學出版物數量的整體增長。同時,鑒于LLM最近受到的關注增多,LLM相關論文數量的指數增長也相對不足為奇。或許更有趣的是LLM在軟件工程應用中的快速采納,如圖中的綠色所示。為了更詳細地檢查這一趨勢,我們在圖3中畫出了LLM出版物(L)與所有計算機科學出版物(A)的比例(以藍色表示),以及基于LLM的軟件工程出版物(L ∩ S)與所有LLM出版物的比例(以橙色表示)。如圖所示,自2019年以來,基于LLM的軟件工程論文的比例已經急劇上升。目前,所有關于LLM的論文中已有超過10%與基于LLM的軟件工程有關。由于這一增長,我們可以預期將有更多其他的基于LLM的軟件工程調查。文獻的快速擴展使得進一步的全面軟件工程研究不太可能適應單篇論文的空間限制,但我們可以預期會有許多關于感興趣的子領域的全面調查,以及針對系統評審中的主要文獻提出具體研究問題的系統文獻回顧(SLRs)。例如,Hou等人[14]提供了一個出色的最新SLR,涵蓋了2017年至2023年的229篇研究論文,報告了所處理的軟件工程任務、數據收集和預處理技術,以及優化LLM性能的策略(例如提示工程)。本文的其余部分按照主要的頂級軟件開發活動和研究領域進行組織。圖1顯示了軟件開發活動、研究領域和我們論文結構之間的映射。

付費5元查看完整內容

大型語言模型(LLMs)在自然語言處理的一般領域已經取得了巨大的成功。在本文中,我們將LLMs引入地球科學領域,目標是推進這個領域的研究和應用。為此,我們展示了地球科學領域首個LLM,K2,并開發了一套資源以進一步推動地球科學中的LLM研究。例如,我們精心創建了首個地球科學指導調整數據集,GeoSignal,目的是使LLM的回應與地球科學相關的用戶查詢保持一致。此外,我們還建立了首個地球科學基準測試,GeoBenchmark,用以評估LLMs在地球科學背景下的性能。在這項工作中,我們嘗試了一整套配方,將預訓練的通用領域LLM適應到地球科學領域。具體來說,我們對LLaMA-7B模型進行了進一步的訓練,使用了超過200萬份地球科學文獻(39億個令牌),并利用GeoSignal的監督數據進行微調。此外,我們還分享了一種協議,即使在人力資源稀缺的情況下,也可以高效地收集特定領域的數據和構建特定領域的監督數據。在GeoBenchmark上進行的實驗顯示了我們的方法和數據集的有效性。

//www.zhuanzhi.ai/paper/4557ccfc577308f668268

地球科學家長期以來一直面臨著整合來自各種來源和學科的數據的挑戰,由于術語、格式和數據結構的差異,導致了地球科學中許多自然語言任務,如地質和地理命名實體識別[10],空間和時間關系提取[27]構建地球科學知識圖譜[7],地質報告和文獻摘要[26],以及通過地球科學語言模型進行表示學習[33]。然而,地球科學中的語言模型稀缺,且規模有限[8]。這種情況與大型語言模型(LLMs),如ChatGPT [31] 和 GPT-4 [32] 在一般自然語言處理(NLP)中的繁榮形成鮮明對比,后者已取得了顯著的成功。盡管這些模型在一般領域中的效果良好,但現有的LLMs往往無法滿足地球科學家的需求。這種不足主要歸因于缺乏關于地球科學問題的可靠知識,因為相關的地球科學數據很少存在于常用的預訓練文本語料庫中,如C4 [35]和 Pile [12]。此外,像ChatGPT這樣表現優秀的LLMs只通過APIs提供服務,這為外部領域的研究和進步設置了障礙。為了解決這些問題,促進地球科學領域的研究和應用,我們介紹了首個面向地球科學的開源LLM,名為K2(世界第二高峰,我們相信未來將會創建出更大更強大的地球科學語言模型)。K2是一個GPT-like的語言模型,包含70億個參數,基于預訓練的LLaMA[42]模型,但專注于地球科學領域。伴隨著K2的引入,本文還探討了收集地球科學文本語料、構建地球科學指令監督數據、建立地球科學NLP任務基準的道路,這與Deep-time Digital Earth (DDE, [44])2大科學計劃保持一致。

K2的訓練分為兩個階段,預訓練階段和指令調整階段,如圖1所示。在預訓練階段,我們在我們從地球科學論文中預處理的地球科學文本語料庫上繼續訓練LLaMA-7B模型。然后我們進行指令調整[4, 23, 36],在這里我們進一步訓練模型來遵循人類的指令。為此,我們已經策劃了GeoSignal,這是一個通過統一8個不同的地球科學NLP任務數據和提示(如關系提取、實體識別、分類和總結)創建的指令調整數據集。我們還構建了GeoBenchmark,這是一個由國家研究生入學考試(NPEE)中的地球科學和AP測試地質學、地理學和環境科學收集的1500多個客觀問題和939個主觀問題組成的評估數據集。GeoBenchmark用于跟蹤地球科學語言模型的進度并推動其發展。通過我們在數據收集和訓練方面的共同努力,最終的K2模型是一個可以用來設計多個地球科學應用的基礎語言模型,使地球科學研究者和實踐者受益[28]。

我們的貢獻可以列舉如下: ? 我們引入了K2,這是地球科學領域的一種基礎語言模型。K2可以回答地球科學問題,并通過合適的提示按照地球科學家的指示進行操作,顯示出其在地球科學方面的專業性。 ? 我們構建了GeoSignal,這是首個地球科學監督指令數據。為了評估K2在地球科學任務上的表現以及后續的地球科學語言模型,我們構建了GeoBenchmark,這是地球科學領域的第一個NLP任務基準。 ? 我們以地球科學為例,建立了一個構建領域文本語料庫和領域監督指令數據的范例,并探討了訓練領域特定語言模型的配方。 ? 與類似大小的基線模型相比,K2在主觀和客觀的地球科學任務上表現得更好。最后,我們在Github上發布了代碼,K2的權重,GeoSignal,和GeoBenchmark。 本文的其余部分安排如下:第2節將介紹K2的相關工作。在第3節,我們將詳細說明數據收集和監督指令數據構建的過程。進一步地,我們將在第4節分享我們的進一步預訓練的細節和高效的指令調整過程,而在第5節,我們將評估K2并進行消融研究。最后,我們將討論所提出的話題,所學到的經驗教訓,潛在的應用,以及與K2相關的未來工作。

付費5元查看完整內容

序列決策,通常形式化為馬爾可夫決策過程(MDP)優化,是人工智能的一個重要挑戰。解決這個問題的兩種關鍵方法是強化學習(RL)和規劃。這項綜述是這兩個領域的集成,更廣為人知的是基于模型的強化學習。基于模型的RL有兩個主要步驟。首先,我們系統地介紹了動力學模型學習的方法,包括處理隨機性、不確定性、部分可觀察性和時間抽象等挑戰。其次,我們提出了規劃-學習集成的系統分類,包括:從哪里開始規劃,為規劃和實際數據收集分配哪些預算,如何規劃,以及如何在學習和行動循環中集成規劃。在這兩個部分之后,我們還討論了隱式基于模型的RL作為模型學習和規劃的端到端替代方案,并討論了基于模型的RL的潛在好處。在此過程中,調研還與幾個相關的RL領域建立了聯系,如分層RL和傳輸。

付費5元查看完整內容

這篇論文從二值化網絡訓練過程中的常見問題切入,一步步給出對應的解決方案,最后收斂到了一個實用化的訓練策略。接下來就跟著這篇論文一起看看二值化網絡(BNN)應該如何優化。

首先,BNN 的優化器應該如何選取?

可以看到,BNN 的優化曲面明顯不同于實數值網絡,如下圖所示。實數值網絡在局部最小值附近有更加平滑的曲面,因此實數值網絡也更容易泛化到測試集。相比而言,BNN 的優化曲面更陡,因此泛化性差并且優化難度大。

付費5元查看完整內容

自然語言生成(NLG)技術利用人工智能和語言學的方法來自動地生成可理解的自然語言文本。NLG降低了人類和計算機之間溝通的難度,被廣泛應用于機器新聞寫作、聊天機器人等領域,已經成為人工智能的研究熱點之一。首先,列舉了當前主流的NLG的方法和模型,并詳細對比了這些方法和模型的優缺點;然后,分別針對文本到文本、數據到文本和圖像到文本等三種NLG技術,總結并分析了應用領域、存在的問題和當前的研究進展;進而,闡述了上述生成技術的常用評價方法及其適用范圍;最后,給出了當前NLG技術的發展趨勢和研究難點。

//www.joca.cn/CN/abstract/abstract24496.shtml

付費5元查看完整內容

近年來,深度學習技術得到了快速發展。在自然語言處理(NLP)任務中,隨著文本表征技術從詞級上升到了文檔級,利用大規模語料庫進行無監督預訓練的方式已被證明能夠有效提高模型在下游任務中的性能。首先,根據文本特征提取技術的發展,從詞級和文檔級對典型的模型進行了分析;其次,從預訓練目標任務和下游應用兩個階段,分析了當前預訓練模型的研究現狀,并對代表性的模型特點進行了梳理和歸納;最后,總結了當前預訓練模型發展所面臨的主要挑戰并提出了對未來的展望。

//www.joca.cn/CN/abstract/abstract24426.shtml

付費5元查看完整內容

跨領域推薦可用于解決單一領域數據稀疏導致的推薦系統性能退化問題,還可以緩解推薦系統中存在的用戶冷 啟動問題。然而,現有的方法大多利用用戶對項目的評分進行建模,忽略了評論文本所蘊含的信息。為此,本文提出了一 種基于雙注意力機制和遷移學習的跨領域推薦模型,首先通過 CNN 對評論文本建模,提取用戶和項目特征;其次通過構 造融合詞的上下文關系的詞注意力機制從評論文本中捕獲詞級別的信息,以提升 CNN 對文本中重點信息的關注度;然后 通過構造特征突顯機制從 CNN 提取到的用戶特征和項目特征中捕獲特征級別的信息;最后引入遷移學習,通過同時提取 領域特有的特征和領域間的共享特征進行不同領域之間的聯合建模,進行評分預測。本文在 Amazon 數據集上進行了實驗 比較與分析,首先對本文模型的推薦性能進行評估,與現有的跨領域推薦模型相比,在兩種不同的跨領域數據集上平均絕 對誤差分別提升 6.1%和 9.15%,均方根誤差分別提升 3.66%和 7.01%;然后對本文模型的知識遷移性能進行評估,與現有 的單領域推薦模型相比,在不同數據集下均方誤差分別提升 5.47%和 10.35%;最后通過實驗驗證了本文提出的注意力機制 的有效性,及在緩解數據稀疏問題問題和用戶冷啟動問題方面的優勢,也驗證了模型的普適性。

//cjc.ict.ac.cn/online/bfpub/cym-2020324142846.pdf

付費5元查看完整內容
北京阿比特科技有限公司