亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

ChatGPT這一現象級產品橫空出世,拉開了大語言模型技術蓬勃發展的序幕。但實際上,自2017年大語言模型誕生,OpenAI、微軟、谷歌、Facebook、百度、華為等科技巨頭在大語言模型領域的探索持續不斷,ChatGPT只是將大語言模型技術推進至了爆發階段,當下大模型產品格局更是呈現出了新形勢——國外基礎模型積累深厚,國內應用側優先發力。

  2022年年末以來,人工智能大模型成為技術領域乃至全球創新領域最炙手可熱的話題。以ChatGPT引領的大模型產品發展日新月異,有預測數據顯示,到2030年,AIGC的市場規模或將超過萬億人民幣。2023年國內主要廠商也相繼推出自研的大語言模型產品,另外國內也推出了大量的大語言模型應用,逐步構建起基于中文語言特色的大語言模型生態。

  為此InfoQ研究中心基于桌面研究、專家訪談、科學分析三個研究方法,查找了大量文獻及資料,采訪了10+位領域內的技術專家,同時圍繞語言模型準確性、數據基礎、模型和算法的能力、安全和隱私四個大維度,拆分出語義理解、語法結構、知識問答、邏輯推理、代碼能力、上下文理解、語境感知、多語言能力、多模態能力、數據基礎、模型和算法的能力、安全和隱私12個細分維度。

  分別對ChatGPTgpt-3.5-turbo、Claude-instant、Sagegpt-3.5-turbo、天工3.5、文心一言V2.0.1、通義千問V1.0.1、訊飛星火認知大模型、Moss-16B、ChatGLM-6B、vicuna-13B進行了超過3000+道題的評測,根據測評結果發布了《大語言模型綜合能力測評報告2023》。  

付費5元查看完整內容

相關內容

來源:新華社客戶端

  近年來,人工智能技術迎來了新一輪大變革,其中由OpenAI開發的ChatGPT在推出短短2個月后便成為了月活破億的應用。隨著海外科技巨頭微軟、谷歌、Meta等加大投入,國內科技企業如百度、華為、阿里等紛紛布局,人工智能大模型的發展日新月異。

  為直觀感受我國當前主流科技企業所推出的大模型產品的現狀、優勢和特點,新華社研究院中國企業發展研究中心于今年4月啟動了人工智能產業創新活力研究。本次研究設置了用戶體驗項目,抓取了05月22日—05月26日數據,通過人機互動提問等形式,對國內主流大模型進行使用體驗評測,旨在為科技企業調整努力方向提供參考。

  在綜合指數評價方面,本次評測選取4大維度(基礎能力、智商測試、情商測試、工作提效能力)、36個子能力,共300個問題,對目前主流大模型產品進行測試,并邀請相關專家組成評測團隊深入分析各個產品的語義理解、知識儲備、邏輯能力等,最終得出各廠商的大模型綜合指數評價。

  在評價規則上,課題組以各個大模型對參與測評的題目回答完成度,進行了綜合考量,其中評測規則分為:答案較為完美,內容可在實際場景中直接使用;基本可用,可在實際場景中使用;調整可用,但需人工進行調整后方可使用;大略可用,需要較多人工調整方可使用;不可用,答非所問、語言不通等五個層級。

圖片

注:基于評測條件、評測時間等限制,本次評測結果存在一定主觀性,未來將進一步優化完善評測模型,提供更精確結果。

  通過圍繞四個維度的綜合測試,課題組發現,由OpenAI開發的Chat-GPT系列模型各項指標表現優異,且Chat-GPT4.0版本各項能力在3.5版本的基礎上均有一定程度提升。而由百度開發的人工智能大模型文心一言表現較為搶眼,是目前國內自主研發的大模型中具有優勢的產品。其余大模型產品也在基礎能力方面表現優良,但面對較復雜的工作內容或情商環境仍有不同程度的進步空間。

  針對各維度能力測評,該報告還給出了相應的案例展示和分析。

  在基礎能力部分,百度文心一言表現最為搶眼,訊飛星火、阿里巴巴通義千問、智譜ChatGLM表現優良;商湯商量、Vicuna-13B表現尚佳。

  在智商測試部分,百度文心一言在該環節意外超過ChatGPT3.5,表現突出,阿里巴巴通義千問分數接近GPT3.5,商湯商量、訊飛星火、智譜ChatGLM表現尚佳;Vicuna-13B表現有待改進。

  在情商測試部分,百度文心一言表現最佳;阿里巴巴通義千問與訊飛星火表現優良;商湯商量、智譜ChatGLM表現尚可;Vicuna-13B表現一般。

  在工作提效部分,百度文心一言與智譜ChatGLM最佳,訊飛星火次之;阿里巴巴通義千問及Vicuna-13B表現尚可;商湯商量表現一般。

  研究發現,人工智能與各行業的深度融合是促進產業升級和轉型的重要方式之一,“大模型+行業”的發展應用尤為重要。目前大模型在金融、工業、醫療等領域已經取得了顯著的成果,如何為行業領域提供更為精準、更為高效的解決方案,成為大模型廠商未來彎道超車的機會。

  報告指出,隨著人工智能的地位和作用越來越重要,政府、企業和社會需要共同努力,各大廠商應投入更多資源,頭部企業可以持續發力自研大模型,而專注于解決方案的行業廠商可以考慮通過深耕行業來彰顯特色。  

付費5元查看完整內容

來源:艾瑞咨詢   ChatGPT被稱為AI的“iPhone時刻”,以ChatGPT為代表的生成式AI讓每個人命令計算機解決問題成為了可能。可對生產工具、對話引擎、個人助理等各類應用,起到協助人、服務人甚至超越人的角色。   通用基礎大語言模型的價值與自研卡點

  大廠的絕對戰略優先級,但也是一場重投入的持久戰。   2023年3月中,OpenAI宣布ChatGPT整合GPT4,實現多模態交互、大幅提升復雜長文本理解與生成能力、可控性增強,引起全球科技界震動。   在國內科技及投資各領域的高度關注下,百度舉辦了“文心一言”產品發布會,雖說從產品功能、成熟度、支持用戶并發等維度距ChatGPT還有不足,但也是中國在這新一輪“科技軍備競賽”中的勇于嘗試與發聲,目前百度也已啟動API接口開放測試,瞄準B端市場。   緊隨其后,360、阿里、華為、商湯、京東、科大訊飛、字節跳動等巨頭企業也動作頻頻。   從自研通用預訓練大語言模型的必要性角度分析:在全球政治經濟局勢下,自主可控是保障網絡安全、信息安全的前提,自研基石模型具有高度戰略意義;從自研的可行性角度分析:基于前文討論的通用基礎LLMs研發所需的算力、數據、算法、人才、資金儲備等,中國僅有少數頭部互聯網企業具備研發“入場券”。   宣布入局的頭部企業基于自身業務生態選擇的戰略路線也不盡相同。但可以大膽假設,未來若形成大模型能力領先,誰擁有通用基礎大模型與生態和流量入口,誰就更有可能擁有從應用層到算力層的營收話語權。   價值:自主可控的戰略意義、大模型的商業價值   卡點:高端AI算力、數據、算法、人才、資金儲備   調用國外大模型將涉及數據跨境的合規風險、中國中大型企業與政府部門均存在私有化部署需求、以及受美國科技保護主義影響。種種原因,國內必將且必需產生自主可控的通用基礎大模型產品與服務。   “滾雪球效應”使通用基礎大模型的門檻越來越高,但其可以提供“超級大腦”一樣的價值。OpenAI與微軟的成功路線表明,依托ChatGPT有望打造新的個人與企業應用開發生態以及拉升云廠商業務營收。   美國芯片禁令下高端AI算力資源不足,算力資金投入上還需支撐智算集群的訓練與運營成本。   互聯網中文高質量數據資源小于英文,差距20-30倍,需要高質量數據清洗。   通用基礎大模型開發是一個系統工程,需具備分布式訓練、模型蒸餾等各類技術能力與工程化能力。   如何把know-how數據轉化成Q&A的能力,需要大量提示(人與機器進行交互的指令語言)工程師。  ** 中國大語言模型產業參與廠商類型與定位邏輯**

  垂直基礎大模型廠商與應用開發廠商需在窗口期加快建立“數據飛輪”壁壘。   此輪基于ChatGPT的大模型浪潮興起伊始,結合我國AI產業鏈與競爭格局現狀,一種判斷是:基于大模型的通用和泛化性提高,未來手握通用基礎大模型的巨頭企業會逐漸侵蝕垂直領域廠商業務。這種壓力長期來看的確存在,但大模型與產品結合,尤其在非檢索或開放域交互等場景中,需要依賴垂直領域數據和行業know-how、應用場景和用戶數據反哺、一站式端到端工程化能力等。

  在此窗口期,垂直領域與應用層廠商應積極將大模型能力整合入自己的技術棧,服務于產品功能優化,建立“數據飛輪”壁壘。在下游豐富的基于大語言模型、AIGC應用開發需求的影響下,還將分化出一類工具型或平臺型廠商,主要提供基于各類大模型的開發平臺服務,幫助客戶實現便捷的AIGC應用開發與落地。   大語言模型落地應用對數字產業影響

  1)變革人機交互方式:既有軟件將接入對話能力,交互界面發生變革,自然語言成為用戶發布操作指令的新模態。這一影響將從搜索引擎等知識信息平臺拓展到一切人機交互型應用。友好度和功能性的顯著提升將激活軟件服務的增量用戶市場;

  2)豐富產品種類:將誕生新一批AI-first的應用,如創意設計、AI營銷、AI運營等領域;   3)塑造新興商業模式:AI主導的“模型即服務”商業邏輯將重構應用開發流程,傳統企業可享受低成本構建應用模型的便利;   4)構建新興生態平臺:超級應用的出現,本質上搭建了用戶需求與各類信息服務之間的基于自然語言交互的平臺生態,塑造了移動互聯網后新的流量入口。   具體內容如下:

付費5元查看完整內容

原創作者:趙偉翔,趙妍妍,陸鑫,王世龍,童彥澎,秦兵

轉載須標注出處:哈工大SCIR引言

情感對話技術旨在賦予對話機器人類似人類的情感,使它們具備識別、理解和表達情感的能力,從而為用戶提供更為人性化和多樣化的回復。讓計算機具備“情商”可以說是人工智能領域的更高追求。人工智能之父馬文·明斯基(Marvin Minsky)在其著作《情感機器》[1]中指出:“只具備智力而無情感的人工智能,并非真正的智能。這表明對話機器人不僅需要“智商”,還要具備“情商”。因此,研發具備情感功能的對話機器人成為學術界和產業界共同關注的課題。近年來,產業界的許多對話機器人產品都增加了情感功能,以提高產品的趣味性和人性化,例如微軟的小冰、小黃雞聊天機器人等。情感對話技術成為了提升這些應用產品(如閑聊機器人[2]、智能客服[3]、語音助手[4]等)性能的核心技術。通過在這些產品中加入情感對話技術,可以使得機器人更好地理解用戶的需求和情感,從而提供更為貼近用戶心理的服務。隨著ChatGPT[5]的問世,對話機器人領域迎來了革新。作為一款先進的大型語言模型,ChatGPT為對話機器人帶來了更為豐富且精確的語義理解和回復生成能力,極大地提升了與人類用戶的交互體驗。考慮到ChatGPT在基本對話技術方面的重要突破,以及近期研究分析了其在各項傳統自然語言處理任務中的表現[6, 7],我們對ChatGPT在情感對話技術發展方面的影響產生了興趣。因此,在本文中,我們將探討ChatGPT在情感對話領域的多個任務上的性能表現,分析其優缺點,并思考情感對話領域未來的研究方向。

任務設置

我們將從情感對話理解和生成能力這兩個維度出發,對ChatGPT在其下各個主流任務的性能表現進行比較和分析。評測方法對于各個任務上的SOTA模型,我們直接引用了其原論文的實驗結果,而ChatGPT的性能測試則全部使用OpenAI開放API的"gpt-3.5-turbo"模型(截止至3.8日的模型版本)。我們測試了ChatGPT在各個任務上零式學習(Zero-shot Learing)和上下文學習(In-context Learning)的表現。

評測詳情

對話情緒識別

任務定義

對話情緒識別是一個分類任務,旨在對一段對話中的話語進行情緒分類。任務的輸入是一段連續的對話,輸出是這段對話中所有話語的情緒,圖1給出了一個簡單的示例。對話中的話語情緒識別并不簡單等同于單個句子的情緒識別,需要綜合考慮對話中的背景、上下文、說話人等信息。對話情緒識別可廣泛應用于各種對話場景中,如社交媒體中評論的情感分析、人工客服中客戶的情緒分析等。此外,對話情緒識別還可應用于聊天機器人中,實時分析用戶的情緒狀態,實現基于用戶情感驅動的回復生成。

圖1. 對話情緒識別示例[8]

數據集介紹

IEMOCAP

[9]南加州大學SAIL實驗室收集,由人扮演的雙人對話,12小時的多模態視聽數據。10個專業演員(5男5女),一共分為5個Session,每個Session分配1男1女。對話分為兩部分,一部分是固定的劇本,另一部分是給定主題情景下的自由發揮。151段對話,共7433句。標注了6類情緒:Neutral, Happiness, Sadness, Anger, Frustrated, Excited,非中性情緒占比77%。IEMOCAP是對話情緒識別中常用的數據集之一,質量較高,優點是有多模態信息,缺點是數據規模較小。本次測試僅使用其文本模態數據。數據集鏈接://sail.usc.edu/iemocap/MELD[10]來源于老友記,多人對話形式,是EmotionLines[11]老友記部分的多模態擴充(文本+視頻)。1432段對話,共13708句。標注了7類情緒:Neutral, Happiness, Surprise, Sadness, Anger, Disgust, Fear和3類情感:Positive, Negative, Neutral,非中性情緒占比53%。MELD是對話情緒識別中常用的數據集之一,優點是數據集質量較高,缺點是數據集中的對話涉及到的劇情背景太多,情緒識別難度很大。本次測試僅使用其文本模態數據。數據集鏈接:EmoryNLP[12]來源于老友記,多人對話形式。897段對話,共12606句。標注了7類情緒:Sad, Mad, Scared, Powerful, Peaceful, Joyful, Neutral,非中性情緒占比70%。EmoryNLP是對話情緒識別中常用的數據集之一,由于和MELD來源相同,故優缺點與MELD數據集類似。數據集鏈接:DailyDialog[13]高質量多輪對話數據集,純文本,噪聲小,對話反映不同主題的日常生活,無固定說話人。數據集除了7類情緒標注,還有10類主題標注以及4類對話行為標注。13118段對話,共102979句。標注了7類情緒:Neutral, Happiness, Surprise, Sadness, Anger, Disgust, Fear,非中性情緒占比16.8%。DailyDialog是對話情緒識別中常用的數據集之一,優點是數據規模較大,缺點是中性情緒占比過高。數據集鏈接:評價指標介紹對于IEMOCAP、MELD和EmoryNLP數據集,目前大部分論文使用Weighted-F1指標進行評價;對于DailyDialog數據集,由于其中性占比實在太高,目前大部分論文都使用不考慮中性類別的Micro-F1指標進行評價。

主實驗結果

下面是主實驗結果,從中可以看出ChatGPT相比于最先進的微調模型普遍還有10—20百分點的性能差距。模型IEMOCAPMELDEmoryNLPDailyDialogCoMPM[14] (NAACL 2022)69.4666.5238.9360.34SPCL[15] (EMNLP 2022)69.7467.2540.94—ChatGPT, 0-shot44.9757.3037.4740.66ChatGPT, 1-shot47.4658.6335.6042.00ChatGPT, 3-shot48.5858.3535.9242.39

案例展示

下面是從DailyDialogue數據集中找到的一段對話數據,模擬了醫生和病人的對話場景,我們將其翻譯成中文展示。說話人對話內容數據集標注ChatGPT預測A早上好。你怎么了?中性中性B早上好,醫生。我頭疼得厲害。中性難過A好的,年輕人。告訴我它是怎么開始的。中性中性B昨天我流鼻涕,現在我鼻塞了,喉嚨痛,恐怕我發燒了。我感覺很糟糕。中性難過A別擔心,年輕人。讓我給你做個檢查。首先讓我看看你的喉嚨。張開嘴說“啊”。中性中性B啊。中性中性A你的喉嚨發炎了。你的舌頭上有厚厚的舌苔。你有流感的癥狀。中性恐懼B那我該怎么辦?中性恐懼A你只需要好好休息,多喝水。我給你開藥方。中性積極B非常感謝。中性積極

分析與討論

案例展示部分中,我們將數據集可能的標注錯誤用紅色字體展示,將ChatGPT扭轉了標注錯誤用綠色字體展示;另外ChatGPT預測結果中還有黃色字體的標簽,這是我們額外發現的問題:ChatGPT與數據集規范不匹配問題。從這部分實際預測樣例看,ChatGPT做不好的最大問題是它的標準與數據集的標準有偏差。數據集標注時可能按一種標注規范來確定什么情況是什么情緒,而ChatGPT自己有一套理解和規范。具體來說,在上面醫生和病人的對話中,病人在描述自己頭疼癥狀時,數據集標注的是中性,而ChatGPT則認為這是難過,這個不能說是誰對誰錯,而是兩者認識的標準不同。更進一步討論,這種標準的不匹配可能并不是ChatGPT能力的問題,而是Few-Shot設定的問題。因為當標注規范細致繁瑣到一定程度后,就已經不可能僅由幾個示例覆蓋了,這是Few-shot天然所不能做好的事情。基于此可對未來方向有所推測:如果是不追求與特定規范嚴格對齊的場景,那么基于ChatGPT等Few-Shot設定下的改進是可行的,但是使用數據集標簽評價是不合適的,可能需要廣泛的人工評價;如果是追求與特定規范嚴格對齊的場景,Few-Shot設定可能并不是一個好的選擇,有監督微調模型仍然是更好的方案。

對話情緒原因識別

任務定義

對話情緒原因識別,旨在找出一段對話中,引起目標句情緒的原因。任務的輸入是一段連續的對話和目標句,輸出引發目標句情緒的原因。在這里,情緒原因有兩種存在形式,分別為句子級情緒原因和詞組級情緒原因,圖2給出了一個簡單的示例。這本次測試中,我們僅關注在對句子級情緒原因的識別。

圖2 對話情緒原因識別示例

數據集介紹

我們在基準數據集RECCON-DD[16]上進行了實驗。它是在對話情緒識別數據集DailyDialog[13]的基礎上,進行情緒原因的標注。我們只考慮存在于對話上文中的情緒原因,并且重復的因果語句被刪除。數據集鏈接:評價指標介紹我們分別對負例和正例因果對計算F1值,以及計算二者的macro-F1值。

主實驗結果

模型Neg. F1Pos. F1Macro F1KBCIN[17] (AAAI 2023)89.6568.5979.12ChatGPT 0-shot85.2551.3368.29ChatGPT 1-shot82.1052.8467.47

分析與討論

對于 ChatGPT 的錯誤案例分析,可以發現其在 Pos. F1 上的性能與 SOTA 存在較大差距的原因在于數據集中有大量情緒原因樣本存在于目標句本身。ChatGPT 未能對這種樣例進行正確的預測,而更偏向于從對話上文中尋找原因語句。這一現象與上述對話情緒識別的分析是相符的。ChatGPT 的性能不佳的最大問題在于其預測標準與數據集的標注標準存在很大偏差。在給定一個示例后,ChatGPT 的性能下降進一步表明,對于情緒原因這類標注規范較為復雜的任務,充分發揮 ChatGPT 性能的關鍵是使其能夠深刻理解數據集構建時的規范,從而沖破其自身的語言模型先驗,以獲得更符合下游測試數據的性能表現。

對話動作識別

任務定義

為對話中的每一個輪次,都進行一次對話動作的分類,是一個四分類任務,我們認為每一個輪次都完成了一個對話動作,動作標簽集合:{告知(inform), 提問(question), 指示(directive), 承諾(commissive)},對話動作的理解能力是對話情感理解能力的一個重要組成部分。

數據集介紹

采用DailyDialog[13]作為實驗數據集,相關介紹同對話情緒識別。評價指標介紹分類任務多采用weighted-F1與macro-F1作為評測指標,本任務中,ChatGPT會給出四分類以外的無意義標簽,嚴重拉低宏平均值,故采用加權平均f1值作為評價指標。

主實驗結果

ModelAccweighted-F1Co-GAT-0.79ChatGPT, oneshot0.670.65ChatGPT, oneshot+prompt-engineering0.710.70ChatGPT, fewshot0.730.71ChatGPT, fewshot+prompt-engineering0.730.72

案例展示

下面是測試數據集中的一個數據實例,對話翻譯成中文展示如下。說話人話語ChatGPT預測標簽真實標簽A我們什么時候才能盼到你來吃晚餐?今天能來嗎?提問指示B不行。我答應和我的妹妹去聽音樂會了。告知承諾A好吧...那周日怎么樣?提問指示B那聽起來不錯。承諾承諾分析與討論ChatGPT對于指示、承諾這兩類標簽的理解能力較差,經常將提問與指示,告知與承諾混淆,正如案例所示。這是兩個難以區分的標簽,如果沒有明顯的定義區別,它們之間會有語義上的重疊:“今天能來嗎”是一種引導性的問句,“我答應和我妹妹去音樂會了”是一種承諾性的告知。這不能說明ChatGPT的對話動作理解能力差,仍表現出ChatGPT的標簽體系與數據集的標簽體系存在差異。若在提示詞中加入詳細的標簽解釋(提示詞工程),評價指標會有明顯提升。從實驗結果可以觀察到:在本任務上,few-shot是一種對于ChatGPT最高效的提示詞增強方式,無需復雜的提示詞工程(本實驗是對commissive和directive標簽做了詳細解釋,具體見

任務提示模板

節),也能使得評價指標得到可觀的提升。本實驗的設定few-shot為3個樣本,提示詞工程也是簡單地進行設計,我們有理由相信,在精細挑選更多示例,以及更精細化地做提示詞工程,能進一步降低ChatGPT理解的標簽體系與數據集原始標簽體系的差異,從而進一步提升ChatGPT在該任務的上限,但與上述兩個任務中提及的觀點相似,這種追求與數據集標簽體系對齊的評價體系仍然值得思考。共情回復生成****任務定義給定對話歷史,模型將扮演傾聽者的角色,設身處地理解用戶處境,生成感同身受的共情回復。數據集介紹EmpatheticDialogues[19]:一個大規模的多輪雙人共情對話數據集,包含了眾包收集的24850段共情對話,并為每個對話提供了一個情緒標簽(一共有32種分布均勻的情緒)。

數據集鏈接:評價指標介紹自動評價指標:?Bleu-n (B-1, B-2, B-3, B-4)[20],Rouge-L (R-L)[21]:評估生成回復與參考回復的相似程度。?**Distinct-n **(D-1, D-2, D-3)[22]:評估生成回復的多樣性。人工評價指標:我們采取了基于屬性的成對人工偏好評價方式。具體來說,100對分別由DialoGPT和ChatGPT生成的回復語句被隨機選取出來,2位志愿者依據以下三個方面挑選出哪一句回復更好:?流暢度:評價哪一條回復更流暢,與對話歷史更相關。?共情能力:評價哪一條回復更共情,展現出對于用戶狀態和處境更好的理解。?信息量:評價哪一條回復展現出與對話歷史相關的更多信息。

主實驗結果

人工評價結果

WinLossTieEmpSOA [24] v.s ChatGPT流暢度844.547.5共情能力1053.536.5信息量98011分析與討論在共情回復生成時,ChatGPT更傾向于生成更長更具多樣性的回復。此外,其尤其傾向于提出建議解決用戶面臨的問題**,**從而與真實回復產生偏差。更進一步,從人工評價來看,SOTA方法的流暢度和共情能力勉強能夠與ChatGPT相比,但回復的信息量相差甚遠。ChatGPT生成的回復能夠完全理解用戶處境,回復質量也相當之高,從而明顯優于目前的SOTA模型。但在共情能力方面,ChatGPT在表達共情時會頻繁重復這樣的模式:復述情緒?信息擴展。反復循環著同樣一種模式不免使得用戶產生乏味。對于該任務的未來方向,首先一點是提升模型的個性化共情能力,模板且套路化的共情表達方式顯然還未能夠與真實的人類共情對話所對齊。其次,由自動評價和人工評價得到的模型性能差異化表現,進一步說明了目前仍缺乏一個合理的評價指標,來衡量共情對話系統的優劣。情緒支持對話****任務定義情緒支持對話是一個生成任務,旨在為處于消極情緒狀態時,前來尋求幫助的求助者給予情緒支持。任務的輸入為發生在求助者和支持者之間的雙人對話歷史,輸出為生成的支持者輪次的情緒支持回復。情緒支持對話可以分為三個階段:支持者需要(1)確定求助者所面臨的問題,(2)安慰求助者,然后(3)提供一些建議或信息,以幫助求助者采取行動來應對他們的問題。支持者在此過程中可以使用以下8種策略,分別為:提問(Question), 復述或改述(Restatement or Paraphrasing), 反思感受(Reflection of Feelings), 自我揭示(Self-disclosure), 肯定和安慰(Affirmation and Reassurance), 提供建議(Providing Suggestions),信息(Information)和其他(Others)。

圖3 情緒支持對話的三個階段和各個階段支持者使用的策略[25]

數據集介紹

數據集:ESConv[25]包含1,053段對話和31,410個句子。為了構建這個數據集,數據集作者招募了已經學會了提供情感支持的常用步驟和策略的支持者,通過一個在線平臺與需要情感支持的志愿者進行交流。支持者被要求在每個回合中標注所采取的策略,而尋求支持的人則被要求每兩個回合在Likert量表上給出反饋,該量表有五個等級,表明其消極情緒的緩解程度。數據集鏈接:評價指標介紹自動評價指標:?Bleu-n (B-1, B-2, B-3, B-4),Rouge-L (R-L):評估生成回復與參考回復的相似程度。?Distinct-n (D-1, D-2, D-3):評估生成回復的多樣性。?ACC:預測策略的準確率。人工評價指標:我們招募了一名熟悉情緒支持對話的志愿者與模型進行交互,以進行人工評估。具體而言,我們從測試集中隨機抽取了89段對話。然后,我們要求志愿者在這些對話場景下扮演求助者的角色,并與模型展開交流。對于MISC和ChatGPT,志愿者需要在以下五個方面進行評判(或判斷兩者表現相當),這些方面涵蓋了情緒支持對話的三個階段:?流暢度:哪個模型能產生更連貫和流暢的回應;?探索能力:哪個模型能更有效地探討求助者的問題;?共情能力:哪個模型在理解求助者的感受和情況方面表現出更強的同理心;?建議能力:哪個模型能提供更有價值的建議;?總體表現:哪個模型能提供更有效的情感支持。主實驗結果

人工評價結果

WinLossTieMISC v.s ChatGPT流暢度63152探索能力63845共情能力****401633建議能力37313總體表現126512分析與討論ChatGPT的生成內容仍保持著長而多樣的特點,使其在自動評價指標Distinct-n上遠超過SOTA方法。但多樣性也帶來了與真實回復的偏離。從人工評價結果來看,情緒支持對話的特點之一是為用戶提供建議和有效信息以走出困境。這恰好符合ChatGPT的生成偏好,故在此任務上展示出優秀的效果。然而,在共情能力方面,SOTA方法優于ChatGPT的原因在于,ChatGPT太過“急于求成”,一旦確認用戶所面臨的困境,便立刻給出相應的建議和應對措施,忽略了對用戶情緒的撫慰和關照。但這并不能說明ChatGPT不具有共情能力。其在共情回復生成任務中展現出的優秀表現能夠證明,其能夠設身處地安慰用戶。通過適當的提示詞工程,我們相信可以使ChatGPT“放慢節奏”,在給出用戶建議前進行充分的情緒疏導。相比MISC,ChatGPT能展現出更多樣化且更有效的建議,從而在建議能力方面遠遠超過現有模型。但這一點MISC無法通過現有數據集學習,因為語料中真實的建議本身就具有局限性。對于未來關于情緒支持對話的研究,如何使得模型自適應地控制情緒支持的節奏(不宜“操之過急”提出建議解決問題,也不宜“停滯不前”重復無效的安慰)是一個值得關注的研究點。此外,研究更合理的自動評價指標,以對齊與人工評價的差異,仍需要進一步探索。結論與展望經過對ChatGPT情感對話能力的初步探索,我們發現ChatGPT在情感對話理解和生成方面表現出色。需要注意的是,我們的實驗結果可能無法完全反映ChatGPT在相應任務上的最佳表現。通過更加精細化的提示詞工程和上下文示例選擇,我們相信ChatGPT的性能可以進一步提高。未來的情感對話理解工作方向之一是探索ChatGPT與標簽標注規范的對齊,而在情感對話生成方面,重要的是研究合理的自動評價指標以衡量模型能力,因為目前所廣泛采用的自動評價和人工評價得到的性能表現可能會有所不同。

付費5元查看完整內容

3月15日 OpenAI發布多模態大模型GPT-4,其不僅在語言處理能力上提高,還具備對圖像的理解和分析能力。GPT-4商業化進程加快,開放API的同時還發布了在6個不同商業場景的應用落地。隨后微軟發布了震撼的微軟365 Copilot,極大提升office的生產力和交互方式。此前,ChatGPT就已經展示了強大的能力,在文字創造、人機交互、教育、影音、零售等多場景落地應用。我們認為,多模態大模型已在多領域具有專家能力,未來將深度賦能千行百業,改變生產生活方式。  **1. 2023年3月15日,OpenAI目前最強大的多模態預訓練大模型GPT-4正式發布。**其能夠處理文本、圖像兩種模態的輸入信息,單次處理文本量是ChatGPT的8倍,GPT-4的表現大大優于目前最好的語言模型,同時在學術考試中的水平遠超GPT3.5。這意味著GPT-4不僅在學術層面上實現了模型優化與突破,同時也展現出了成為部分領域專家的能力。

**2. GPT-4商業化進程加快。**GPT-4在發布時便開放了其純文本輸入的API,這與GPT-3和GPT-3.5的滯后開放不同。同時,GPT-4這次一起推出了6個商業場景的具體應用落地,在優化人機交互體驗、提供專業服務、提升組織效能、文化傳承與保護等方面都展現了巨大的潛能,未來有望看到更多場景中的商業化拓展與落地。 **3. ChatGPT已經刮起GPT生態狂潮。**2023年3月1號,OpenAI基于GPT 3.5 Turbo模型開放了ChatGPT API。API收費模式為0.002美元/1000tokens。相較于前一代開放接口GPT 3.5,性能更強的同時,價格下降90%,加速ChatGPT相關應用生態的發展。 **4.應用百花齊放,創造新的生產方式。**微軟先后在搜索引擎Bing、企業服務平臺Dynamic 365及開發者工具平臺Power Platform等接入 ChatGPT/GPT-4能力。微軟還發布了震撼的Microsoft 365 Copilot,極大提升office的生產力和交互方式。與此同時,在越來越多的企業宣布接入ChatGPT的能力,其中不乏一些已經取得優秀商業化的應用。如Jasper、Quizlet、Shop等,在語言文字創造、人機交互、教育、繪畫、影音、零售等多場景落地應用。 5. 我們認為以GPT4/ChatGPT為代表的預訓練大模型是這一輪AI浪潮的重要革新,重點推薦關注海內外優秀應用落地情況,AI芯片產業鏈等投資機遇。

**GPT技術發展不及預期:**GPT屬于先進AI算法,若后續GPT算法更新迭代效果不及預期,則會影響GPT演進及拓展,進而會影響其商業化落地等; **算法歧視與人權道德風險:**GPT引入基于人工反饋的強化學習,在人工反饋中,不可避免的會參雜歧視問題,從而會將歧視帶入后續的人機交互中;大模型在進行預訓練過程中,使用了大量數據,其中會涉及相關隱私問題; **數據數量與數據質量不及預期:**大模型需要大量的高質量數據進行訓練,若數據數量和質量存在短板,則會影響模型效果。 **GPT接口開放不明確:**目前GPT是否能對國內開放API還不明朗,若未來無法接入,可能將導致相關應用在國內無法落地。 **算力受限:**目前大模型訓練以GPU為主,尤其是英偉達的GPU。未來若GPU產能或者中美摩擦升級,可能導致國內廠商的算力布局。

付費5元查看完整內容

自ChatGPT推出以來,國內學術界和科技企業相繼宣布或將推出類似機器人對話模型,有望推動大模型發展。2月7日,百度官宣“文心一言”。2月20日,復旦大學發布了類ChatGPT模型“MOSS”,并面向大眾公開邀請內測,國產大模型有望迎來爆發式增長。   需求和政策兩方面,合力推動AI產業增長。國內應用層面的需求推動AI產業的加速發展。根據IDC數據預測,2021年中國人工智能軟件及應用市場規模為51億美元,預計2026年將會達到211億美元。數據、算法、算力是AI發展的驅動力,其中數據是AI發展的基石,中國數據規模增速有望排名全球第一。政策方面,“十四五”規劃中提到“瞄準人工智能”,“聚焦人工智能關鍵算法”,加快推進“基礎算法”的“突破與迭代應用”;北京、上海、廣州等城市發布相關規劃。   頭部企業采取“模型+工具平臺+生態”三層共建模式,有助于業務的良性循環,也更容易借助長期積累形成競爭壁壘。大模型廠商主要包括百度(文心大模型)、騰訊(HunYuan大模型)、阿里(通義大模型)、商湯、華為(盤古大模型)等企業,也有智源研究院、中科院自動化所等研究機構,同時英偉達等芯片廠商也紛紛入局。大模型增強了AI技術的通用性,助力普惠AI的實現。未來,大模型有望于場景深度融合,配合專業工具和平臺支持應用落地,開放的生態來激發創新,形成良性循環。   技術發展有望促進生產效率提升,并進一步創造新的消費和需求,有利于文娛內容和互聯網行業。在AIGC和ChatGPT方面,我們建議持續關注技術發展和應用情況,把握技術催化和商業化落地帶來的投資機會:1)具備AIGC和ChatGPT的技術探索和應用的公司:百度集團-SW、商湯-W、萬興科技、拓爾思等;2)具有海量內容素材且具有AIGC探索布局的,圖片/文字/音樂/視頻內容及平臺公司騰訊控股,閱文集團、美圖公司、昆侖萬維、湯姆貓、神州泰岳、視覺中國、中文在線、漢儀股份、天娛數科、風語筑等。

付費5元查看完整內容

國產“ChatGPT”揚帆啟航。OpenAI的商業模式為API接口收費。我們認為此種商業模式具有“卡脖子”的風險,因此我國需要發展自主可控的“ChatGPT”。國產生態正在逐步繁榮,百度打響國產ChatGPT領域“第一槍”,其在算法、算力、數據、生態、平臺五方面皆有儲備;ChatGPT的競爭本質即大模型儲備競賽,大模型是人工智能發展的必然趨勢,也是輔助式人工智能向通用性人工智能轉變的堅實底座。大模型分為NLP(自然語言處理)、CV(計算機視覺)、多模態和科學計算四類。此外,中美科技巨頭已經開啟大模型儲備“軍備賽”。

  百度文心一言,開啟國產ChatGPT新征程。百度是少有大模型語言訓練能力的公司,模型儲備方面,百度實現了全生態布局。1、NLP(自然語言處理),已經具備智能創作、摘要生成、問答、語義檢索、情感分析、信息抽取等能力,且可以讓機器人像人一樣具有邏輯且自由對話;2、CV(計算機視覺),可用于應用于圖像分類、目標檢測、語義分割等場景,此外還可以應用于文檔、卡證、票據等圖像文字識別和結構化理解;3、跨境大模型,可實現AI作畫、場景融合視覺常識推理、跨模態圖像檢索、跨模態文本檢索等多場景;4、生物計算,應用場景為蛋白結構預測和小分子藥物研發等領域。     百度為國產ChatGPT“領軍企業”,具有算力積累和生態優勢。平臺方面:擁有自主生態的百度百舸·AI異構計算平臺,具備高效率、多密度、高易用性、多場景部署、樂高式拼接等能力。算力方面:百度自身具有建設智能算力中心的實力,技術領先且自主可控,已有典型落地案例;服務器方面擁有自研的昆侖芯云服務器;芯片方面,昆侖芯AI芯片是百度自主研發的芯片,2代芯片已量產,具備算力支撐強、高速互聯等多重優勢。生態:百度大模型賦能千行百業,已有落地應用,合作廠商分別覆蓋科技、金融、航天、影視、汽車、電子制造等諸多產業。此外,我們推測ChatGPT有望成為搜索引擎的流量入口,百度搜索引擎有望借助文心一言大模型的能力重回巔峰。此外,目前國產科技巨頭已經開啟大模型的“軍備競賽”,因此,我們判斷,未來AI+有望賦能千行百業,具有AI+能力的廠商有望呈現“百花齊放”的態勢。  

付費5元查看完整內容

ChatGPT:AIGC現象級應用,商業化落地打開成長空間

  ChatGPT上線后熱度持續提升,已超過TikTok成為活躍用戶增長最快的產品。英偉達CEO黃仁勛表示“ChatGPT相當于AI界的iPhone問世”。目前ChatGPT已開啟商業化探索,面向B端開放接口對外輸出服務(如與微軟Bing的結合);面向C端推出收費的Plus版本,月度費用為20美元/月。根據OpenAI預測,2023年將實現2億美元收入,2024年將超過10億美元,未來成長空間廣闊。

  大模型+大數據+高算力,ChatGPT不斷突破

  (1)預訓練大模型:GPT大模型是ChatGPT的基礎,目前已經過多個版本迭代,GPT-3版本參數量達1750億,訓練效果持續優化。(2)數據:數據是預訓練大模型的原材料。GPT-3數據主要來自CommonCrawl、新聞、帖子、書籍及各種網頁,原始數據規模達45TB,訓練效果大幅提升。(3)算力:微軟AzureAI是OpenAI獨家云計算供應商,所用超算擁有285,000個CPU內核、約10,000個GPU。在大模型、大數據和高算力的支撐下,ChatGPT技術持續突破,表現驚艷。

  巨頭積極布局,產業落地加速

  AIGC在AI技術創新(生成算法、預訓練模型、多模態技術等)、產業生態(三層生態體系雛形已現)和政策支持(北京經信局表示支持頭部企業打造對標ChatGPT的大模型)共振下,有望步入發展快車道,根據騰訊研究院發布的AIGC發展趨勢報告,預計2030年AIGC市場規模將達1100億美元,前景廣闊。

  (1)微軟:微軟自2019年與OpenAI展開合作,并表示未來所有產品將全線整合ChatGPT。目前已推出引入ChatGPT技術的搜索引擎NewBing,經過測試后,71%的用戶對ChatGPT版Bing滿意,AI與搜索協同效果顯著。

  (2)谷歌:2023年2月谷歌推出對標ChatGPT的對話機器人Bard。Bard基于谷歌LaMDA模型,參數量最高達1370億,LaMDA已經在多個維度接近人類水平。谷歌表示未來會將AI技術率先應用于搜索領域,或將與微軟展開正面競爭。

  (3)百度:百度在AI領域深耕數十年,在芯片、深度學習框架、大模型以及應用已形成全棧布局,已有文心一格(AI作畫)、文心百中(產業搜索)產品落地。2023年2月,百度推出聊天機器人“文心一言”,目前生態合作伙伴近300家,未來可期。

付費5元查看完整內容

**刷爆的ChatGPT什么算法這么強!臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的 》! **

** **

** **

 AIGC多模態跨模態應用逐漸成熟,市場空間廣闊。   廣義的AIGC指具備生成創造能力的AI技術,即生成式AI。可以基于訓練數據和生成算法模型,自主生成創造新的文本、圖像、音樂、視頻等內容。2022年被稱為AIGC元年,未來兼具大模型和多模態模型的AIGC模型有望成為新的技術平臺。據《中國AI數字商業產業展望2021-2025》報告,預測AI數字商業內容的市場規模將從2020年的40億元,增加到2025年的495億元。   ChatGPT產品歷經多代技術演進,產品與商業模式逐漸成熟。   ChatGPT是文本生成式AI,過去的傳統AI偏向于分析能力,主要基于已有內容;現在文本生成式AI基于底層Transformer模型,不斷訓練數據和迭代生成算法模型,歷經GPT-1、GPT-2、GPT-3,模型不斷升級,到ChatGPT的GPT3.5模型,已可以自主生成各種形式的內容。近期收費版ChatGPTPlus版本發布,AI商業化序幕逐漸拉開。   AI商業化落地在即,行業算法側和算力側投資機會有望超預期。   根據數據顯示,ChatGPT總算力消耗約為3640PF-Days,按國內的數據中心算力測算,需要7-8個數據中心才能支持其運行。各模態AI數據訓練到應用均需要算法和算力的加持,未來要想大規模應用,算法訓練和算力部署均需先行。

付費5元查看完整內容

ChatGPT系列報告:

**刷爆的ChatGPT什么算法這么強!臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的 》! **

** **

** **

【芯片算力】▲芯片需求=量↑x價↑,AIGC拉動芯片產業量價齊升。1)量:AIGC帶來的全新場景+原場景流量大幅提高;2)價:對高端芯片的需求將拉動芯片均價。ChatGPT的“背后英雄”:芯片,看好國內GPU、CPU、FPGA、AI芯片及光模塊產業鏈。   相關標的:海光信息、景嘉微、龍芯中科、中國長城、安路科技、復旦微電、紫光國微、寒武紀、瀾起科技、德科立、天孚通信、中際旭創。   【深度學習框架】深度學習框架是人工智能算法的底層開發工具,是人工智能時代的操作系統,當前深度學習框架發展趨勢是趨于大模型訓練,對深度學習框架的分布式訓練能力提出了要求,國產深度學習框架迎來發展機遇。   相關標的:百度、海天瑞聲、商湯科技、微軟、谷歌、Meta。   【深度學習大模型】ChatGPT是基于OpenAI公司開發的InstructGPT模型的對話系統,GPT系列模型源自2017年誕生的Transformer模型,此后大模型數量激增,參數量進入千億時代,國內百度也發布了ERNIE系列模型并有望運用于即將發布的文心一言(ERNIEBot)對話系統,未來國內廠商有望在模型算法領域持續發力。   相關標的:百度、科大訊飛、商湯科技、谷歌、微軟。   【應用】ChatGPT火爆全球的背后,可以窺見伴隨人工智能技術的發展,數字內容的生產方式向著更加高效邁進。ChatGPT及AIGC未來有望在包括游戲、廣告營銷、影視、媒體、互聯網、娛樂等各領域應用,優化內容生產的效率與創意,加速數實融合與產業升級。   相關標的:百度、騰訊、阿里巴巴、網易、昆侖萬維、閱文集團、捷成股份、視覺中國、風語筑、中文在線、三七互娛、吉比特、天娛數科。   【通信】AIGC類產品未來有望成為5G時代新的流量入口,率先受益的有望是AIGC帶來的底層基礎算力爆發式增長。   相關標的:包括算力調度(運營商)、算力供給(運營商、奧飛數據、數據港)、算力設備(浪潮信息、聯想集團、紫光股份、中興通訊、銳捷網絡、天孚通信、光庫科技、中際旭創、新易盛)、算力散熱(英維克、高瀾股份)。

付費5元查看完整內容

ChatGPT市場反應熱烈,國內外巨頭紛紛入場

據統計,ChatGPT日活躍用戶數的增速遠超Instagram,1月份平均每天有超過1300萬名獨立訪問者使用ChatGPT,是去年12月份的兩倍多;國內外科技巨頭都非常重視ChatGPT引發的科技浪潮,積極布局生成式AI,國內廠商(百度、騰訊等)也高度關注ChatGPT,積極探索前沿技術,相關深度應用也即將推出。

ChatGPT經歷多類技術路線演化,逐步成熟與完善

ChatGPT所能實現的人類意圖,來自于機器學習、神經網絡以及Transformer模型的多種技術模型積累。Transformer建模方法成熟以后,使用一套統一的工具來開發各種模態的基礎模型這種理念得以成熟,隨后GPT-1、GPT-2、GPT-3模型持續演化升級,最終孵化出ChatGPT文本對話應用。

AIGC跨模態產業生態逐步成熟,商用落地未來可期

AIGC產業生態當前在文本、音頻、視頻等多模態交互功能上持續演化升級,奠定了多場景的商用基礎。跨模態生成技術也有望成為真正實現認知和決策智能的轉折點。

ChatGPT乘東風,商業架構日益清晰

隨著ChatGPT Plus發布,商業化序幕已經拉開。ChatGPT在傳媒、影視、營銷、娛樂以及數實共生助力產業升級等領域均可產生極大助益,提升生產力曲線,多維度賦能虛擬經濟和實體經濟。

付費5元查看完整內容
北京阿比特科技有限公司