亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

 ChatGPT憑實力“出圈”。ChatGPT是一款對話式AI聊天機器人,由微軟旗下的人工智能研究實驗室OpenAI于2022年11月30日發布。它能寫論文、編代碼、寫小說,甚至知道繞開人類提問中預設的價值判斷、道德傾向等陷阱。ChatGPT一經推出,就在人工智能生成內容(AIGC)領域引起轟動,被評價聰明得“像人類”。

  “人形機器人”與“AI”的關系已密不可分。人形機器人離不開機器視覺與神經網絡,前者通過目標追蹤、圖像描述、場景理解等生成數據,后者模仿人腦對生成的數據進行算法處理,從而令人形機器人完成各自任務,而無論是機器視覺或神經網絡都與AI息息相關。AI已成為人形機器人的核心。

  ChatGPT助力AI快速實現技術平臺化和應用場景化。ChatGPT與以往的AI工具擁有諸多“共性”,但又具備獨特的“個性”。1)ChatGPT的“自然語言處理”采用了一種用于處理序列數據的模型,使其交互能力和學習能力得到加強。這意味著它與人類互動越多,“成長”越快,隨著時間推移對用戶提出的同一問題能做出不同或更靠譜的解答。2)ChatGPT使用大量語料庫作為訓練,它能更好地理解人類語言,避免“人工智障”的詬病。約有40名全職AI訓練師在多年時間內給ChatGPT“投喂”了3000億個單詞的語料。3)一般的對話型AI具備特定用途(例如某一組織的對內對外服務),而ChatGPT則試圖完成“幾乎任何語種“的任務。

  ChatGPT或帶來人形機器人下一拐點。人形機器人是一個多任務、通用型機器人平臺,未來它在工業生產、社會服務等領域將有非常多的應用場景。ChatGPT基于OpenAI公司開發的一個GPT-3.5架構的大型語言模型,通過強化學習訓練人工智能聊天機器人程序,能夠廣泛應用于業界和客戶服務,基于Transformer架構的強大算力的語言模型,具有深度學習特質,葆有出色的語言理解和文本對話生成能力,ChatGPT的語言理解和生成水平的便捷性或帶來人形機器人下一拐點。  

付費5元查看完整內容

相關內容

原創作者:趙偉翔,趙妍妍,陸鑫,王世龍,童彥澎,秦兵

轉載須標注出處:哈工大SCIR引言

情感對話技術旨在賦予對話機器人類似人類的情感,使它們具備識別、理解和表達情感的能力,從而為用戶提供更為人性化和多樣化的回復。讓計算機具備“情商”可以說是人工智能領域的更高追求。人工智能之父馬文·明斯基(Marvin Minsky)在其著作《情感機器》[1]中指出:“只具備智力而無情感的人工智能,并非真正的智能。這表明對話機器人不僅需要“智商”,還要具備“情商”。因此,研發具備情感功能的對話機器人成為學術界和產業界共同關注的課題。近年來,產業界的許多對話機器人產品都增加了情感功能,以提高產品的趣味性和人性化,例如微軟的小冰、小黃雞聊天機器人等。情感對話技術成為了提升這些應用產品(如閑聊機器人[2]、智能客服[3]、語音助手[4]等)性能的核心技術。通過在這些產品中加入情感對話技術,可以使得機器人更好地理解用戶的需求和情感,從而提供更為貼近用戶心理的服務。隨著ChatGPT[5]的問世,對話機器人領域迎來了革新。作為一款先進的大型語言模型,ChatGPT為對話機器人帶來了更為豐富且精確的語義理解和回復生成能力,極大地提升了與人類用戶的交互體驗。考慮到ChatGPT在基本對話技術方面的重要突破,以及近期研究分析了其在各項傳統自然語言處理任務中的表現[6, 7],我們對ChatGPT在情感對話技術發展方面的影響產生了興趣。因此,在本文中,我們將探討ChatGPT在情感對話領域的多個任務上的性能表現,分析其優缺點,并思考情感對話領域未來的研究方向。

任務設置

我們將從情感對話理解和生成能力這兩個維度出發,對ChatGPT在其下各個主流任務的性能表現進行比較和分析。評測方法對于各個任務上的SOTA模型,我們直接引用了其原論文的實驗結果,而ChatGPT的性能測試則全部使用OpenAI開放API的"gpt-3.5-turbo"模型(截止至3.8日的模型版本)。我們測試了ChatGPT在各個任務上零式學習(Zero-shot Learing)和上下文學習(In-context Learning)的表現。

評測詳情

對話情緒識別

任務定義

對話情緒識別是一個分類任務,旨在對一段對話中的話語進行情緒分類。任務的輸入是一段連續的對話,輸出是這段對話中所有話語的情緒,圖1給出了一個簡單的示例。對話中的話語情緒識別并不簡單等同于單個句子的情緒識別,需要綜合考慮對話中的背景、上下文、說話人等信息。對話情緒識別可廣泛應用于各種對話場景中,如社交媒體中評論的情感分析、人工客服中客戶的情緒分析等。此外,對話情緒識別還可應用于聊天機器人中,實時分析用戶的情緒狀態,實現基于用戶情感驅動的回復生成。

圖1. 對話情緒識別示例[8]

數據集介紹

IEMOCAP

[9]南加州大學SAIL實驗室收集,由人扮演的雙人對話,12小時的多模態視聽數據。10個專業演員(5男5女),一共分為5個Session,每個Session分配1男1女。對話分為兩部分,一部分是固定的劇本,另一部分是給定主題情景下的自由發揮。151段對話,共7433句。標注了6類情緒:Neutral, Happiness, Sadness, Anger, Frustrated, Excited,非中性情緒占比77%。IEMOCAP是對話情緒識別中常用的數據集之一,質量較高,優點是有多模態信息,缺點是數據規模較小。本次測試僅使用其文本模態數據。數據集鏈接://sail.usc.edu/iemocap/MELD[10]來源于老友記,多人對話形式,是EmotionLines[11]老友記部分的多模態擴充(文本+視頻)。1432段對話,共13708句。標注了7類情緒:Neutral, Happiness, Surprise, Sadness, Anger, Disgust, Fear和3類情感:Positive, Negative, Neutral,非中性情緒占比53%。MELD是對話情緒識別中常用的數據集之一,優點是數據集質量較高,缺點是數據集中的對話涉及到的劇情背景太多,情緒識別難度很大。本次測試僅使用其文本模態數據。數據集鏈接:EmoryNLP[12]來源于老友記,多人對話形式。897段對話,共12606句。標注了7類情緒:Sad, Mad, Scared, Powerful, Peaceful, Joyful, Neutral,非中性情緒占比70%。EmoryNLP是對話情緒識別中常用的數據集之一,由于和MELD來源相同,故優缺點與MELD數據集類似。數據集鏈接:DailyDialog[13]高質量多輪對話數據集,純文本,噪聲小,對話反映不同主題的日常生活,無固定說話人。數據集除了7類情緒標注,還有10類主題標注以及4類對話行為標注。13118段對話,共102979句。標注了7類情緒:Neutral, Happiness, Surprise, Sadness, Anger, Disgust, Fear,非中性情緒占比16.8%。DailyDialog是對話情緒識別中常用的數據集之一,優點是數據規模較大,缺點是中性情緒占比過高。數據集鏈接:評價指標介紹對于IEMOCAP、MELD和EmoryNLP數據集,目前大部分論文使用Weighted-F1指標進行評價;對于DailyDialog數據集,由于其中性占比實在太高,目前大部分論文都使用不考慮中性類別的Micro-F1指標進行評價。

主實驗結果

下面是主實驗結果,從中可以看出ChatGPT相比于最先進的微調模型普遍還有10—20百分點的性能差距。模型IEMOCAPMELDEmoryNLPDailyDialogCoMPM[14] (NAACL 2022)69.4666.5238.9360.34SPCL[15] (EMNLP 2022)69.7467.2540.94—ChatGPT, 0-shot44.9757.3037.4740.66ChatGPT, 1-shot47.4658.6335.6042.00ChatGPT, 3-shot48.5858.3535.9242.39

案例展示

下面是從DailyDialogue數據集中找到的一段對話數據,模擬了醫生和病人的對話場景,我們將其翻譯成中文展示。說話人對話內容數據集標注ChatGPT預測A早上好。你怎么了?中性中性B早上好,醫生。我頭疼得厲害。中性難過A好的,年輕人。告訴我它是怎么開始的。中性中性B昨天我流鼻涕,現在我鼻塞了,喉嚨痛,恐怕我發燒了。我感覺很糟糕。中性難過A別擔心,年輕人。讓我給你做個檢查。首先讓我看看你的喉嚨。張開嘴說“啊”。中性中性B啊。中性中性A你的喉嚨發炎了。你的舌頭上有厚厚的舌苔。你有流感的癥狀。中性恐懼B那我該怎么辦?中性恐懼A你只需要好好休息,多喝水。我給你開藥方。中性積極B非常感謝。中性積極

分析與討論

案例展示部分中,我們將數據集可能的標注錯誤用紅色字體展示,將ChatGPT扭轉了標注錯誤用綠色字體展示;另外ChatGPT預測結果中還有黃色字體的標簽,這是我們額外發現的問題:ChatGPT與數據集規范不匹配問題。從這部分實際預測樣例看,ChatGPT做不好的最大問題是它的標準與數據集的標準有偏差。數據集標注時可能按一種標注規范來確定什么情況是什么情緒,而ChatGPT自己有一套理解和規范。具體來說,在上面醫生和病人的對話中,病人在描述自己頭疼癥狀時,數據集標注的是中性,而ChatGPT則認為這是難過,這個不能說是誰對誰錯,而是兩者認識的標準不同。更進一步討論,這種標準的不匹配可能并不是ChatGPT能力的問題,而是Few-Shot設定的問題。因為當標注規范細致繁瑣到一定程度后,就已經不可能僅由幾個示例覆蓋了,這是Few-shot天然所不能做好的事情。基于此可對未來方向有所推測:如果是不追求與特定規范嚴格對齊的場景,那么基于ChatGPT等Few-Shot設定下的改進是可行的,但是使用數據集標簽評價是不合適的,可能需要廣泛的人工評價;如果是追求與特定規范嚴格對齊的場景,Few-Shot設定可能并不是一個好的選擇,有監督微調模型仍然是更好的方案。

對話情緒原因識別

任務定義

對話情緒原因識別,旨在找出一段對話中,引起目標句情緒的原因。任務的輸入是一段連續的對話和目標句,輸出引發目標句情緒的原因。在這里,情緒原因有兩種存在形式,分別為句子級情緒原因和詞組級情緒原因,圖2給出了一個簡單的示例。這本次測試中,我們僅關注在對句子級情緒原因的識別。

圖2 對話情緒原因識別示例

數據集介紹

我們在基準數據集RECCON-DD[16]上進行了實驗。它是在對話情緒識別數據集DailyDialog[13]的基礎上,進行情緒原因的標注。我們只考慮存在于對話上文中的情緒原因,并且重復的因果語句被刪除。數據集鏈接:評價指標介紹我們分別對負例和正例因果對計算F1值,以及計算二者的macro-F1值。

主實驗結果

模型Neg. F1Pos. F1Macro F1KBCIN[17] (AAAI 2023)89.6568.5979.12ChatGPT 0-shot85.2551.3368.29ChatGPT 1-shot82.1052.8467.47

分析與討論

對于 ChatGPT 的錯誤案例分析,可以發現其在 Pos. F1 上的性能與 SOTA 存在較大差距的原因在于數據集中有大量情緒原因樣本存在于目標句本身。ChatGPT 未能對這種樣例進行正確的預測,而更偏向于從對話上文中尋找原因語句。這一現象與上述對話情緒識別的分析是相符的。ChatGPT 的性能不佳的最大問題在于其預測標準與數據集的標注標準存在很大偏差。在給定一個示例后,ChatGPT 的性能下降進一步表明,對于情緒原因這類標注規范較為復雜的任務,充分發揮 ChatGPT 性能的關鍵是使其能夠深刻理解數據集構建時的規范,從而沖破其自身的語言模型先驗,以獲得更符合下游測試數據的性能表現。

對話動作識別

任務定義

為對話中的每一個輪次,都進行一次對話動作的分類,是一個四分類任務,我們認為每一個輪次都完成了一個對話動作,動作標簽集合:{告知(inform), 提問(question), 指示(directive), 承諾(commissive)},對話動作的理解能力是對話情感理解能力的一個重要組成部分。

數據集介紹

采用DailyDialog[13]作為實驗數據集,相關介紹同對話情緒識別。評價指標介紹分類任務多采用weighted-F1與macro-F1作為評測指標,本任務中,ChatGPT會給出四分類以外的無意義標簽,嚴重拉低宏平均值,故采用加權平均f1值作為評價指標。

主實驗結果

ModelAccweighted-F1Co-GAT-0.79ChatGPT, oneshot0.670.65ChatGPT, oneshot+prompt-engineering0.710.70ChatGPT, fewshot0.730.71ChatGPT, fewshot+prompt-engineering0.730.72

案例展示

下面是測試數據集中的一個數據實例,對話翻譯成中文展示如下。說話人話語ChatGPT預測標簽真實標簽A我們什么時候才能盼到你來吃晚餐?今天能來嗎?提問指示B不行。我答應和我的妹妹去聽音樂會了。告知承諾A好吧...那周日怎么樣?提問指示B那聽起來不錯。承諾承諾分析與討論ChatGPT對于指示、承諾這兩類標簽的理解能力較差,經常將提問與指示,告知與承諾混淆,正如案例所示。這是兩個難以區分的標簽,如果沒有明顯的定義區別,它們之間會有語義上的重疊:“今天能來嗎”是一種引導性的問句,“我答應和我妹妹去音樂會了”是一種承諾性的告知。這不能說明ChatGPT的對話動作理解能力差,仍表現出ChatGPT的標簽體系與數據集的標簽體系存在差異。若在提示詞中加入詳細的標簽解釋(提示詞工程),評價指標會有明顯提升。從實驗結果可以觀察到:在本任務上,few-shot是一種對于ChatGPT最高效的提示詞增強方式,無需復雜的提示詞工程(本實驗是對commissive和directive標簽做了詳細解釋,具體見

任務提示模板

節),也能使得評價指標得到可觀的提升。本實驗的設定few-shot為3個樣本,提示詞工程也是簡單地進行設計,我們有理由相信,在精細挑選更多示例,以及更精細化地做提示詞工程,能進一步降低ChatGPT理解的標簽體系與數據集原始標簽體系的差異,從而進一步提升ChatGPT在該任務的上限,但與上述兩個任務中提及的觀點相似,這種追求與數據集標簽體系對齊的評價體系仍然值得思考。共情回復生成****任務定義給定對話歷史,模型將扮演傾聽者的角色,設身處地理解用戶處境,生成感同身受的共情回復。數據集介紹EmpatheticDialogues[19]:一個大規模的多輪雙人共情對話數據集,包含了眾包收集的24850段共情對話,并為每個對話提供了一個情緒標簽(一共有32種分布均勻的情緒)。

數據集鏈接:評價指標介紹自動評價指標:?Bleu-n (B-1, B-2, B-3, B-4)[20],Rouge-L (R-L)[21]:評估生成回復與參考回復的相似程度。?**Distinct-n **(D-1, D-2, D-3)[22]:評估生成回復的多樣性。人工評價指標:我們采取了基于屬性的成對人工偏好評價方式。具體來說,100對分別由DialoGPT和ChatGPT生成的回復語句被隨機選取出來,2位志愿者依據以下三個方面挑選出哪一句回復更好:?流暢度:評價哪一條回復更流暢,與對話歷史更相關。?共情能力:評價哪一條回復更共情,展現出對于用戶狀態和處境更好的理解。?信息量:評價哪一條回復展現出與對話歷史相關的更多信息。

主實驗結果

人工評價結果

WinLossTieEmpSOA [24] v.s ChatGPT流暢度844.547.5共情能力1053.536.5信息量98011分析與討論在共情回復生成時,ChatGPT更傾向于生成更長更具多樣性的回復。此外,其尤其傾向于提出建議解決用戶面臨的問題**,**從而與真實回復產生偏差。更進一步,從人工評價來看,SOTA方法的流暢度和共情能力勉強能夠與ChatGPT相比,但回復的信息量相差甚遠。ChatGPT生成的回復能夠完全理解用戶處境,回復質量也相當之高,從而明顯優于目前的SOTA模型。但在共情能力方面,ChatGPT在表達共情時會頻繁重復這樣的模式:復述情緒?信息擴展。反復循環著同樣一種模式不免使得用戶產生乏味。對于該任務的未來方向,首先一點是提升模型的個性化共情能力,模板且套路化的共情表達方式顯然還未能夠與真實的人類共情對話所對齊。其次,由自動評價和人工評價得到的模型性能差異化表現,進一步說明了目前仍缺乏一個合理的評價指標,來衡量共情對話系統的優劣。情緒支持對話****任務定義情緒支持對話是一個生成任務,旨在為處于消極情緒狀態時,前來尋求幫助的求助者給予情緒支持。任務的輸入為發生在求助者和支持者之間的雙人對話歷史,輸出為生成的支持者輪次的情緒支持回復。情緒支持對話可以分為三個階段:支持者需要(1)確定求助者所面臨的問題,(2)安慰求助者,然后(3)提供一些建議或信息,以幫助求助者采取行動來應對他們的問題。支持者在此過程中可以使用以下8種策略,分別為:提問(Question), 復述或改述(Restatement or Paraphrasing), 反思感受(Reflection of Feelings), 自我揭示(Self-disclosure), 肯定和安慰(Affirmation and Reassurance), 提供建議(Providing Suggestions),信息(Information)和其他(Others)。

圖3 情緒支持對話的三個階段和各個階段支持者使用的策略[25]

數據集介紹

數據集:ESConv[25]包含1,053段對話和31,410個句子。為了構建這個數據集,數據集作者招募了已經學會了提供情感支持的常用步驟和策略的支持者,通過一個在線平臺與需要情感支持的志愿者進行交流。支持者被要求在每個回合中標注所采取的策略,而尋求支持的人則被要求每兩個回合在Likert量表上給出反饋,該量表有五個等級,表明其消極情緒的緩解程度。數據集鏈接:評價指標介紹自動評價指標:?Bleu-n (B-1, B-2, B-3, B-4),Rouge-L (R-L):評估生成回復與參考回復的相似程度。?Distinct-n (D-1, D-2, D-3):評估生成回復的多樣性。?ACC:預測策略的準確率。人工評價指標:我們招募了一名熟悉情緒支持對話的志愿者與模型進行交互,以進行人工評估。具體而言,我們從測試集中隨機抽取了89段對話。然后,我們要求志愿者在這些對話場景下扮演求助者的角色,并與模型展開交流。對于MISC和ChatGPT,志愿者需要在以下五個方面進行評判(或判斷兩者表現相當),這些方面涵蓋了情緒支持對話的三個階段:?流暢度:哪個模型能產生更連貫和流暢的回應;?探索能力:哪個模型能更有效地探討求助者的問題;?共情能力:哪個模型在理解求助者的感受和情況方面表現出更強的同理心;?建議能力:哪個模型能提供更有價值的建議;?總體表現:哪個模型能提供更有效的情感支持。主實驗結果

人工評價結果

WinLossTieMISC v.s ChatGPT流暢度63152探索能力63845共情能力****401633建議能力37313總體表現126512分析與討論ChatGPT的生成內容仍保持著長而多樣的特點,使其在自動評價指標Distinct-n上遠超過SOTA方法。但多樣性也帶來了與真實回復的偏離。從人工評價結果來看,情緒支持對話的特點之一是為用戶提供建議和有效信息以走出困境。這恰好符合ChatGPT的生成偏好,故在此任務上展示出優秀的效果。然而,在共情能力方面,SOTA方法優于ChatGPT的原因在于,ChatGPT太過“急于求成”,一旦確認用戶所面臨的困境,便立刻給出相應的建議和應對措施,忽略了對用戶情緒的撫慰和關照。但這并不能說明ChatGPT不具有共情能力。其在共情回復生成任務中展現出的優秀表現能夠證明,其能夠設身處地安慰用戶。通過適當的提示詞工程,我們相信可以使ChatGPT“放慢節奏”,在給出用戶建議前進行充分的情緒疏導。相比MISC,ChatGPT能展現出更多樣化且更有效的建議,從而在建議能力方面遠遠超過現有模型。但這一點MISC無法通過現有數據集學習,因為語料中真實的建議本身就具有局限性。對于未來關于情緒支持對話的研究,如何使得模型自適應地控制情緒支持的節奏(不宜“操之過急”提出建議解決問題,也不宜“停滯不前”重復無效的安慰)是一個值得關注的研究點。此外,研究更合理的自動評價指標,以對齊與人工評價的差異,仍需要進一步探索。結論與展望經過對ChatGPT情感對話能力的初步探索,我們發現ChatGPT在情感對話理解和生成方面表現出色。需要注意的是,我們的實驗結果可能無法完全反映ChatGPT在相應任務上的最佳表現。通過更加精細化的提示詞工程和上下文示例選擇,我們相信ChatGPT的性能可以進一步提高。未來的情感對話理解工作方向之一是探索ChatGPT與標簽標注規范的對齊,而在情感對話生成方面,重要的是研究合理的自動評價指標以衡量模型能力,因為目前所廣泛采用的自動評價和人工評價得到的性能表現可能會有所不同。

付費5元查看完整內容

3月15日 OpenAI發布多模態大模型GPT-4,其不僅在語言處理能力上提高,還具備對圖像的理解和分析能力。GPT-4商業化進程加快,開放API的同時還發布了在6個不同商業場景的應用落地。隨后微軟發布了震撼的微軟365 Copilot,極大提升office的生產力和交互方式。此前,ChatGPT就已經展示了強大的能力,在文字創造、人機交互、教育、影音、零售等多場景落地應用。我們認為,多模態大模型已在多領域具有專家能力,未來將深度賦能千行百業,改變生產生活方式。  **1. 2023年3月15日,OpenAI目前最強大的多模態預訓練大模型GPT-4正式發布。**其能夠處理文本、圖像兩種模態的輸入信息,單次處理文本量是ChatGPT的8倍,GPT-4的表現大大優于目前最好的語言模型,同時在學術考試中的水平遠超GPT3.5。這意味著GPT-4不僅在學術層面上實現了模型優化與突破,同時也展現出了成為部分領域專家的能力。

**2. GPT-4商業化進程加快。**GPT-4在發布時便開放了其純文本輸入的API,這與GPT-3和GPT-3.5的滯后開放不同。同時,GPT-4這次一起推出了6個商業場景的具體應用落地,在優化人機交互體驗、提供專業服務、提升組織效能、文化傳承與保護等方面都展現了巨大的潛能,未來有望看到更多場景中的商業化拓展與落地。 **3. ChatGPT已經刮起GPT生態狂潮。**2023年3月1號,OpenAI基于GPT 3.5 Turbo模型開放了ChatGPT API。API收費模式為0.002美元/1000tokens。相較于前一代開放接口GPT 3.5,性能更強的同時,價格下降90%,加速ChatGPT相關應用生態的發展。 **4.應用百花齊放,創造新的生產方式。**微軟先后在搜索引擎Bing、企業服務平臺Dynamic 365及開發者工具平臺Power Platform等接入 ChatGPT/GPT-4能力。微軟還發布了震撼的Microsoft 365 Copilot,極大提升office的生產力和交互方式。與此同時,在越來越多的企業宣布接入ChatGPT的能力,其中不乏一些已經取得優秀商業化的應用。如Jasper、Quizlet、Shop等,在語言文字創造、人機交互、教育、繪畫、影音、零售等多場景落地應用。 5. 我們認為以GPT4/ChatGPT為代表的預訓練大模型是這一輪AI浪潮的重要革新,重點推薦關注海內外優秀應用落地情況,AI芯片產業鏈等投資機遇。

**GPT技術發展不及預期:**GPT屬于先進AI算法,若后續GPT算法更新迭代效果不及預期,則會影響GPT演進及拓展,進而會影響其商業化落地等; **算法歧視與人權道德風險:**GPT引入基于人工反饋的強化學習,在人工反饋中,不可避免的會參雜歧視問題,從而會將歧視帶入后續的人機交互中;大模型在進行預訓練過程中,使用了大量數據,其中會涉及相關隱私問題; **數據數量與數據質量不及預期:**大模型需要大量的高質量數據進行訓練,若數據數量和質量存在短板,則會影響模型效果。 **GPT接口開放不明確:**目前GPT是否能對國內開放API還不明朗,若未來無法接入,可能將導致相關應用在國內無法落地。 **算力受限:**目前大模型訓練以GPU為主,尤其是英偉達的GPU。未來若GPU產能或者中美摩擦升級,可能導致國內廠商的算力布局。

付費5元查看完整內容

百度于2023年3月16日召開關于“文心一言”的主題發布會,“文心一言”作為國內首款正式發布的生成式語言大模型,擁有文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成等功能。文心平臺依托于百度自研的產業級深度學習平臺飛槳(PaddlePaddle)打造,致力于為用戶提供一站式AI開發服務:   AI大模型與行業大模型:文心平臺提供NLP、CV、跨模態、生物計算四大主流AI研究領域的多個基礎大模型,多個模型在技術層面實現突破創新,處于世界領先水平。其中,NLP領域的ERNIE3.0Zeus采用自回歸網絡和自編碼網絡,能夠兼顧自然語言理解和生成功能;CV領域的VIMER-UFO2.0使用超網絡結構,推理時僅需激活總參數量的1/30;ERNIE-ViLG2.0引入基于語言和圖像的知識增強算法,在文本圖像生成任務中的表現已經超越了OpenAI旗下的DALLE-2。文心平臺與各行業企業聯手打造行業大模型,目前已覆蓋能源、金融、航天、制造、傳媒、城市、社科、電影等8個領域。目前已有650余家知名企業宣布接入“文心一言”,涵蓋企業服務、金融IT、汽車、傳媒、教育、家電、金融等10余個行業。     一站式開發平臺與開發工具:開發平臺方面,文心面向專業知識有限的AI應用開發者提供零門檻平臺EasyDL,面向專業開發者提供全功能平臺BML。目前這兩個平臺均僅支持使用百度文心的云端算力,可采用公有云、私有化離線、軟硬一體等部署方式。開發工具方面,文心提供ERNIEKit自然語言處理開發工具及PaddleFleetX全流程開發套件。此外,現階段文心平臺還向開發者免費提供大模型API。     產品與社區:百度文心通過構建產品與社區經營,對外展示生成式模型的強大性能,以此吸引愛好者投入創作,進而構筑成熟的AIGC社區,可在實踐中探索AI商業化模式。目前除“文心一言”外,文心平臺提供產業級搜索系統“文心百中”、藝術創意輔助平臺“文心一格”,以及采用眾創模式的旸谷社區。     目前百度文心生成式語言大模型在參數規模、技術創新、應用落地方面均在國內同業中處于領先水平。3月16日起,“文心一言”首批用戶可通過邀請測試碼接入體驗,同時百度智能云將面向企業客戶開放“文心一言”API調用接口,有望進一步豐富百度AI生態,賦能更多行業伙伴。  

付費5元查看完整內容

國產“ChatGPT”揚帆啟航。OpenAI的商業模式為API接口收費。我們認為此種商業模式具有“卡脖子”的風險,因此我國需要發展自主可控的“ChatGPT”。國產生態正在逐步繁榮,百度打響國產ChatGPT領域“第一槍”,其在算法、算力、數據、生態、平臺五方面皆有儲備;ChatGPT的競爭本質即大模型儲備競賽,大模型是人工智能發展的必然趨勢,也是輔助式人工智能向通用性人工智能轉變的堅實底座。大模型分為NLP(自然語言處理)、CV(計算機視覺)、多模態和科學計算四類。此外,中美科技巨頭已經開啟大模型儲備“軍備賽”。

  百度文心一言,開啟國產ChatGPT新征程。百度是少有大模型語言訓練能力的公司,模型儲備方面,百度實現了全生態布局。1、NLP(自然語言處理),已經具備智能創作、摘要生成、問答、語義檢索、情感分析、信息抽取等能力,且可以讓機器人像人一樣具有邏輯且自由對話;2、CV(計算機視覺),可用于應用于圖像分類、目標檢測、語義分割等場景,此外還可以應用于文檔、卡證、票據等圖像文字識別和結構化理解;3、跨境大模型,可實現AI作畫、場景融合視覺常識推理、跨模態圖像檢索、跨模態文本檢索等多場景;4、生物計算,應用場景為蛋白結構預測和小分子藥物研發等領域。     百度為國產ChatGPT“領軍企業”,具有算力積累和生態優勢。平臺方面:擁有自主生態的百度百舸·AI異構計算平臺,具備高效率、多密度、高易用性、多場景部署、樂高式拼接等能力。算力方面:百度自身具有建設智能算力中心的實力,技術領先且自主可控,已有典型落地案例;服務器方面擁有自研的昆侖芯云服務器;芯片方面,昆侖芯AI芯片是百度自主研發的芯片,2代芯片已量產,具備算力支撐強、高速互聯等多重優勢。生態:百度大模型賦能千行百業,已有落地應用,合作廠商分別覆蓋科技、金融、航天、影視、汽車、電子制造等諸多產業。此外,我們推測ChatGPT有望成為搜索引擎的流量入口,百度搜索引擎有望借助文心一言大模型的能力重回巔峰。此外,目前國產科技巨頭已經開啟大模型的“軍備競賽”,因此,我們判斷,未來AI+有望賦能千行百業,具有AI+能力的廠商有望呈現“百花齊放”的態勢。  

付費5元查看完整內容

**本文對OpenAI的ChatGPT[1]在機器人應用中的使用進行了實驗研究。**本文概述了一種策略,將prompt工程的設計原則和高級函數庫的創建相結合,使ChatGPT能夠適應不同的機器人任務、模擬器和形狀因素。重點評估了不同的提示工程技術和對話策略對執行各種類型的機器人任務的有效性。探討了ChatGPT使用自由形式對話、解析XML標簽和合成代碼的能力,以及使用特定任務的提示函數和通過對話進行閉環推理的能力。**本文研究涵蓋了機器人領域的一系列任務,從基本的邏輯、幾何和數學推理一直到復雜的領域,如空中導航、操縱和具身智能體。**ChatGPT可以有效地解決其中的幾個任務,同時允許用戶主要通過自然語言指令與之交互。此外,本文還介紹了一個名為PromptCraft的開源研究工具,其中包括一個研究人員可以協作上傳并投票的機器人應用程序的良好提示方案示例的平臺,以及一個集成ChatGPT的機器人模擬器示例,使用戶更容易開始使用ChatGPT機器人。

自然語言處理(NLP)的快速發展導致了大型語言模型(LLMs)的發展,如BERT[2]、GPT-3[3]和Codex[4],這些模型正在對廣泛的應用程序進行革命。這些模型在文本生成、機器翻譯和代碼合成等各種任務中都取得了顯著的效果。這個模型集合的最新成員是OpenAI ChatGPT[1],這是一個預訓練的生成文本模型,使用人類反饋進行了微調。與以前主要基于單個提示符操作的模型不同,ChatGPT通過對話提供了特別令人印象深刻的交互技能,結合了文本生成和代碼合成。我們在本文中的目標是研究ChatGPT的能力是否以及如何推廣到機器人領域。我們將ChatGPT的功能擴展到機器人領域,并使用語言直觀地控制了多個平臺,如機器人手臂、無人機和家庭助理機器人。

你有沒有想過用你自己的語言告訴機器人該做什么,就像你對人類做的那樣?如果只是告訴你的家庭機器人助手:“請把我的午餐熱一下”,然后讓它自己找到微波爐,這不是很神奇嗎?盡管語言是我們表達意圖最直觀的方式,但我們仍然嚴重依賴手寫代碼來控制機器人。我們的團隊一直在探索如何改變這一現實,并使用OpenAI的新AI語言模型ChatGPT使自然的人-機器人交互成為可能。

ChatGPT是一個在大量文本和人類交互語料庫上訓練的語言模型,它可以對各種各樣的提示和問題生成連貫且語法正確的回答。我們這項研究的目標是看看ChatGPT是否能超越文本思考,并對物理世界進行推理,以幫助機器人任務。我們希望幫助人們更容易與機器人互動,而不需要學習復雜的編程語言或機器人系統的細節。這里的關鍵挑戰是教ChatGPT如何解決問題,考慮物理定律,操作環境的上下文,以及機器人的物理行為如何改變世界的狀態。

近年來,在將語言納入機器人系統方面有不同的嘗試。這些工作主要集中在針對特定形式因素或場景使用語言token嵌入模型、LLM特征和多模態模型特征。應用范圍從視覺-語言導航[5,6],基于語言的人機交互[7,8]和視覺-語言操作控制[9,10,11]。然而,盡管在機器人中使用LLMs有潛在的優勢,但大多數現有方法都受到嚴格的范圍和有限的功能集的限制,或其開環性質的限制,不允許從用戶反饋中進行流動交互和行為糾正。當被要求進行高層智能體規劃[12,13]或代碼生成[14,15]時,GPT-3、LaMDA和Codex等模型也在零樣本機器人場景中顯示出希望。這些早期的演示啟發我們研究ChatGPT,將其作為機器人領域的一個潛在的更多功能的工具,因為它結合了自然語言和代碼生成模型的優勢以及對話的靈活性。ChatGPT能夠參與自由形式的對話和捕獲長上下文,允許用戶以更自然的方式與模型交互,并靈活地進行行為矯正。

本文旨在展示ChatGPT在機器人應用中的潛力。我們概述了一個關鍵概念,它解鎖了用ChatGPT解決機器人應用程序的能力,這是創建一個高級函數庫。由于機器人是一個多樣化的領域,存在多種平臺、場景和工具,因此存在各種各樣的庫和api。我們創建了一個簡單的高級函數庫供ChatGPT處理,然后可以在后端鏈接到所選平臺的實際API,而不是要求LLM輸出特定于平臺或庫的代碼,這可能涉及大量的微調。因此,我們允許ChatGPT從自然對話框中解析用戶意圖,并將其轉換為高級函數調用的邏輯鏈。本文還概述了一些幫助ChatGPT解決機器人任務的提示工程指南。

事實證明,ChatGPT本身可以做很多事情,但它仍然需要一些幫助。我們的技術論文描述了一系列設計原則,可用于指導語言模型解決機器人任務。這些包括但不限于特殊的提示結構、高級API和通過文本的人工反饋。我們相信,我們的工作只是我們如何開發機器人系統的轉變的開始,我們希望激勵其他研究人員進入這個令人興奮的領域。繼續閱讀有關我們的方法和想法的更多技術細節。

當今機器人技術的挑戰,以及ChatGPT如何提供幫助

機器人系統與純文本應用不同,需要對現實世界的物理、環境上下文和執行物理動作的能力有深刻的理解。一個生成式機器人模型需要有一個強大的常識知識和一個復雜的世界模型,以及與用戶交互的能力,以物理上可行的方式解釋和執行命令,在現實世界中有意義。這些挑戰超出了語言模型的原始范圍,因為它們不僅必須理解給定文本的含義,還必須將意圖翻譯為物理動作的邏輯序列。

當前的機器人管道從工程師或技術用戶開始,他們需要將任務需求轉換為系統的代碼。工程師在循環中,這意味著他們需要編寫新的代碼和規范來糾正機器人的行為。總的來說,這個過程是緩慢的(用戶需要編寫低級代碼),昂貴的(需要具有深度機器人知識的高技能用戶),并且低效的(需要多次交互才能讓事情正常工作)。

ChatGPT開啟了一種新的機器人范式,并允許(潛在的非技術)用戶參與循環,在監視機器人性能的同時向大型語言模型(LLM)提供高級反饋。通過遵循我們的設計原則,ChatGPT可以為機器人場景生成代碼。在沒有任何微調的情況下,我們利用LLM的知識來控制不同的機器人形狀,以完成各種任務。在我們的工作中,我們展示了多個ChatGPT解決機器人難題的示例,以及在操作、空中和導航領域的復雜機器人部署。 ChatGPT機器人技術:設計原則

LLMs是一門高度經驗主義的科學。通過反復試驗,我們建立了一套方法和一套設計原則,用于為機器人任務編寫提示:

首先,我們定義一組高級機器人api或函數庫。這個庫可以特定于特定的機器人,并且應該映射到機器人的控制棧或感知庫中的現有底層實現。對高級api使用描述性的名稱非常重要,這樣ChatGPT可以推斷它們的行為; * 接下來,我們為ChatGPT編寫一個文本提示,它描述了任務目標,同時也明確說明了高級庫中的哪些函數可用。提示符還可以包含關于任務約束的信息,或者ChatGPT應該如何形成它的答案(使用特定的編碼語言,使用輔助解析元素); * 用戶停留在循環中來評估ChatGPT的代碼輸出,要么通過直接檢查,要么使用模擬器。如果需要,用戶可以使用自然語言向ChatGPT反饋答案的質量和安全。 * 當用戶對解決方案感到滿意時,就可以將最終代碼部署到機器人上。

ChatGPT到底能做什么?

零樣本任務規劃

我們讓ChatGPT訪問控制真正無人機的功能,事實證明,它是非技術用戶和機器人之間非常直觀的基于語言的界面。當用戶的指示模棱兩可時,ChatGPT會提出澄清性問題,并為無人機編寫復雜的代碼結構,如z字形模式以視覺檢查貨架。它甚至學會了自拍!???? 我們還在使用Microsoft AirSim模擬器的模擬工業檢測場景中使用ChatGPT。該模型能夠有效地解析用戶的高層意圖和幾何線索,從而準確地控制無人機。

循環中的用戶:當一個復雜的任務需要對話時

接下來,我們將ChatGPT用于機器人手臂的操作場景。我們使用對話反饋來教模型如何將最初提供的API組合成更復雜的高級函數:ChatGPT自己編碼。通過使用基于課程的策略,該模型能夠將這些學習到的技能邏輯地鏈接在一起,以執行堆疊積木等操作。 此外,當任務是用木塊構建微軟標志時,該模型展示了一個連接文本和物理域的有趣示例。它不僅能夠從其內部知識庫中回憶徽標,還能夠“繪制”徽標(作為SVG代碼),然后使用上述學到的技能來確定現有的機器人動作可以組成其物理形式。

接下來,我們委托ChatGPT編寫一個算法,使無人機在不撞到障礙物的情況下在太空中達到目標。我們告訴模型,這架無人機有一個面向前方的距離傳感器,ChatGPT立即為算法編寫了大多數關鍵的構建模塊。這項任務需要與人類進行一些對話,我們對ChatGPT僅使用語言反饋進行本地化代碼改進的能力印象深刻。

感知-行動循環:機器人在行動之前感知世界

在做某事(行動)之前感知世界(感知)的能力是任何機器人系統的基礎。因此,我們決定測試ChatGPT對這個概念的理解,并讓它探索一個環境,直到找到用戶指定的對象。我們允許模型訪問諸如對象檢測和對象距離API等函數,并驗證了它生成的代碼成功地實現了感知-動作循環。在實驗角色中,我們運行了額外的實驗來評估ChatGPT是否能夠根據傳感器實時反饋來決定機器人應該去哪里(而不是讓ChatGPT生成一個代碼循環來做出這些決定)。有趣的是,我們驗證了我們可以在每一步將相機圖像的文本描述輸入到聊天中,并且該模型能夠弄清楚如何控制機器人,直到它到達特定的對象。

付費5元查看完整內容

ChatGPT:AIGC現象級應用,商業化落地打開成長空間

  ChatGPT上線后熱度持續提升,已超過TikTok成為活躍用戶增長最快的產品。英偉達CEO黃仁勛表示“ChatGPT相當于AI界的iPhone問世”。目前ChatGPT已開啟商業化探索,面向B端開放接口對外輸出服務(如與微軟Bing的結合);面向C端推出收費的Plus版本,月度費用為20美元/月。根據OpenAI預測,2023年將實現2億美元收入,2024年將超過10億美元,未來成長空間廣闊。

  大模型+大數據+高算力,ChatGPT不斷突破

  (1)預訓練大模型:GPT大模型是ChatGPT的基礎,目前已經過多個版本迭代,GPT-3版本參數量達1750億,訓練效果持續優化。(2)數據:數據是預訓練大模型的原材料。GPT-3數據主要來自CommonCrawl、新聞、帖子、書籍及各種網頁,原始數據規模達45TB,訓練效果大幅提升。(3)算力:微軟AzureAI是OpenAI獨家云計算供應商,所用超算擁有285,000個CPU內核、約10,000個GPU。在大模型、大數據和高算力的支撐下,ChatGPT技術持續突破,表現驚艷。

  巨頭積極布局,產業落地加速

  AIGC在AI技術創新(生成算法、預訓練模型、多模態技術等)、產業生態(三層生態體系雛形已現)和政策支持(北京經信局表示支持頭部企業打造對標ChatGPT的大模型)共振下,有望步入發展快車道,根據騰訊研究院發布的AIGC發展趨勢報告,預計2030年AIGC市場規模將達1100億美元,前景廣闊。

  (1)微軟:微軟自2019年與OpenAI展開合作,并表示未來所有產品將全線整合ChatGPT。目前已推出引入ChatGPT技術的搜索引擎NewBing,經過測試后,71%的用戶對ChatGPT版Bing滿意,AI與搜索協同效果顯著。

  (2)谷歌:2023年2月谷歌推出對標ChatGPT的對話機器人Bard。Bard基于谷歌LaMDA模型,參數量最高達1370億,LaMDA已經在多個維度接近人類水平。谷歌表示未來會將AI技術率先應用于搜索領域,或將與微軟展開正面競爭。

  (3)百度:百度在AI領域深耕數十年,在芯片、深度學習框架、大模型以及應用已形成全棧布局,已有文心一格(AI作畫)、文心百中(產業搜索)產品落地。2023年2月,百度推出聊天機器人“文心一言”,目前生態合作伙伴近300家,未來可期。

付費5元查看完整內容

**刷爆的ChatGPT什么算法這么強!臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的 》! **

** **

** **

ChatGPT是OpenAI推出的聊天機器人模型,月度用戶已破億,正在逐步探索商業化途徑。ChatGPT能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。根據UBS統計數據顯示,ChatGPT上線2個月后月度用戶數量破1億。   OpenAI的商業模式為,會員收費、開放API以及與微軟的戰略合作。會員服務:2023年2月1日,OpenAI推出付費訂閱項目ChatGPTPlus,價格為$20/月,目前面向美國用戶。API服務:ChatGPT將在未來加入OpenAI的API,目前已在包括游戲虛擬人等泛娛樂內容產業和互聯網的多方面進行應用。1)辦公軟件:微軟計劃將包括ChatGPT等AI工具整合進旗下的所有產品中。ChatGPT已加入瀏覽器擴展程序,集成了ChatGPT-4的BING短暫上線。2)泛娛樂:AI或將不斷趨近人類思維敘事,AIGC是踏入元宇宙的重要一步,且已有公司在直播場景、游戲場景等泛娛樂中應用ChatGPT。   谷歌、百度等眾多公司推出自有AI產品,百度文心一言(ERNIEBot)預計三月份完成內測。百度擁有飛槳(深度學習開源框架)、百度AI大底座(全棧AI基礎設施)和文心大模型(AI應用場景全覆蓋)。ERNIE是百度開創性提出的基于知識增強的持續學習語義理解框架。ERNIE3.0參數量增大到了10B,訓練數據集為4TB。產品應用或可期待。  

付費5元查看完整內容

ChatGPT,人工智能的曠世巨作。ChatGPT是一種聊天機器人軟件,OpenAI于2022年11月推出的聊天機器人,具備人類語言交互外復雜的語言工作,包括自動文本生成、自動問答、自動摘要等多重功能,應用場景廣闊,相較于上個版本更像人類一樣聊天交流。OpenAI除了ChatGPT還包括Dall·E2、Whisper等項目分別是自動繪圖、自然語言翻譯等軟件。OpenAI的商業模式即API接口收費,可根據不同項目需求進行收費,我們認為其商業模式屬于底層模型開放性標準化SAAS服務模式。我國仍處于初期階段,以輔助生成內容服務為主,我們認為未來有望形成相關SAAS模式。

  ChatGPT促使AIGC快速商業化發展。GPT系列是AIGC的一種商業化方向,目前AIGC已經實現商業化的方向有AI寫作、AI作圖、AI底層建模,未來AI生成視頻和動畫領域有望快速商業化發展。AIGC也被認為是繼UGC、PGC/UGC之后的新型內容生產方式,有望解決PGC/UGC創作質量參差不齊或是降低其有害性內容傳播等問題,有望在實現創意激發,提升內容多樣性的同時降本增效,并大規模使用。目前我國已經有商業化例如百度AIGC數字人主播度曉曉、百家號TTV等。     AIGC蓬勃發展,相關廠商有望受益。我們認為AIGC的出世會產生革命性的影響,同時有望賦能千行百業。我們認為受益廠商分為三類,分別是:1、AI處理器廠商,具備自研AI處理器的廠商可以為AIGC的神經網絡提供算力支撐,AI處理器芯片可以支持深度神經網絡的學習和加速計算,相比于GPU和CPU擁有成倍的性能提升和極低的耗電水平;2、AI商業算法商業落地的廠商,原因是AI算法的龍頭廠商在自然語言處理、機器視覺、數據標注方面都具有先發優勢和技術領先性;3、AIGC相關技術儲備的應用廠商,相關廠商有望在降本增效的同時實現創意激發、提升內容多樣性并打開海量市場。

付費5元查看完整內容

2022年,從引爆AI作畫領域的DALL-E 2、Stable Diffusion等AI模型,到以ChatGPT為代表的接近人類水平的對話機器人,AIGC不斷刷爆網絡,其強大的內容生成能力給人們帶來了巨大的震撼。學術界和產業界也都形成共識:AIGC絕非曇花一現,其底層技術和產業生態已經形成了新的格局。

就內容生產而言,AIGC作為新的生產力引擎,讓我們從過去的PGC、UGC,已經不可避免地進入AIGC時代。AIGC代表著AI技術從感知、理解世界到生成、創造世界的躍遷,正推動人工智能迎來下一個時代。 經過了2022年的預熱,2023年AIGC領域將迎來更大發展。AIGC生成內容的類型不斷豐富、質量不斷提升,也將有更多的企業積極擁抱AIGC。在這個背景下,騰訊研究院正式發布**《AIGC發展趨勢報告2023:迎接人工智能的下一個時代》**。報告從技術發展和產業生態、應用趨勢、治理挑戰等維度,對AIGC的發展趨勢進行了深入思考。 本文為報告核心內容摘要(文末附下載):

AIGC技術和產業生態

迎來發展快車道

AIGC的大爆發不僅有賴于AI技術的突破創新,還離不開產業生態快速發展的支撐。在技術創新方面,生成算法、預訓練模型、多模態技術等AI技術匯聚發展,為AIGC的爆發提供了肥沃的技術土壤。

** **

圖:AIGC技術累積融合 **第一,基礎的生成算法模型不斷突破創新。**比如為人熟知的GAN、Transformer、擴散模型等,這些模型的性能、穩定性、生成內容質量等不斷提升。得益于生成算法的進步,AIGC現在已經能夠生成文字、代碼、圖像、語音、視頻、3D物體等各種類型的內容和數據。 **第二,預訓練模型,也即基礎模型、大模型,引發了AIGC技術能力的質變。**雖然過去各類生成模型層出不窮,但是使用門檻高、訓練成本高、內容生成簡單和質量偏低,遠遠不能滿足真實內容消費場景中的靈活多變、高精度、高質量等需求。而預訓練模型能夠適用于多任務、多場景、多功能需求,能夠解決以上諸多痛點。預訓練模型技術也顯著提升了AIGC模型的通用化能力和工業化水平,同一個AIGC模型可以高質量地完成多種多樣的內容輸出任務,讓AIGC模型成為自動化內容生產的“工廠”和“流水線”。正因如此,谷歌、微軟、OpenAI等企業紛紛搶占先機,推動人工智能進入預訓練模型時代。 **第三,多模態技術推動了AIGC的內容多樣性,進一步增強了AIGC模型的通用化能力。**多模態技術使得語言文字、圖像、音視頻等多種類型數據可以互相轉化和生成。比如CLIP模型,它能夠將文字和圖像進行關聯,如將文字“狗”和狗的圖像進行關聯,并且關聯的特征非常豐富。這為后續文生圖、文生視頻類的AIGC應用的爆發奠定了基礎。 未來,算法的進步將帶來更多激動人心的應用,語言模型會得到進一步發展,可以自我持續學習的多模態AI將日益成為主流,這些因素會進一步推動AIGC領域的蓬勃發展。 **在產業生態方面,AIGC領域正在加速形成三層產業生態并持續創新發展,正走向模型即服務(MaaS)的未來。**目前,AIGC產業生態體系的雛形已現,呈現為上中下三層架構。

** **

第一層是基礎層,以預訓練模型為基礎搭建的AIGC技術基礎設施層。在國外,以OpenAI、Stability.ai為代表,通過受控API、開源等方式輸出模型能力。 第二層是中間層,是在預訓練模型基礎上,通過專門的調試和訓練,快速抽取形成垂直化、場景化、定制化的小模型和應用工具層,可以實現工業流水線式部署,同時兼具按需使用、高效經濟的優勢。比如,知名的二次元畫風生成模型Novel-AI,以及各種風格的角色生成器等,就是基于Stable Diffusion開源進行的二次開發。隨著AIGC模型加速成為新的技術平臺,模型即服務(Model-as-a-Service,MaaS)開始成為現實,預計將對商業領域產生巨大影響。 第三層是應用層,依托底層模型和中間層的垂直模型,各廠商進一步開放面向C端和B端用戶的各種各樣的AIGC產品和服務,滿足海量用戶的內容創建和消費需求。例如群聊機器人、文本生成軟件、頭像生成軟件等AIGC消費工具。 目前,從提供預訓練的AI大模型的基礎設施層公司到專注打造垂直領域內AIGC工具的中間層公司、再到直接面對消費者和終端用戶提供產品和服務的應用層公司,美國圍繞AIGC生長出繁榮的生態,技術創新引發的應用創新浪潮迭起;中國也有望憑借領先的AIGC技術賦能千行百業。

AIGC在消費互聯網、產業互聯網

和社會價值領域持續產生變革性影響

AIGC領域目前呈現AIGC的內容類型不斷豐富、內容質量不斷提升、技術的通用性和工業化水平越來越強等趨勢,這使得AIGC在消費互聯網領域日趨主流化,涌現了寫作助手、AI繪畫、對話機器人、數字人等爆款級應用,支撐著傳媒、電商、娛樂、影視等領域的內容需求。目前AIGC也正在向產業互聯網、社會價值領域擴張應用。**

**

圖:AIGC應用現狀概覽(引用自紅杉資本) **在消費互聯網領域,AIGC牽引數字內容領域的全新變革。**目前AIGC的爆發點主要是在內容消費領域,已經呈現百花齊放之勢。AIGC生成的內容種類越來越豐富,而且內容質量也在顯著提升,產業生態日益豐富。這其中有三個值得關注的趨勢: **第一,AIGC有望成為新型的內容生產基礎設施,塑造數字內容生產與交互新范式,持續推進數字文化產業創新。**過去AI在內容消費領域的作用主要體現在推薦算法成為了新型的傳播基礎設施。推薦算法對數字內容傳播,短視頻為主的數字內容新業態發展,起到了顛覆式的變革作用。而現在,隨著AIGC生成的內容種類越來越豐富,內容的質量不斷提升,AIGC將作為新型的內容生產基礎設施對既有的內容生成模式產生變革影響。 **第二,AIGC的商業化應用將快速成熟,市場規模會迅速壯大。**當前AIGC已經率先在傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業取得重大發展,市場潛力逐漸顯現。比如,在廣告領域,騰訊混元AI大模型能夠支持廣告智能制作,即利用AIGC將廣告文案自動生成為廣告視頻,大大降低了廣告視頻制作成本。巨大的應用前景將帶來市場規模的快速增長,根據6pen預測,未來五年10%-30%的圖片內容由AI參與生成,有望創造超過600億以上市場規模。也有國外商業咨詢機構預測,2030年AIGC市場規模將達到1100億美元。 **第三,AIGC還將作為生產力工具,不斷推動聊天機器人、數字人、元宇宙等領域發展。**AIGC技術讓聊天機器人接近人類水平日益成為現實,當前以ChatGPT為代表的聊天機器人已經在刺激搜索引擎產業的神經,未來人們獲取信息是否會更多通過聊天機器人而非搜索引擎?這已經使谷歌等公司面臨的巨大壓力。AIGC也在大大提升數字人的制作效能,并且使其更神似人。比如騰訊AI LAB的虛擬歌手AI艾靈,能夠基于AIGC實現作詞和歌曲演唱。在元宇宙領域,AIGC在構建沉浸式空間環境、提供個性化內容體驗、打造智能用戶交互等方面發揮重要作用。比如,扎克伯格在元宇宙的島嶼上,可以通過發出語音命令生成創造海灘、變換天氣,添加不同的場景等。只有借助AGIC,元宇宙才可能以低成本、高效率的方式滿足海量用戶的不同內容需求。 **在產業互聯網領域,基于AIGC技術的合成數據(synthetic data)迎來重大發展,合成數據將牽引人工智能的未來。**MIT科技評論將AI合成數據列為2022年10大突破性技術之一;Gartner也預測稱,到2030年合成數據將徹底取代真實數據,成為訓練AI的主要數據來源。

圖:合成數據發展預測(來源:Gartner) 合成數據的用途是成為真實世界數據的廉價替代品,用來訓練、測試、驗證AI模型。AIGC技術的持續創新,讓合成數據迎來新的發展契機,開始迸發出更大的產業發展和商業應用活力。這主要體現在以下四個方面: **第一,合成數據為AI模型訓練開發提供強大助推器,推動實現AI 2.0。**過去用真實世界數據訓練AI模型,存在數據采集和標注的成本高昂,數據質量較難保障、數據多樣化不足、隱私保護挑戰等多方面問題。而合成數據可以很好的解決這些問題。使用合成數據不僅能更高效地訓練AI模型,而且可以讓AI在合成數據構建的虛擬仿真世界中自我學習、進化,極大擴展AI的應用可能性。從某種意義上也可以說合成數據讓AI模型訓練從1.0階段發展到2.0階段。 **第二,合成數據助力破解AI“深水區”的數據難題,持續拓展產業互聯網應用空間。**目前,合成數據正迅速向交通、金融、醫療、零售、工業等諸多產業領域拓展應用,幫助破解產業互聯網應用中的數據難題。比如,騰訊自動駕駛團隊研發的仿真系統TAD SIM可以自動生成各種交通場景數據,助力自動駕駛系統測試、開發。在醫療領域,美國國立衛生研究院和合成數據服務商合作,基于其COVID-19病人病歷數據庫,合成了不具有可識別性的替代數據,可供世界范圍內的研究人員自由分享和使用。

圖:騰訊自動駕駛數字孿生仿真平臺

**第三,正是由于合成數據對人工智能未來發展的巨大價值,合成數據正加速成為一個新產業賽道,科技大廠和創新企業紛紛搶先布局。**目前,全球合成數據創業企業也已經達到100家,英偉達、亞馬遜、微軟等頭部科技企業也在加速布局,涌現了合成數據即服務(SDaaS,synthetic data as a service)這一全新商業模式。

**第四,合成數據加速構建AI賦能、數實融合的大型虛擬世界。**合成數據指向的終極應用形態是借助游戲引擎、3D圖形、AIGC技術構建的數實融合的大型虛擬世界。基于合成數據構建的大型虛擬世界,為測試、開發新的人工智能應用,提供了一個安全、可靠、高效以及最重要的是——低成本的、可重復利用的環境,將成為AI數實融合的關鍵載體,包括為AI開發提供數據和場景、試驗田等。比如騰訊開悟的AI開放研究環境,已經吸引了國內外眾多決策智能領域的研究團隊使用。

**在社會價值領域,AIGC也在助力可持續社會價值的實現。**比如,在醫療健康方面,AI語音生成幫助病人“開口說話”。語音合成軟件制造商Lyrebird為漸凍癥患者設計的語音合成系統實現“聲音克隆”,幫助患者重新獲得“自己的聲音”。AI數字人也能幫助老年癡呆癥患者與他們可能記得的年輕面孔或者逝去的親人互動。此外,AIGC也可以用于文物修復,助力文物保護傳承。騰訊公司利用360度沉浸式展示技術、智能音視頻技術、人工智能等技術手段,對敦煌古壁畫進行數字化分析與修復。在國外,DeepMind合作開發的深度神經網絡模型Ithaca可以修復殘缺的歷史碑文。

圖:騰訊利用AIGC技術手段,助力敦煌古壁畫修復 總之,隨著AIGC模型的通用化水平和工業化能力的持續提升,AIGC的根本影響在于,將極大降低內容生產和交互的門檻和成本,有望帶來一場自動化內容生產與交互變革,引起社會的成本結構的重大改變,進而在各行各業引發巨震。未來,“AIGC+”將持續大放異彩,深度賦能各行各業高質量發展。

以可信AIGC** 積極應對科技治理問題與挑戰,****擁抱人工智能的下一個時代**發展總是與挑戰并生,AIGC的發展也面臨許多科技治理問題的挑戰。目前,主要是知識產權、安全、倫理和環境四個方面的挑戰。

首先,AIGC引發的新型版權侵權風險,已經成為整個行業發展所面臨的緊迫問題。因版權爭議,國外藝術作品平臺ArtStation上的畫師們掀起了抵制AIGC生成圖像的活動。其次,安全問題始終存在于科技發展應用之中。在AIGC中,主要表現為信息內容安全、AIGC濫用引發詐騙等新型違法犯罪行為,以及AIGC的內生安全等。較為著名的案例是,詐騙團隊利用AIGC換臉偽造埃隆·馬斯克的視頻,半年詐騙價值超過2億人民幣的數字貨幣。再次,算法歧視等倫理問題依然存在。比如,DALL·E 2具有顯著的種族和性別刻板印象。最后是環境影響,AIGC模型訓練消耗大量算力,碳排放量驚人。此前就有研究表明,單一機器學習模型訓練所產生的碳排放,相當于普通汽車壽命期內碳排放量的5倍。

圖:騰訊優圖實驗室推出FaceIn人臉防偽產品,能夠自動檢測精準識別視頻、圖像中是否應用人臉偽造技術 **為了應對以上挑戰,面向人工智能的下一個時代,人們需要更加負責任地、以人為本地發展應用AIGC技術,打造可信AIGC生態。**面對AIGC技術應用可能帶來的風險挑戰,社會各界需要協同參與、共同應對,通過法律、倫理、技術等方面的多元措施支持構建可信AI生態。在立法方面,網信辦等三部門出臺的《互聯網信息服務深度合成管理規定》針對深度合成技術服務提出的要求和管理措施,諸如禁止性要求、標識要求、安全評估等,亦適用于AIGC。接下來,需要著重從以下方面持續推進AIGC的政策和治理。

其一,政府部門需要結合AIGC技術的發展應用情況,制定并明晰AIGC的知識產權與數據權益保護規則。目前,AIGC的知識產權與數據權益保護規則的不明確,在某種程度上導致甚至加劇了AI領域的亂象。

其二,研發應用AIGC技術的主體需要積極探索自律管理措施,例如,秉持不作惡、科技向善等目的,制定適宜的政策(消極要求和積極要求),采取控制和安全措施保障AIGC的安全可控應用,采取內容識別、內容溯源等技術確保AIGC的可靠來源。

其三,打造安全可信的AIGC應用,需要深入推進AI倫理治理。例如,行業組織可以制定可信AIGC的倫理指南,更好地支持AIGC健康可持續發展;AIGC領域的創新主體需要考慮通過倫理委員會等方式,推進落實AI風險管理、倫理審查評估等,在AIGC應用中實現“倫理嵌入設計”(ethics by design)。

其四,社會各界需要攜手應對AIGC領域的能源消耗問題,推行綠色AI的發展理念,致力于打造綠色可持續、環境友好型的AI模型,實現智能化與低碳化融合發展。

未來已來,讓我們擁抱AIGC,擁抱人工智能的下一個時代,打造更美好的未來。

****


付費5元查看完整內容

2021年8月,馬斯克在特斯拉首個AI開放日上發布人形機器人的概念圖及視頻,并預計會在2022年完成,第一版可在2023年投入生產。Optimus將使用了輕量化的材質,頭部有掃描外界信息的屏幕,具備人類級別的手以及2個用于保持平衡的軸腳,全身共搭載40個機電驅動器。我們推測Optimus的價格大概率可能會落在20-30萬區間,這將有望推動人形機器人在全球范圍的快速應用,改變整個人形機器人的生態及市場空間。   當前主要經濟體對于機器人產業鏈的發展均保持支持態度,且有出臺相關政策法規來扶持機器人產業鏈的發展。考慮到未來全球存在大量勞動力缺口,人形機器人有望成為解決方案。根據麥肯錫的報告顯示,預計到2030年全球勞動力缺口在1億人左右的水平,假設50%的缺口被人形機器人取代,結合特斯拉人形機器人在20-30萬元的售價,僅勞動力類型的人形機器人市場空間就在10萬億元以上。且隨著人形機器人智能化程度的提高,應用場景將會更加廣泛,可能遠不止我們預期的市場空間。   工業機器人最核心且成本最高的三個零部件分別是減速器、伺服電機、控制器,我們認為這三大塊可能也是人形機器人產業鏈中機會最大的部分。另外,在本體結構件部分,特斯拉人形機器人倡導輕量化,以往做汽車鋁合金壓鑄件的企業可能也會存在較多機會;在電池部分,工業機器人多使用鉛酸蓄電池或鎳氫電池,人形機器人出于對運動性的考量,會使用到鋰電池,我們認為鋰電池熱管理部分也將會有很大機會。

付費5元查看完整內容
北京阿比特科技有限公司