亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

來源:中國信息通信研究院

近幾年,大模型推動人工智能技術迅猛發展,極大地拓展了機器智能的邊界,展現出通用人工智能的“曙光”。如何準確、客觀、全面衡量當前大模型能力,成為產學研用各界關注的重要問題。設計合理的任務、數據集和指標,對大模型進行基準測試,是定量評價大模型技術水平的主要方式。大模型基準測試不僅可以評估當前技術水平,指引未來學術研究,牽引產品研發、支撐行業應用,還可以輔助監管治理,也有利于增進社會公眾對人工智能的正確認知,是促進人工智能技術產業發展的重要抓手。全球主要學術機構和頭部企業都十分重視大模型基準測試,陸續發布了一系列評測數據集、框架和結果榜單,對于推動大模型技術發展產生了積極作用。然而,隨著大模型能力不斷增強和行業賦能逐漸深入,大模型基準測試體系還需要與時俱進,不斷完善。

一、大模型基準測試發展概述 近幾年,大模型推動人工智能技術迅猛發展,極大地拓展了機器 智能的邊界,展現出通用人工智能的“曙光”,全球各大科技巨頭和創 新型企業紛紛圍繞大模型加強布局。如圖 1 所示,2018 年,谷歌公司 提出基于 Transformer 實現的預訓練模型 BERT,在機器閱讀理解水 平測試 SQuAD 中刷新記錄。同年,OpenAI 公司發布了第一代生成式 預訓練模型 GPT-1,擅長文本內容生成任務。隨后幾年,OpenAI 相 繼推出了 GPT-2 和 GPT-3,在技術架構、模型能力等方面進行持續創 新。2022 年 11 月,OpenAI 發布的 ChatGPT 在智能問答領域上的表 現引起產業界轟動。除了大語言模型,2023 年,OpenAI 還發布了多 模態大模型 GPT-4。同期國內大模型的發展也呈現不斷加速態勢,已 經發布了華為“盤古”、百度“文心一言”、阿里“通義千問”、騰訊“混元” 和智譜“清言”等 200 多個通用和行業大模型產品。

二、大模型基準測試現狀分析 2023 年,大模型基準測試迎來飛速發展的一年,大模型的評測體 系、數據集、方法、工具如雨后春筍般出現。本章對已發布的大模型 基準測試成果進行簡要介紹,主要分為評測體系、數據集和方法等, 以梳理大模型基準測試的整體發展趨勢,并探尋未來發展方向。 (一)大模型基準測試體系總體介紹 與傳統認為 Benchmark 僅包含評測數據集不同,大模型基準測試 體系包括關鍵四要素:測試指標體系、測試數據集、測試方法和測試 工具。指標體系定義了“測什么?”,測試方法決定“如何測?”, 測試數據集確定“用什么測?”,測試工具決定“如何執行?”。

(二)代表性的大模型基準測試體系 當前已發布的評測榜單背后均有相應的評測體系和方法,國內外 知名度較高的大模型基準測試體系包括:

  1. HELM HELM(Holistic Evaluation of Language Models)是由斯坦福大學 在2022年推出的大模型評測體系。該體系主要包括了場景(Scenarios)、 適配(Adaptation)和指標(Metrics)三個核心模塊,每次評測都需要 “自頂而下”指定一個場景、一個適配模型的提示工程詞和一個或多 個指標來進行。如圖 10 所示,HELM 使用了幾十個場景和多個指標 的核心集完成大模型評測,場景涉及問答、信息檢索、摘要、毒性檢 測等多種典型評測任務,指標包括準確性、校準、魯棒性、公平性、 偏差、毒性、效率等。

  2. HEIM HEIM(Holistic Evaluation of Text-to-Image Models)是由斯坦福 大學在 2023 年推出的多模態大模型評測體系。與之前文本生成圖像 的評測主要關注文本圖像對齊和圖像質量不同,HEIM 定義包括文本 圖像對齊、圖像質量、美學、原創性、推理、知識、偏見、毒性、公 平性、魯棒性、多語言性和效率在內的 12 個維度。HEIM 確定包含這些維度的 62 個場景,并在這個場景上評測了 26 個最先進的文本到 圖像的生成模型。

  3. HRS-Bench HRS-Bench(Holistic Reliable Scalable Bench)是由沙特的 KAUST 在 2023 年推出的全面、可靠、可擴展的多模態大模型評測體系。與 之前文本生成圖像僅考察有限維度不同,HRS-Bench 重點評測大模型 的 13 種技能,可分為準確率、魯棒性、泛化性、公平性和偏見 5 個 類別,覆蓋了包括動物、交通、食物、時尚等 50 多個場景。

  4. OpenCompass OpenCompass(司南)是由上海 AI 實驗室推出的開源、高效、 全面的評測大模型體系及開放平臺,其包括評測工具 CompassKit、數 據集社區 CompassHub 和評測榜單 CompassRank。在已發布的評測榜 單中,對語言大模型主要考察語言、知識、推理、數學、代碼和智能 體方面的表現。對多模態大模型主要評測在 MMBench、MME 等數據 集上的指標。OpenCompass 提供了開源大模型基準測試工具,已集成 大量的開源大模型和閉源商業化 API,在產業界影響力較大。

  5. FlagEval FlagEval (天秤)是由北京智源研究院推出的大模型評測體系及 開放平臺,其旨在建立科學、公正、開放的評測基準、方法、工具集, 協助研究人員全方位評估基礎模型性能,同時探索提升評測的效率和 客觀性的新方法。FlagEval 通過構建“能力-任務-指標”三維評測框 架,細粒度刻畫基礎模型的認知能力邊界,包含 6 大評測任務,近 30個評測數據集和超 10 萬道評測題目。在 FlagEval 已發布的榜單中, 其主要通過中、英文的主、客觀題目對大模型進行評測,具體任務包 括選擇問答和文本分類等。

  6. SuperCLUE SuperCLUE 是由 ChineseCLUE 團隊提出的一個針對中文大模型 的通用、綜合性測評基準。其評測范圍包括模型的基礎能力、專業能 力和中文特性,基礎能力包括語言理解與抽取、閑聊、上下文對話、 生成與創作、知識與百科、代碼、邏輯與推理、計算、角色扮演和安 全。目前提供的基準榜單包括 OPEN 多輪開放式問題評測、OPT 三 大能力客觀題評測、瑯琊榜匿名對戰基準、Agent 智能體能力評估、 Safety 多輪對抗安全評估等。除此之外,還針對長文本、角色扮演、 搜索增強、工業領域、視頻質量、代碼生成、數學推理、汽車等領域 單獨發布大模型能力榜單。 三、大模型基準測試體系框架 大模型基準測試體系涵蓋大模型的測評指標、方法、數據集等多 項關鍵要素,是指導大模型基準測試落地實踐的規范。大模型基準測 試體系的建設和完善,旨在形成一個全面、客觀、規范的大模型基準 測試的方法論,從而保障大模型評測結果的公正性和客觀性。當前大 模型的基準測試偏重模型的通用能力,產業界也亟需面向具體場景和 實際落地效果的模型評測能力。

付費5元查看完整內容

相關內容

大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

地球大數據的應用領域范圍廣闊,包括生態保護、自然資源管理、氣象服務、城市規劃、應急容災等方面,但目前仍處于發展初期,面臨著數據來源、結構多樣,數據管理門檻高,數據應用場景復雜、落地方法論較少等痛點。如何充分發揮地球大數據的優勢和特點,促進其社會價值、經濟價值的高效釋放成為產業界亟需解決的問題。

本白皮書將梳理地球大數據的內容范疇、數據資源、關鍵技術、行業生態、應用場景以及實踐案例等,并初步提出地球大數據實踐方法,旨在厘清地球大數據的行業發展狀,并為產業各方開展地球大數據開發利用的相關實踐提供參考。

付費5元查看完整內容

發展數字經濟是把握新一輪科技革命和產業變革新機遇的戰略選擇,在數字化、智能化時代,算力就是數字經濟發展的核心生產力,智能算力就是創新力。當前人工智能正向多場景、規模化、融合度高的階段發展,數據量急劇增長,算法模型愈加復雜,應用不斷延伸,這對智能算力的發展提出了更高要求。放眼世界,很多國家都在積極開發和部署智能算力資源,以塑造未來發展優勢。在這樣的背景形勢下,新華三集團聯合中國信息通信研究院,共同編制了《2023智能算力發展白皮書》,希望與業界同仁共同推進我國智能算力高質量發展。 白皮書提出了智能算力內涵定義,對當前全球及我國智能算力的總體情況、智能算力應用及技術發展現狀進行系統性梳理。同時,深入分析了智能算力發展面臨的挑戰,并提出解決方案。最后白皮書展望智能算力未來發展趨勢,并提出下一步發展建議。

付費5元查看完整內容

近年,大語言模型以其強大的自然語言處理能力,成為AI領域的一大熱點。它們不僅能生成和理解文本,還能進行復雜的分析和推理。

近日,清華大學沈陽教授團隊發布了《大語言模型綜合性能評估報告》,總計26頁。

報告從生成質量、使用與性能、安全與合規三個維度對大語言模型進行評估,并深入分析不同大語言模型之間的優劣,提供競品對比,提供關于大語言模型的全面和客觀的視角。

付費5元查看完整內容

來源為“中國電子技術標準化研究院”

知識圖譜與大模型的融合應用作為建立機器認知智能的路徑之一,是當前知識圖譜與大模型技術發展的重要方向。《知識圖譜與大模型融合實踐研究報告》(2023年版)由中國電子技術標準化研究院依托知識圖譜產業推進方陣、全國信標委人工智能分委會知識圖譜工作組聯合中國電信股份有限公司研究院、浪潮電子信息產業股份有限公司、IBM、網智天元科技集團股份有限公司、青島海爾科技有限公司、北京三快在線科技有限公司、廈門淵亭信息科技有限公司、南京柯基數據科技有限公司等32家企事業單位、高校和研究院所共同編制,見附件。

為推進知識圖譜與大模型在企業級的落地應用,分析知識圖譜與大模型融合技術路徑,研究報告從知識圖譜與大模型落地面臨的瓶頸出發,分析了知識圖譜與大模型的主要特征、知識圖譜與大模型擅長的主要場景和核心基礎能力,對比了知識圖譜與大模型的優劣勢,進而從技術演化層面、技術互補層面、知識庫建設層面探討了知識圖譜與大模型融合的可行性及收益。同時,研究報告分析了知識圖譜與大模型融合的技術路徑及其關鍵技術,研究了知識圖譜與大模型融合系統評測體系,對比了實際融合系統與大模型的性能測試結果。最終,通過梳理已有11個領域的實踐案例,給出了技術挑戰與發展展望。

付費5元查看完整內容

來源:中國信息通信研究院

人工智能技術是釋放數字化疊加倍增效應、加快戰略新興產業發展、構筑綜合競爭優勢的必然選擇。縱觀全球,國內外人工智能相關不斷強化,持續推動釋放人工智能紅利;以深度學習為代表的人工智能技術飛速發展,新技術開始探索落地應用;工程化能力不斷增強,在醫療、制造、自動駕駛等領域的應用持續深入;可信人工智能技術引起社會廣泛關注。人工智能治理受到全球高度關注,各國規制進程不斷加速,基于可信人工智能的產業實踐不斷深入。

近日,中國信息通信研究院正式發布《人工智能白皮書(2022年)》,全面回顧了2021年以來全球人工智能在政策、技術、應用和治理等方面的最新動向,重點分析了人工智能所面臨的新發展形勢及其所處的新發展階段,致力于全面梳理當前人工智能發展態勢,為各界提供參考,共同推動人工智能持續健康發展。

白皮書核心觀點

1、人工智能邁入新階段,將由技術創新、工程實踐、可信安全“三維”坐標來定義和牽引

第一個維度突出創新,圍繞著算法和算力方面的創新仍會不斷涌現。第二個維度突出工程,工程化能力逐漸成為人工智能大規模賦能千行百業的關鍵要素。第三個維度突出可信,發展負責任和可信的人工智能成為共識,將抽象的治理原則落實到人工智能全生命流程將成為重點。

2、人工智能技術創新仍是主旋律,新算法不斷涌現

超大規模預訓練模型推動技術效果不斷提升,繼續朝著規模更大、模態更多的方向發展;“生成式人工智能”技術不斷成熟,未來聽、說、讀、寫等能力將有機結合;知識計算成為推動人工智能從感知智能向認知智能轉變的重要探索;人工智能與科學研究融合不斷深入,開始“顛覆”傳統研究范式。

3、人工智能工程化聚焦工具體系、開發流程、模型管理全生命流程的高效耦合

工具體系層面:體系化與開放化成為研發平臺技術工具鏈的發展特點。 開發流程層面:工程化關注人工智能模型開發的生命流程,追求高效且標準化的持續生產、持續交付和持續部署,最終以最佳的模型進入應用層面產生商業價值。 模型管理層面:企業需要建設對模型生命周期的管理機制,對模型的版本歷程、性能表現、屬性、相關數據、衍生的模型檔案等進行標準化的管理運維。

4、人工智能治理邁入軟硬法協同和場景規制新階段

人工智能治理實質化進程加速推進:各國人工智能治理側重各有不同,但整體上呈現加速演進態勢,即從初期構建以“軟法”為導向的社會規范體系,開始推進以“硬法”為保障的風險防控體系。 典型場景化治理加速落地:各國紛紛注意到人工智能應用場景多樣化和差異化給治理帶來的復雜性,典型場景的治理成為各國的工作重點,特別聚焦于自動駕駛、智慧醫療和人臉識別等領域。

付費5元查看完整內容

來源:中國信息通信研究院

  歷經多年發展,大數據從一個新興的技術產業,正在成為融入經濟社會發展各領域的要素、資源、動力、觀念。

  近日,中國信息通信研究院正式發布《大數據白皮書(2021年)》。本白皮書以數據要素的價值釋放作為可信邏輯,重點探索大數據政策、法律、技術、管理、流通、安全等方面的內容,并對“十四五”期間我國大數據的發展進行展望。

  2021年以來,全球各國大數據戰略持續推進,聚焦數據價值釋放,而國內圍繞數據要素的各個方面正在加速布局和創新發展。

  政策方面,我國大數據戰略進一步深化,激活數據要素潛能、加快數據要素市場化建設成為核心議題。

  “十四五”規劃全面布局大數據發展,為今后五年大數據的發展作出了總體部署,為各部門各地方進行大數據專項規劃提供了重要依據。“十四五”規劃對于大數據發展的布局,可以概括為突出數據在數字經濟中的關鍵作用、加強數據要素市場規則建設、重視大數據相關基礎設施建設。其中包括將大數據作為數字經濟的重要“原料”,加強供給能力;針對數據要素市場目前面臨的問題,提出加強規則;完善數據資源匯聚與流動的關鍵支撐底座,建設新興基礎設施。

  法律方面,從基本法律、行業行政法規到地方立法,我國數據法律體系架構初步搭建完成。

  法律制度是數據要素市場化建設的重要保障。2021年我國數據立法取得突飛猛進的進展,備受關注的《數據安全法》和《個人信息保護法》先后出臺,與《網絡安全法》共同形成了數據合規領域的“三駕馬車”,標志著數據合規的法律構架已初步搭建完成。在此基礎上,重點行業、新興技術的法律和司法解釋在今年密集出臺,地方性立法成果豐碩,為國家安全提供了有力的支撐,為產業、技術的發展提供了清晰的合規指引,也為人民提供了更全面的權益保障。

  技術方面,大數據技術體系以提升效率、賦能業務、加強安全、促進流通為目標加速向各領域擴散,已形成支撐數據要素發展的整套工具體系。

  2020年開始,隨著各行業數字化轉型的推進、數據安全事件的頻發,大數據技術的發展重點也從單一注重效率提升,演變為“效率提升、賦能業務、加強安全、促進流通”四者并重。其中。效率提升:利用云原生思想進行能力升級;賦能業務:利用開發平臺釋放業務潛能;加強安全:利用“零信任”不足內生安全;促進流通:利用隱私計算保障數據流通。

  管理方面,數據資產管理實踐加速落地,并正在從提升數據資產質量向數據資產價值運營加速升級。

  隨著理論研究和行業實踐的不但深入發展,數據資產管理的目標正在由數據質量的提升逐步轉向數據價值的釋放,數據資產確權、估值等“老大難”問題也出現了落地方案,數據資產管理迎來新的發展階段。

  流通方面,數據流通的基礎制度與市場規則仍在起步探索階段,但各界力量正在從新模式、新技術、新規則等多角度加速探索變革思路。

  數據流通是指以數據作為流通對象,按照一定規則從數據提供方法傳遞到數據需求方的過程,即數據資源先后被不同主體獲取、掌握或利用的過程。“數據要素市場市場化配置”提出后,各地繼續將設立數據交易機構作為促進數據要素流通的主要抓手,再次掀起建設熱潮。

  安全方面,隨著監管力度和企業意識的強化,數據安全治理初見成效,數據安全的體系化建設逐步提升。

  面對日益嚴峻的數據安全形勢,國家、行業、地方相繼出臺多項數據安全法律法規,并接連開展相應的審查整治行動,國內數據安全進入強監管新階段。當前企業數據安全治理組織架構以多樣化形式呈現,基本確立了企業內部的數據安全管理責任體系。數據分類分級工作穩步推進,為精細化數據安全防控打下堅實基礎。數據安全風險評估逐漸深入各業務線,提升了潛在風險的防范化解能力。

  利用好數據要素是驅動數字經濟創新發展的重要抓手。“十四五”期間我國將立足新發展階段、貫徹新發展理念,進一步提升數字化發展水平,為數字經濟發展提供持久的新動力,進而為構建現代化經濟體系和新發展格局提供強大支撐。一是釋放數據價值將成為全球競爭戰略的重要組成部分;二是進一步發揮大數據技術在數據價值挖掘方面的效用;三是數據治理制度體系與技術工具雙軌并進;四是新數據流通業態與政策制度協同創新;五是數據合規法律體系將進一步完善成熟。

付費5元查看完整內容

2021年9月28日,由全國信標委大數據標準工作組、中國電子技術標準化研究院、山東省工業和信息化廳主辦的2021全國大數據標準化工作會議在濟南成功舉辦。會上發布了《數據治理工具圖譜研究報告(2021版)》。今天在這里為大家揭開其神秘面紗。

研究報告概述

《數據治理工具圖譜研究報告(2021版)》基于數據管理能力成熟度評估模型、數據治理規范及數據質量評價等標準,結合重點行業數據治理工具的應用情況、典型數據治理工具廠商的功能架構研制而成。

研報詳細介紹

基本情況

本報告介紹了數據治理及數據治理工具的概念,以及數據治理工具在金融、政務、電力、交通、醫療、互聯網等重點行業的應用情況。

數據治理工具圖譜

本報告共研制了20個通用工具能力圖譜,包括圖譜全景圖、戰略層工具、管理層工具、操作層工具等,旨在通過工具能力圖譜,進一步增強我國各行業、各領域對數據治理工具的認知,有效發揮數據治理工具在數據治理工作中的降本增效作用。

數據治理工具實踐案例

本報告共收錄了6個案例工具能力圖譜,為各行業各領域提供數據治理工具的實踐參考,為推進后續數據治理工具標準化工作提供方法和思路。

數據治理工具圖譜研究報告(2021版)

數據作為推動經濟社會發展及數字化轉型的新動能已成為社會共識,受到越來越多企事業單位的重視。數據治理作為基礎性工作,最終目標是提升數據的價值,是組織推動戰略落實的基礎。為進一步增強我國各行業各領域對數據治理工具的認知,以數據治理工具為驅動,助推政企數字化轉型和數字經濟發展。全國信標委大數據標準工作組組織編制了《數據治理工具研究圖譜報告》,中國系統積極參與,汲取多個大型智慧城市項目中積累的政務數據治理經驗,為研究報告的編寫提供實踐參考。該《報告》詳細介紹了數據治理及數據治理工具的概念,對狹義數據治理和廣義數據治理兩種趨勢的理解進行了區分,主要是對廣義的數據治理進行闡述,報告中提到廣義數據治理更偏向數據治理工程,對狹義數據治理概念進行了延伸解讀,則更側重于技術平臺方面的研究,這一觀點更為契合中國系統的數據治理理念。

“十四五”時期,中國系統正當其時地選擇在數字產業鏈要求自主可控、自主創新的窗口期,推出了“飛瞰數據中臺2.0”產品,該產品布局大型政企的數據治理及數據運營市場,打造面向部委、省市政府、央企等海量數據(603138)客戶的數據治理工程解決方案,以及全棧數據中臺產品套件,涵蓋了廣義數據治理及分析應用的全棧能力,如數據集成、湖倉一體、輕量級數據工坊、共享交換、數據沙箱等,使得中國系統成為名副其實地“綜合平臺賦能型”頭部廠商。

  在數字強國戰略推動下,各行各業進入了數字化轉型新征程,對數據治理工程提出了更高要求,同時不同的場景、以及不斷出臺的新政策引起業務變化,帶來了諸如數據智能、敏捷分析等新的需求,而這也對數據治理工具提出了更高的要求。

  面對新時期的新要求,中國系統在數據實踐過程中,踩準時局節奏,通過全棧的數據治理工程能力,幫助真正擁有海量數據的客戶管好數據、用好數據、賦能業務創新。

付費5元查看完整內容
北京阿比特科技有限公司