国产综合欧美日韩激情在线,亚洲黄色网站不卡免费

** ****新智元報道 **

編輯：潤好困**【新智元導讀】**艾倫人工智能研究所等5機構最近公布了史上最全的開源模型「OLMo」，公開了模型的模型權重、完整訓練代碼、數據集和訓練過程，為以后開源社區的工作設立了新的標桿。

多年來，語言模型一直是自然語言處理（NLP）技術的核心，考慮到模型背后的巨大商業價值，最大最先進的模型的技術細節都是不公開的。現在，真·完全開源的大模型來了！來自艾倫人工智能研究所、華盛頓大學、耶魯大學、紐約大學和卡內基梅隆大學的研究人員，聯合發表了一項足以載入AI開源社區史冊的工作—— 他們幾乎將從零開始訓練一個大模型過程中的一切數據和資料都開源了！論文：//allenai.org/olmo/olmo-paper.pdf 權重：適配：

具體來說，艾倫人工智能研究所推出的這個開放大語言模型（Open Language Model，OLMo）實驗和訓練平臺，則提供了一個完全開源的大模型，以及所有和訓練開發這個模型有關的數據和技術細節—— **訓練和建模：**它包括完整的模型權重、訓練代碼、訓練日志、消融研究、訓練指標和推理代碼。 **預訓練語料：**一個包含了高達3T token的預訓練開源語料庫，以及產生這些訓練數據的代碼。

**模型參數：**OLMo框架提供了四個不同架構、優化器和訓練硬件體系下的7B大小的模型，以及一個1B大小的模型，所有模型都在至少2T token上進行了訓練。同時，也提供了用于模型推理的代碼、訓練過程的各項指標以及訓練日志。

7B：OLMo 7B、OLMo 7B (not annealed)、OLMo 7B-2T、OLMo-7B-Twin-2T **評估工具：**公開了開發過程中的評估工具套件，包括每個模型訓練過程中每1000 step中包含的超過500個的檢查點以及評估代碼。所有數據都在apache 2.0下授權使用（免費商用）。

如此徹底的開源，似乎是給開源社區打了個樣——以后不像我這樣開源的，就別說自己是開源模型了。

性能評估

從核心的評估結果來看，OLMo-7B與同類開源模型相比略勝一籌。在前9項評測中，OLMo-7B有8項排名前三，其中有2項超越了其他所有模型。在很多生成任務或閱讀理解任務（例如truthfulQA）上，OLMo-7B都超過了Llama 2，但在一些熱門的問答任務（如MMLU或Big-bench Hard）上表現則要差一些。

前9個任務是研究人員對預訓練模型的內部評估標準，而下面三個任務則是為了完善HuggingFace Open LLM排行榜而加入的下圖展示了9個核心任務準確率的變化趨勢。除了OBQA外，隨著OLMo-7B接受更多數據的訓練，幾乎所有任務的準確率都呈現上升趨勢。

與此同時，OLMo 1B與其同類模型的核心評估結果表明，OLMo與它們處于同一水平。

通過使用艾倫AI研究所的Paloma（一個基準測試）和可獲取的檢查點，研究人員分析了模型預測語言能力與模型規模因素（例如訓練的token數量）之間的關系。可以看到，OLMo-7B在性能上與主流模型持平。其中，每字節比特數（Bits per Byte）越低越好。

通過這些分析，研究人員發現模型在處理不同數據源時的效率差異較大，這主要取決于模型訓練數據與評估數據的相似度。特別地，OLMo-7B在主要基于Common Crawl的數據源上表現出色（比如C4）。不過，在與網絡抓取文本關系不大的數據源上，如WikiText-103、M2D2 S2ORC和M2D2 Wikipedia，OLMo-7B與其他模型相比效率較低。 RedPajama的評估也體現了相似的趨勢，可能是因為它的7個領域中只有2個來源于Common Crawl，且Paloma對每個數據源中的各個領域給予了相同的權重。鑒于像Wikipedia和arXiv論文這樣的精選數據源提供的異質數據遠不如網絡抓取文本豐富，隨著預訓練數據集的不斷擴大，維持對這些語言分布的高效率會很更加困難。

OLMo架構

在模型的架構方面，團隊基于的是decoder-only的Transformer架構，并采用了PaLM和Llama使用的SwiGLU激活函數，引入了旋轉位置嵌入技術（RoPE），并改進了GPT-NeoX-20B的基于字節對編碼（BPE）的分詞器，以減少模型輸出中的個人可識別信息。此外，為了保證模型的穩定性，研究人員沒有使用偏置項（這一點與PaLM的處理方式相同）。如下表所示，研究人員已經發布了1B和7B兩個版本，同時還計劃很快推出一個65B的版本。

下表詳細比較了7B架構與這些其他模型在相似規模下的性能。

預訓練數據集：Dolma

雖然研究人員在獲取模型參數方面取得了一定的進展，但開源社區目前預訓練數據集的開放程度還遠遠不夠。之前的預訓練數據往往不會隨著模型的開源而公開（閉源模型就更不用說了）。而且有關這些數據的說明文檔也常常缺乏足夠的細節，但是這些細節對于想要復現研究或完全理解相關工作至關重要。這一情況加大了語言模型研究的難度——比如，了解訓練數據如何影響模型能力和其局限性。為了推動語言模型預訓練領域的開放研究，研究人員構建并公開了預訓練數據集Dolma。這是一個包含了從 7 種不同數據來源獲取的3萬億個token的多樣化、多源語料庫。這些數據源一方面在大規模語言模型預訓練中常見，另一方面也能被普通大眾所接觸。下表給出了來自各個數據源的數據量的概覽。

Dolma的構建過程包括六個步驟：語言過濾、質量過濾、內容過濾、去重、多源混合和token化。在整理和最終發布Dolma過程中，研究人員確保各數據源的文檔保持獨立。他們還開源了一套高效的數據整理工具，這套工具能夠幫助進一步研究Dolma、復制成果，并簡化預訓練語料庫的整理工作。此外，研究人員也開源了WIMBD工具，以助于數據集分析。

網絡數據處理流程

代碼處理流程訓練OLMo

分布式訓練框架

研究人員利用PyTorch的FSDP框架和ZeRO優化器策略來訓練模型。這種方法通過將模型的權重和它們對應的優化器狀態在多個GPU中進行分割，從而有效減少了內存的使用量。在處理高達7B規模的模型時，這項技術使研究人員能夠在每個GPU上處理4096個token的微批大小，以實現更高效的訓練。對于OLMo-1B和7B模型，研究人員固定使用大約4M token（2048個數據實例，每個實例包含2048個token的序列）的全局批大小。而對于目前正在訓練中的OLMo-65B模型，研究人員采用了一個批大小預熱策略，起始于大約2M token（1024個數據實例），之后每增加100B token，批大小翻倍，直至最終達到大約16M token（8192個數據實例）的規模。

為了加快模型訓練的速度，研究人員采用了混合精度訓練的技術，這一技術是通過FSDP的內部配置和PyTorch的amp模塊來實現的。這種方法特別設計，以確保一些關鍵的計算步驟（例如softmax函數）始終以最高精度執行，以保證訓練過程的穩定性。與此同時，其他大部分計算則使用一種稱為bfloat16的半精度格式，以減少內存使用并提高計算效率。在特定配置中，每個GPU上的模型權重和優化器狀態都以最高精度保存。只有在執行模型的前向傳播和反向傳播，即計算模型的輸出和更新權重時，每個Transformer模塊內的權重才會臨時轉換為bfloat16格式。此外，各個GPU間同步梯度更新時，也會以最高精度進行，以確保訓練質量。

優化器

研究人員采用了AdamW優化器來調整模型參數。無論模型規模大小如何，研究人員都會在訓練初期的5000步（大約處理21B個token）內逐漸增加學習率，這一過程稱為學習率預熱。預熱結束后，學習率將按線性規律逐漸減少，直到降至最高學習率的十分之一。此外，研究人員還會對模型參數的梯度進行裁剪，確保其總的 L1 范數不會超過 1.0。在下表中，研究人員將自己在7B模型規模下的優化器配置與近期其他使用AdamW優化器的大型語言模型進行了對比。

數據集

研究人員利用開放數據集Dolma中的一個2T token的樣本，構建了他們的訓練數據集。研究人員將每篇文檔的token連接起來，每篇文檔的末尾都會加上一個特殊的 EOS token，接著將這些 token 分成每組 2048 個，形成訓練樣本。這些訓練樣本在每次訓練時都會以同樣的方式進行隨機打亂。研究人員還提供了一些工具，使得任何人都可以復原每個訓練批次的具體數據順序和組成。研究人員已經發布的所有模型至少都經過了一輪（2T token）的訓練。其中一些模型還進行了額外的訓練，即在數據上進行第二輪訓練，但采用了不同的隨機打亂順序。根據之前的研究，這樣重復使用少量數據的影響是微乎其微的。

英偉達和AMD都要YES！

為了確保代碼庫能夠同時在英偉達和AMD的GPU上都能高效運行，研究人員選擇了兩個不同的集群進行了模型訓練測試：利用LUMI超級計算機，研究人員部署了最多256個節點，每個節點搭載了4張AMD MI250X GPU，每張GPU 擁有128GB內存和800Gbps的數據傳輸速率。通過MosaicML (Databricks) 的支持，研究人員使用了27個節點，每個節點配備了8張英偉達A100 GPU，每張GPU擁有40GB內存和800Gbps的數據傳輸速率。雖然研究人員為了提高訓練效率對批大小進行了微調，但在完成2T token的評估后，兩個集群的性能幾乎沒有差異。

訓練能耗總結

與以往大多數僅僅提供模型權重和推理代碼的模型不同，研究人員開源了OLMo的全部內容，包括訓練數據、訓練和評估代碼，以及訓練日志、實驗結果、重要發現以及Weights & Biases的記錄等等。此外，團隊正在研究如何通過指令優化和不同類型的強化學習（RLHF）來改進OLMo。而這些微調代碼、數據和經過微調后的模型也都會被開源。研究人員致力于持續支持和發展OLMo及其框架，推動開放語言模型（LM）的發展，助力開放研究社區的發展。為此，研究人員計劃引入更多不同規模的模型、多種模態、數據集、安全措施和評估方法，豐富OLMo家族。他們希望通過今后持續進行的徹底開源工作，增強開源研究社區的力量，并引發新一輪的創新浪潮。團隊介紹

**

Yizhong Wang（王義中）

Yizhong Wang是華盛頓大學Paul G. Allen計算機科學與工程學院的博士生，導師是Hannaneh Hajishirzi和Noah Smith。同時，也是艾倫人工智能研究所的兼職研究實習生。此前，他曾在Meta AI、微軟研究院和百度NLP進行實習。此前，他在北京大學獲得了碩士學位，在上海交通大學獲得了學士學位。他的研究方向是自然語言處理（Natural Language Processing）、機器學習（Machine Learning），以及大語言模型（LLM）。

LLM的適應性：如何更有效地構建和評估能夠跟隨指令的模型？在微調這些模型時，我們應該考慮哪些因素，它們又如何影響到模型的通用性？哪種類型的監督方式既有效又能擴展？
LLM的持續學習：預訓練和微調之間的界限在哪里？有哪些架構和學習策略能夠讓LLM在預訓練之后繼續進化？模型內部已有的知識如何與新學的知識相互作用？
大規模合成數據的應用：在生成模型迅速產生數據的今天，這些數據對我們的模型開發乃至整個互聯網和社會有何影響？我們如何確保能夠在大規模下生成多樣且高質量的數據？我們能否區分這些數據與人類生成的數據？

Yuling Gu

Yuling Gu是艾倫人工智能研究所（AI2）Aristo團隊的一位研究員。 2020年，她在紐約大學（NYU）獲得學士學位。除了主修的計算機科學外，她還輔修了一個跨學科專業——語言與心智，這個專業結合了語言學、心理學和哲學。隨后，她在華盛頓大學（UW）獲得了碩士學位。她對機器學習的技術和認知科學的理論的融合應用充滿了熱情。參考資料：

付費5元查看完整內容

相關內容

大模型

關注 0

大模型是基于海量多源數據打造的預訓練模型，是對原有算法模型的技術升級和產品迭代，用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習，以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

多模態預訓練 · 文本到圖像生成 · 預訓練模型 ·

2021 年 3 月 3 日

[付費5元查看完整內容]千億參數！阿里清華聯合推理史上最大中文多模態預訓練器M6！

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

3月2日，阿里巴巴與清華大學聯合發布業界最大的中文多模態預訓練AI模型M6，該模型參數規模超千億，同時具備文本、圖像的理解和生成能力，圖像設計效率超越人類，可應用于產品設計、信息檢索、機器人對話、文學創作等領域。

預訓練語言模型是讓AI具備認知能力的關鍵技術，它突破了傳統深度學習方法的瓶頸，是一種新型AI訓練思路，即首先自動學習大量語言文字和圖像數據，記憶和理解人類豐富的先驗知識，再進一步學習專業領域信息，從而讓AI同時掌握常識和專業知識。目前，谷歌、微軟和 Facebook等企業已投入該技術的研發。

此次發布的M6模型參數規模達到1000億，是多模態預訓練領域史上最大的模型，其理解和生成能力超越傳統AI。以圖像生成為例，模型可設計包括服飾、鞋類、家具、首飾、書籍等在內的30多個物品類別的圖像，最短一分鐘即可完成作品的創作，效率超越普通設計師。

M6的突破源自多項底層技術創新。阿里巴巴研究團隊基于自研Whale分布式框架，將參數規模擴展到千億的同時，利用大規模數據并行和模型并行，訓練速度提升10倍以上，僅需1-2天即可完成上億數據的預訓練。此外，M6模型首次將多模態預訓練模型應用到基于文本的圖像生成任務，結合向量量化生成對抗網絡學習文本與圖像編碼共同建模的任務，能夠生成清晰度高且細節豐富的圖像。

阿里巴巴達摩院智能計算實驗室資深算法專家楊紅霞表示：“多模態預訓練是下一代人工智能的基礎，M6模型實現了訓練效率和生成精度等多項突破，是當前眾多中文多模態下游任務最優模型。”

作為國內最早投入認知智能研究的科技公司之一，阿里巴巴已有30多項認知智能領域研究成果被國際頂級會議收錄；研究團隊還將研發更高規模的萬億參數多模態預訓練模型，進一步突破算力及預訓練模型的極限，最終實現通用領域的高質量泛內容生成。

論文內容

M6: A Chinese Multimodal Pretrainer

Authors: Junyang Lin, Rui Men, An Yang, Chang Zhou, Ming Ding, Yichang Zhang, Peng Wang, Ang Wang, Le Jiang, Xianyan Jia, Jie Zhang, Jianwei Zhang, Xu Zou, Zhikang Li, Xiaodong Deng, Jie Liu, Jinbao Xue, Huiling Zhou, Jianxin Ma, Jin Yu, Yong Li, Wei Lin, Jingren Zhou, Jie Tang, Hongxia Yang

摘要：

在這項工作中，我們構建了最大的中文多模態預訓練數據集，包含超過1.9TB的圖像和292GB的文本，涵蓋了廣泛的領域。

我們提出了一種跨模態預訓練方法，稱為M6，Multi-Modality to MultiModality Multitask Mega-transformer，對單模態和多模態數據進行統一的預訓練。

我們將模型規模擴大到100億和1000億參數，并建立了最大的中文預訓練模型。我們將該模型應用于一系列下游應用，并與強基線進行了比較，展示了其出色的性能。

在此基礎上，我們專門設計了下游的文本引導圖像生成任務，結果表明，經過微調的M6可以生成高分辨率、細節豐富的高質量圖像。

//arxiv.org/pdf/2103.00823.pdf

引言

預訓練已經成為自然語言處理(natural language processing, NLP)研究的一個熱點[1,2,7,15,17,18,25,29,35,42,47]。最近的GPT-3具有超過175B的參數，這表明利用大數據訓練的大模型具有非常大的容量，在下游任務中，特別是在零樣本的情況下，它的性能超過了最先進的水平。同時，預訓練在自然語言處理中的迅速發展也促進了跨模態預訓練的發展。許多研究[4,10,16,20,22,23,26,27,36,49]為各種跨模態下游任務創造了最新的性能。

遺憾的是，最近的研究大多集中在英語數據的預訓練上。目前既缺乏大規模的中文數據集，也缺乏基于中文數據的大規模預訓練模型。因此，在本研究中，我們開發了一個由1.9TB以上的圖像和292GB文本組成的大規模數據集M6-語料庫。據我們所知，這是中國最大的多模態和自然語言預訓練數據集。從網頁上收集的數據集由不同類型的數據組成，涵蓋了大量的領域，包括百科全書、問答、論壇討論、產品描述等。同時，我們設計了復雜的清洗程序，以確保數據的高質量。

此外，為了充分利用海量高質量數據，我們建立一個能夠處理多種模態數據的超大模型，以適應不同類型的下游任務。因此，我們提出了一種名為M6的新型模型，即MultiModality-to-MultiModality Multitask Mega-transformer。該模型以transformer為基礎，并對其進行了多任務的預訓練。預訓練使模型具有單模態和多模態的理解和生成能力。基于M6的架構，我們構建了M6-10B和M6-100B，分別放大到100億和1000億參數。更具體地說，M6-100B是根據中文數據預先訓練的最近最大的模型。我們將該模型應用于產品描述生成、視覺問答、社區問答、中文詩歌生成等一系列下游應用，實驗結果表明，M6優于一系列強基線。

這項工作的另一個貢獻是，我們首先將預訓練與文本-圖像生成結合起來。繼Ramesh等人的[30]之后，我們利用了一個兩階段的框架來生成圖像。具體來說，我們使用經過訓練的矢量量化生成對抗網絡用離散圖像編碼來表示圖像，然后使用經過訓練的M6來學習文本和編碼之間的關系。這樣的學習可以連接這兩種形式，可以實現可控的文本-圖像生成。綜上所述，M6的貢獻如下:

我們收集并構建了業界最大的中文多模態預訓練數據，包括300GB文本和2TB圖像。
我們提出用M6進行中文的多模態預訓練，我們將模型規模擴大到100億和1000億參數。M6-10B和M6-100B都是最近最大的多模態預訓練模型。
M6是通用的，在VQA中超過11.8%，在圖像-文本匹配中超過10.3%。此外，M6能夠生成高質量的圖像。
通過精心設計的大規模分布式訓練優化，M6在訓練速度上具有明顯優勢，大大降低了訓練成本，為多模態預訓練的更廣泛應用創造了可能。

付費5元查看完整內容

分布式深度學習 ·

2020 年 6 月 8 日

[付費5元查看完整內容]【硬核課】分布式深度學習，93頁ppt概述最新DDL技術發展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】深度學習與計算系統結合是現在業界發展的趨勢。Logical Clocks的CEO Jim Dowling講述了分布式深度學習最新技術發展，以及其Hosworks開源平臺。

人工智能的需求在過去十年中顯著增長，很大程度是深度學習的進步。這種增長是由深度(機器)學習技術的進步和利用硬件加速的能力推動的。然而，為了提高預測的質量和使機器學習解決方案在更復雜的應用中可行，需要大量的訓練數據。盡管小型機器學習模型可以用適量的數據進行訓練，但用于訓練較大模型(如神經網絡)的輸入隨著參數的數量呈指數增長。由于對處理訓練數據的需求已經超過了計算機器計算能力的增長，因此需要將機器學習工作量分散到多臺機器上，并將集中式系統轉變為分布式系統。這些分布式系統提出了新的挑戰，首先是訓練過程的有效并行化和一致模型的創建。

分布式深度學習有很多好處——使用更多的GPU更快地訓練模型，在許多GPU上并行超參數調優，并行消融研究以幫助理解深度神經網絡的行為和性能。隨著Spark 3.0的出現，GPU開始轉向執行器，使用PySpark的分布式深度學習現在成為可能。然而，PySpark給迭代模型開發帶來了挑戰——從開發機器(筆記本電腦)開始，然后重新編寫它們以運行在基于集群的環境中。

本講座概述了分布式深度學習的技術，并提供了可用系統的概述，從而對該領域當前的最新技術進行了廣泛的概述。

Jim Dowling是 Logical Clocks公司的首席執行官，也是KTH皇家理工學院的副教授。他是開源的Hopsworks平臺的首席架構師，這是一個橫向可擴展的機器學習數據平臺。

//www.slideshare.net/dowlingjim/invited-lecture-on-gpus-and-distributed-deep-learning-at-uppsala-university

付費5元查看完整內容

可信賴人工智能 (Trustworthy AI) ·

2020 年 4 月 16 日

[付費5元查看完整內容]【重磅】邁向可信賴的人工智能，59位作者，80頁pdf闡述Trustworthy AI可驗證聲明的支持機制

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】人工智能正在影響我們的方方面面。如何與AI和諧相處，成為可信協作伙伴，是個要思考的問題。近日59位世界級學者共同撰寫一份構建可信賴人工智能的論文《邁向可信賴的人工智能：可驗證聲明的支持機制》，詳細闡述了Trustworthy AI涵蓋的機制，是相關從業者不可少的借鑒資料。

本文中文翻譯的通訊作者是謝旻希(Brian Tse)。在翻譯過程中，我們得到了肖文泉(Jenny W. Xiao)的寶貴幫助

人工智能技術的新發展使其在商業、科學與其他創新領域得到了廣泛的應用。隨著此波應用浪潮的涌現，人們越來越意識到人工智能系統所帶來的風險，并認識到現有法律與業界、學界規范仍不足以保證人工智能的可靠研發[1] [2][3]。

機器學習領域的研發人員和科技公司已經采取了一些措施來彌補這些規范不足，其舉措包括廣泛采用人工智能行業認可的道德準則。然而，道德準則缺乏法律約束力，也往往難以轉化為實際行動。而且，外界人員很難評估人工智能開發者到底有是否表里如一，也沒有辦法讓他們在違反道德原則的時候承擔責任。這就導致了很多人譴責人工智能開發者在談論道德問題時口惠而實不至[4]。人工智能開發者要想贏得系統用戶、客戶、政府、社會和其他利益相關方的信任，就不應該只談原則，而要集中精力建立合理的機制來保證行為的負責性[5] 。作出可檢驗、能追責的承諾是朝這個方向邁出的重要一步。

如果能提供精準的聲明和充足的證據，人工智能開發人員就能更好地向監管機構、公眾和其他開發者證明其行為的負責。如果有關人工智能開發的聲明更容易被驗證，就能實現更有效的政府監管并且減少開發者為獲得競爭優勢而偷工減料的壓力[1]。相反地，如果沒有能力驗證開發人員的聲明，用戶或其他利益相關方就更有可能因模棱兩可、有誤導性或虛假的說法而利益受損。

本報告提出了諸多建議，意在使不同利益相關方能夠更容易地檢驗人工智能開發者的對外聲明，特別是有關其安全性、安保性、公平性和隱私性的聲明。保證可信任的人工智能發展是一個多方面的問題，我們認為，執行這些機制有助于促進該目標的達成。[1]本報告中提出的機制可以幫助我們處理不同利益相關方可能面對的問題：

作為用戶，我能否在使用新的人工智能系統機器翻譯敏感文件時，檢驗其對隱私保護級別聲明的真實性？
作為監管者，我能否追蹤無人駕駛汽車導致事故的過程，并且知道用哪種標準來評判汽車公司的安全聲明？
作為學者，我能否在缺乏業界計算資源的條件下，對大型人工智能系統所帶來的影響進行客觀的研究？
作為人工智能研發者，我能否確信我在某一領域的競爭對手遵循最佳實踐，而不是偷工減料以獲得競爭優勢？

即使人工智能開發者有意愿或者需求使自己的產品聲明具體而可驗證，他們也可能缺乏達成這一目標的相關機制。人工智能開發社群需要一系列有效的機制，為檢驗人工智能系統和開發過程的聲明提供支持。

從這個角度出發，本報告的作者于2019年4月舉行了一次研討會，旨在構思促進研發者提出聲明、驗證聲明的機制。[1]本報告以該研討會上的討論成果為基礎，提出的機制主要致力于達成以下兩個目標：

增加溝通渠道，便利人工智能開發者對外驗證有關其系統屬性的聲明。
加強應對能力，使利益相關方（如用戶、政府決策者和更廣大的社會)能夠對人工智能開發者提出特殊而多樣的要求。

針對妨礙人工智能聲明有效評估的具體問題，本報告提出了一一對應的一系列機制和建議。其中部分機制已經存在，但仍需完善，而另一部分則是前所未有的。本報告旨在為進一步增強人工智能研發聲明的可驗證性作出貢獻。

該報告提出的機制作用于制度、軟件和硬件三個層面。制度、軟件和硬件也是人工智能系統和開發過程中相互重疊、相互影響的三大關鍵要素。

體制機制：這些機制改變或闡明開發者面臨的激勵機制，并且增強其行為的能見度，以保證其研發的系統具有安全性、可靠性、公平性和隱私保護。體制機制是有效驗證人工智能研發聲明的基礎，因為人類和人類行為將終決定人工智能的發展方向。本報告在討論中提出，可以利用第三方審核來替代自我評估聲明；利用紅隊測試練習（red teaming exercises)以增強開發人員的防范意識，減少系統被誤用或襲擊的可能性；利用誤差和安全隱患偵查激勵制度 (bias and safety bounties) 以建立激勵機制，促進對人工智能系統缺陷的及時發現、及時報告；以及加強人工智能安全事故信息共享，以增進社會對人工智能系統的認識，理解到人工智能可能帶來意外或非理想的后果。
軟件機制：這些機制讓人工智能系統的屬性更易于理解和監督。具體措施包括審計跟蹤 (audit trails)，通過收集有關開發和部署過程的關鍵信息來強化高利害人工智能系統的問責制；保證可解釋性以增進對人工智能系統特征的理解和審查；以及隱私保護的機器學習 (privacy-preserving machine learning)，使開發人員對隱私保護的承諾更有魯棒性。
硬件機制：與計算硬件有關的機制可以在多方面發揮關鍵作用，包括證實有關隱私和安全性的聲明、提高組織如何使用資源的透明度、以及影響誰具有驗證不同聲明所必需的資源。探討的機制包括機器學習的硬件安全設施以提高隱私和安全性聲明的可驗證性；高精度計算資源的測量，以提高關于計算能力使用的聲明的價值和可比性；以及為學術界提供計算資源支持，以提高業界以外人士評估有關大型人工智能系統的聲明的能力。

每種機制都提供額外的途徑來檢驗開發者的承諾，有潛力為建立可信賴的人工智能生態作出貢獻。下一頁和報告末尾詳細地列舉了不同機制的相關建議，并且包含完整的列表。

建議

制度機制和建議

一個利益相關方的聯盟應組建工作小組，研究如何建立第三方人工智能審計機制并為該機制提供資源。
人工智能研發機構應該參與紅隊測試 (red-teaming)的練習，從而發現系統潛在的風險，并分享相關的最佳實踐和應對問題的工具。
人工智能開發者應試行誤差和安全隱患偵查激勵制度 (bias and safety bounties)，以建立廣泛監督人工智能系統的激勵機制和標準流程。
人工智能開發者應該通過不同的合作渠道，分享更多人工智能事故的信息。

軟件機制和建議

標準制定機構應該和學界、業界合作，要求對安全攸關的人工智能系統實行審計跟蹤 (audit trails) 。
人工智能研發和資助機構應該支持人工智能系統的可解釋性研究，并將重點放在風險評估和監察上。
人工智能開發者應開發、共享并使用隱私保護的機器學習 (privacy-preserving machine learning)的工具與指南，并且其中必須包括衡量性能的標準。

硬件機制和建議