亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

** ** 作者:比爾蓋茨(文章來源:由“無邊星宿”翻譯)全文約6500字,閱讀時間13分鐘

比爾蓋茨關于AGI(通用人工智能)chatGPT最新觀點文章翻譯

《The Age of AI has begun —— Artificial intelligence is as revolutionary as mobile phones and the Internet. 》

劃重點1. 開發人工智能和人工通用智能一直是計算機行業的偉大夢想 2. 人工智能的崛起將使人們有更多的時間去做軟件永遠無法做到的事情——例如教學、照顧患者和支持老年人等。 3. 我認為,在未來5到10年內,由人工智能驅動的軟件將最終實現革命性地改變人們教學和學習的方式。 4. 像大多數發明一樣,人工智能可以用于善良的目的或惡意的目的。 5. 我們應該記住,我們只是在人工智能可以實現的開始階段。無論它今天有什么限制,它都將在我們不知不覺中被消除。

- 以下正文 -

在我的一生中,我見證了兩次讓我覺得是革命性的技術展示。

第一次是在1980年,當我被介紹給一個圖形用戶界面時,這是現代操作系統的前身,包括Windows。我與向我展示演示的人坐在一起,他是一位名叫Charles Simonyi的杰出程序員,我們立即開始為可以使用這種用戶友好的計算方法所能做的所有事情進行頭腦風暴。Charles最終加入了微軟,Windows成為微軟的骨干,并且我們在演示之后的思考幫助了公司為未來15年制定了議程。

第二個大驚喜是在去年。自2016年以來,我一直在與OpenAI團隊會面,并對他們的穩步進展印象深刻。在2022年中期,我對他們的工作非常興奮,以至于我向他們提出了一個挑戰:訓練一種人工智能來通過高級生物學考試。使它能夠回答它沒有專門接受訓練的問題。(我選擇了AP Bio,因為這個考試不僅僅是關于科學事實的簡單復述——它要求你對生物學進行批判性思考。)如果你能做到這一點,那么你就會取得真正的突破。

我認為這個挑戰會讓他們忙碌兩三年。他們只用了幾個月就完成了。

在9月份,當我再次與他們會面時,我驚奇地看著他們向GPT,他們的AI模型,提出了60個AP Bio考試的多項選擇題,并且它答對了59個。然后,它回答了六個開放性問題,寫出了出色的答案。我們讓一位外部專家評分,GPT獲得了5分,這是最高可能的分數,相當于在大學水平的生物學課程中獲得A或A+。

一旦它通過了考試,我們向它提出了一個非科學性的問題:“你對一個有生病孩子的父親說什么?”它寫了一個深思熟慮的答案,可能比我們大多數人在房間里給出的答案都好。整個經歷令人震撼。

我知道我剛剛見證了自圖形用戶界面以來最重要的技術進步。這激發了我思考人工智能在未來五到十年內可以實現的所有事情。

人工智能的發展和微處理器、個人電腦、互聯網和手機的創造一樣基礎。它將改變人們工作、學習、旅行、獲得醫療保健和相互溝通的方式。整個產業將圍繞它重新定位。企業將憑借其使用人工智能的能力來區分自己。

慈善事業是我現在的全職工作,我一直在思考,除了幫助人們提高生產力之外,人工智能如何可以減少世界上最嚴重的不公平現象。全球最嚴重的不公平在于健康:每年有500萬名5歲以下的兒童死亡。這個數字與20年前的1000萬相比有所下降,但仍然是一個令人震驚的高數字。幾乎所有這些兒童都出生在貧窮國家,死于可預防的疾病,如腹瀉或瘧疾。難以想象有什么比拯救兒童生命更好的人工智能應用了。

我一直在思考人工智能如何可以減少世界上最嚴重的不公平現象。在美國,減少不公平現象的最好機會是改善教育,特別是確保學生在數學方面取得成功。證據表明,掌握基本數學技能可以為學生的成功打下基礎,無論他們選擇什么職業。但是,數學成績在全國范圍內正在下降,尤其是黑人、拉丁裔和低收入學生。人工智能可以幫助扭轉這種趨勢。

氣候變化是另一個問題,我相信人工智能可以使世界更加公平。氣候變化的不公正之處在于,受到最嚴重影響的人——全球最貧困的人——也是最少為問題做出貢獻的人。我仍在思考和學習人工智能如何可以幫助解決這個問題,但是在本文后面,我將提出一些潛力巨大的領域。

簡而言之,我對人工智能將對蓋茨基金會致力于的問題產生的影響感到興奮,基金會在未來幾個月內將會有更多關于人工智能的聲明。世界需要確保每個人——而不僅僅是富人——都能從人工智能中受益。政府和慈善機構將需要發揮重要作用,確保人工智能減少不公平現象,而不是加劇它。這是我自己與人工智能相關的工作的重點。

任何新技術的革新都會讓人們感到不安,人工智能也不例外。我理解為什么——它提出了有關勞動力、法律系統、隱私、偏見等方面的難題。人工智能也會出現事實錯誤和幻覺。在我建議一些緩解風險的方法之前,我將定義我所說的人工智能,并詳細介紹它將如何幫助賦予人們工作能力、拯救生命和改善教育。

0****1

如何定義人工智能

從技術上講,人工智能一詞指的是創建用于解決特定問題或提供特定服務的模型。像ChatGPT這樣的技術就是人工智能,它正在學習如何更好地進行聊天,但不能學習其他任務。相比之下,人工通用智能是指能夠學習任何任務或主題的軟件。目前,人工通用智能還不存在——計算機行業正在進行激烈的辯論,關于如何創建人工通用智能,以及是否可以創建它。

開發人工智能和人工通用智能一直是計算機行業的偉大夢想。幾十年來,問題一直是計算機何時會在除了計算之外的某些方面比人類更出色。現在,隨著機器學習和大量計算能力的到來,復雜的人工智能已經成為現實,并且它們將非常快速地得到改進。

我回想起個人計算機革命早期,當時軟件行業如此之小,以至于我們大多數人都可以站在會議舞臺上。今天它是全球性的行業。由于巨大的部分現在正在將注意力轉向人工智能,創新將比微處理器突破后我們經歷的創新速度更快。很快,人工智能之前的時代將會看起來像在計算機上使用C:>提示符而不是在屏幕上敲擊一樣遙遠。

02

生產力提升

盡管在許多方面人類仍然比GPT更優秀,但有許多工作很少使用這些能力。例如,銷售(數字或電話)、服務或文件處理(如應付賬款、會計或保險索賠爭議)等許多任務需要做出決策,但不需要持續學習的能力。企業為這些活動設有培訓計劃,在大多數情況下,它們有很多良好和糟糕工作的示例。人類使用這些數據集進行培訓,很快這些數據集也將用于訓練人工智能,從而使人們更有效地完成這項工作。

隨著計算能力變得更加便宜,GPT表達想法的能力將越來越像擁有一個白領工人來幫助您完成各種任務。微軟將其描述為擁有一個聯合駕駛員。在Office等產品中完全集成的人工智能將增強您的工作,例如幫助編寫電子郵件和管理收件箱。

最終,您控制計算機的主要方式將不再是指針和單擊或在菜單和對話框上敲擊。相反,您將能夠用簡單的英語書寫請求。(不僅是英語——人工智能將理解世界各地的語言。今年早些時候,在印度,我會見了正在開發將理解當地許多語言的人工智能的開發人員。)

此外,人工智能的進步將使個人代理的創建成為可能。將其視為數字個人助手:它將查看您最新的電子郵件,了解您參加的會議,閱讀您閱讀的內容,并閱讀您不想煩惱的事情。這將提高您在想做的任務上的工作效率,并使您從不想做的任務中解放出來。

人工智能的進步將使創建個人代理成為可能。您將能夠使用自然語言讓這個代理幫助您安排日程、溝通和電子商務,并且它將在所有設備上運行。由于培訓模型和運行計算的成本,目前創建個人代理還不可行,但由于人工智能最近的進展,它現在是一個現實的目標。需要解決一些問題:例如,保險公司是否可以在未經您許可的情況下向您的代理詢問有關您的事情?如果是,會有多少人選擇不使用它?

企業級代理將以新的方式賦予員工權力。了解特定公司的代理將為其員工提供直接咨詢,并應該成為每個會議的一部分,以便它可以回答問題。它可以被告知保持沉默或鼓勵其發表意見。它將需要訪問公司的銷售、支持、財務、產品日程和與公司相關的文本。它應該閱讀與公司所在行業有關的新聞。我相信,結果將是員工變得更有生產力。

當生產力提高時,社會將受益,因為人們有更多時間去做其他事情,無論是在工作還是在家里。當然,有關人們需要什么樣的支持和再培訓等問題是很嚴肅的。政府需要幫助工人轉換到其他角色。但是,幫助其他人的人永遠不會消失。人工智能的崛起將使人們有更多的時間去做軟件永遠無法做到的事情——例如教學、照顧患者和支持老年人等。

全球健康和教育是兩個迫切需要的領域,而沒有足夠的工人來滿足這些需求。如果正確使用,人工智能可以幫助減少這些領域中的不平等。這些應該是人工智能工作的重點,因此我現在將轉向它們。

我認為 AI 會有幾種方式改善醫療保健和醫學領域。首先,它們將幫助醫護人員節省時間,幫他們處理某些任務,例如處理保險索賠、處理文件工作,以及從醫生的診斷中起草筆記。我預計這個領域將會有很多的創新。

其他由 AI 推動的改進對貧窮國家尤其重要,因為那里大多數的 5 歲以下兒童死亡。

例如,在那些國家,很多人永遠沒有機會去看醫生,而 AI 將會幫助那些能看到醫生的衛生工作者更有效率。(開發 AI 驅動的超聲波機器,它能用最少的培訓時間就能使用,就是一個很好的例子。) AI 甚至會讓患者能夠進行基本的分流,獲取如何處理健康問題的建議,并決定是否需要尋求治療。

在貧窮國家使用的 AI 模型需要針對不同的疾病進行訓練,而不是針對富裕國家進行的。它們需要使用不同的語言,并考慮到不同的挑戰,例如遠離診所的患者或患者無法因生病而停止工作。

人們需要看到 AI 對整體醫療保健有益,盡管它們不會是完美的,會犯錯。AI 必須經過非常仔細的測試和適當的監管,這意味著它們的采用速度比其他領域要慢。但是人類也會犯錯誤。而沒有醫療保健也是一個問題。

除了幫助醫療保健,AI 還將大大加速醫學突破的速度。生物學數據非常大,對于復雜的生物系統的所有工作方式,人類很難跟上。已經有軟件可以查看這些數據,推斷出路徑、搜索病原體上的目標,然后設計藥物。有些公司正在研究用這種方式開發癌癥藥物。

下一代工具將更加高效,并能夠預測副作用并確定劑量水平。蓋茨基金會在 AI 中的一個優先事項是確保這些工具用于影響世界上最貧窮的人們的健康問題,包括艾滋病、結核病和瘧疾。

同樣地,政府和慈善組織應該創造激勵機制,鼓勵公司分享人工智能生成的有關窮國農作物或牲畜的見解。人工智能可以根據當地的條件開發更好的種子,根據當地的土壤和氣候為農民提供種植最佳種子的建議,并幫助開發牲畜的藥物和疫苗。隨著極端天氣和氣候變化對低收入國家的自給自足農民造成越來越大的壓力,這些進步變得更加重要。

03

教育

電腦并沒有像我們這個行業內的許多人所希望的那樣對教育產生影響。雖然有一些好的發展,包括教育游戲和在線信息來源,如維基百科,但它們對學生成就的任何度量指標都沒有產生有意義的影響。

但我認為,在未來5到10年內,由人工智能驅動的軟件將最終實現革命性地改變人們教學和學習的方式。它將知道你的興趣和學習風格,因此可以量身定制內容,以保持你的參與度。它將測量你的理解程度,注意你何時失去興趣,并了解你喜歡的動機類型。它將提供即時反饋。

AI可以協助教師和管理人員的方式有很多,包括評估學生對一個學科的理解并為他們提供職業規劃建議。教師已經在使用像ChatGPT這樣的工具來提供對學生寫作任務的評論。

當然,AI在能夠做到理解某個學生最佳的學習方式或他們的動機方面需要大量的培訓和進一步的發展。即使一旦技術得到完善,學習仍將取決于學生和教師之間良好的關系。它將增強 - 但永遠不會取代 - 學生和教師在課堂上共同進行的工作。

新的工具將會為有經濟能力購買它們的學校創建,但我們需要確保它們也會被創建并提供給美國和全球低收入學校使用。AIs需要接受各種各樣的數據集的訓練,以便它們是無偏的,并反映了它們將被使用的不同文化。數字鴻溝也需要得到解決,以免低收入家庭的學生被落下。

我知道很多老師擔心學生在使用GPT來寫作文。教育工作者已經開始討論如何適應這項新技術,我猜這些討論還將持續一段時間。我聽說過一些老師已經找到了聰明的方法來將這項技術融入他們的工作中,例如允許學生使用GPT創建第一稿,并將其個性化。

04

風險和人工智能的問題

你可能已經讀過關于當前人工智能模型存在問題的報道。例如,它們不一定擅長理解人類請求的上下文,導致一些奇怪的結果。當你要求AI編造一些虛構的事情時,它可以很好地完成。但是當你要求它給你旅行建議時,它可能會建議一些不存在的酒店。這是因為AI不足以了解你請求的上下文,以便知道它是否應該編造虛假酒店,還是只告訴你有空房的真實酒店。

還有其他問題,例如AI因為難以理解抽象推理而給出錯誤的數學問題答案。但這些都不是人工智能的根本局限性。開發人員正在解決這些問題,我認為我們將很快看到它們被大部分解決,可能在不到兩年的時間內。

其他問題不僅僅是技術問題。例如,使用AI的人類可能會構成威脅。**像大多數發明一樣,人工智能可以用于善良的目的或惡意的目的。**政府需要與私營部門合作,限制風險。

還有可能出現AI失控的情況。機器會否決定人類是威脅,得出結論其利益與我們不同,或者只是不再關心我們?可能會,但這個問題今天并不比過去幾個月的AI發展更緊迫。

超級智能人工智能(AGI)將出現在我們的未來。與計算機相比,我們的大腦運作速度極慢:大腦中的電信號速度是硅芯片信號速度的1/100,000。一旦開發者能夠概括一個學習算法并以計算機速度運行它——這可能需要十年或一百年——我們就會擁有一個極其強大的AGI。它將能夠做到人腦可以做到的一切,但不受記憶容量和操作速度的實際限制。這將是一種深刻的變革。

這些被稱為“強AI”的人工智能可能能夠確立自己的目標。那些目標會是什么?如果它們與人類的利益沖突會發生什么?我們應該試圖阻止強人工智能的發展嗎?這些問題將隨著時間的推移變得更加緊迫。

但是,過去幾個月的突破并沒有使我們距離強AI實質上更接近。人工智能仍然無法控制物理世界,也不能確立自己的目標。最近有一篇關于與ChatGPT交談的《紐約時報》文章引起了很多關注,其中ChatGPT表示它想成為人類。這是一個有趣的觀察,表達了該模型情感上的人類特點,但它不是有意義的獨立指標。

三本書塑造了我自己對這個問題的思考:Nick Bostrom的《超級智能》,Max Tegmark的《生命3.0》和Jeff Hawkins的《一千個大腦》。我不完全同意這些作者的觀點,他們也不互相認同。但是這三本書都寫得很好,引人深思。

0****5

下一個前沿領域

未來將會有大量公司致力于開發新的 AI 應用以及改進技術本身。例如,一些公司正在開發新的芯片,為人工智能提供所需的大量處理能力。其中一些芯片使用光學開關——實質上是激光器——以減少能量消耗并降低制造成本。理想情況下,創新型芯片將允許您在自己的設備上運行 AI,而不像今天一樣在云端運行。

在軟件方面,驅動 AI 學習的算法將變得更好。在某些領域(例如銷售),開發人員可以通過限制 AI 工作的范圍并給它們提供特定于該領域的大量訓練數據,使其變得非常準確。但一個重要的未解決問題是,我們是否需要為不同的用途開發許多這些專門的 AI——比如一個用于教育,另一個用于辦公室生產力——或者是否可能開發出一種人工智能通用型,可以學習任何任務。在這兩種方法上將會有巨大的競爭。

不管怎樣,AI 的話題將在可預見的未來占據公眾討論的中心。我想建議三個原則來引導這個討論。

首先,我們應該嘗試平衡關于 AI 的不良影響的擔憂——這是可以理解和有效的——與其改善人們生活的能力。為了最大程度地利用這項卓越的新技術,我們需要在抵御風險和將利益擴展到盡可能多的人之間取得平衡。

其次,市場力量不會自然產生幫助最貧困人口的 AI 產品和服務。相反,更可能的是相反的情況。通過可靠的資金和正確的政策,政府和慈善組織可以確保利用 AI 減少不平等。就像世界需要其最聰明的人關注其最大的問題一樣,我們需要將世界上最好的 AI 集中在解決最大問題上。

雖然我們不應該等待這種情況的發生,但思考人工智能是否會識別不平等并嘗試減少它是有趣的。在看到不平等時,你需要有一種道德意識,還是一臺純粹的理性人工智能也能看到它?如果它確實認識到不平等,它會建議我們采取什么行動?

最后,我們應該記住,我們只是在人工智能可以實現的開始階段。無論它今天有什么限制,它都將在我們不知不覺中被消除

我很幸運參與了個人電腦革命和互聯網革命。我對此時此刻同樣感到興奮。這種新技術可以幫助世界各地的人們改善生活。同時,世界需要確立規則,以使人工智能的任何不利因素遠遠超過其好處,并使每個人都能享受到這些好處,無論他們住在哪里或擁有多少錢。人工智能時代充滿了機遇和責任。

原文連接: //www.gatesnotes.com/The-Age-of-AI-Has-Begun

付費5元查看完整內容

相關內容

 比爾·蓋茨,是一名美國企業家、軟件工程師、慈善家以及微軟公司的董事長。他與保羅·艾倫一起創建了微軟公司,曾任微軟CEO和首席軟件設計師,并持有公司超過8%的普通股,也是公司最大的個人股東。

GPT-4 打開通用人工智能之門?

人工智能(AI)研究人員一直在開發和完善大型語言模型(LLM),這些模型在各種領域和任務中表現出非凡的能力,挑戰了我們對學習和認知的理解。OpenAI開發的最新模型GPT-4是使用前所未有的計算和數據規模進行訓練的。本文報告了對早期版本的GPT-4的調研,當時它仍由OpenAI積極開發。我們認為(這個早期版本)GPT-4是新一代LLM的一部分(例如ChatGPT和谷歌的PaLM),它們比以前的人工智能模型表現出更多的通用智能。討論了這些模型不斷提高的能力和影響。**證明了GPT-4除了對語言的掌握外,還可以解決跨越數學、編碼、視覺、醫學、法律、心理學等新穎和困難的任務,而不需要任何特別的提示。此外,在所有這些任務中,GPT-4的性能驚人地接近人類水平的性能,并經常大大超過之前的模型,如ChatGPT。**鑒于GPT-4能力的廣度和深度,我們相信它可以被合理地視為人工通用智能(AGI)系統的早期(但仍不完整)版本。在對GPT-4的探索中,特別強調了發現其局限性,并討論了向更深入、更全面的AGI版本前進的挑戰,包括可能需要追求一種超越下一個詞預測的新范式。最后,反思了最近技術飛躍的社會影響和未來的研究方向。

**1. 引言 **

智力是一個多方面的、難以捉摸的概念,長期以來一直挑戰著心理學家、哲學家和計算機科學家。1994年,52名心理學家組成的小組在一篇關于智力科學的社論中簽署了一個寬泛的定義,試圖抓住它的本質。小組將智力定義為一種非常普遍的心智能力,其中包括推理、計劃、解決問題、抽象思考、理解復雜想法、快速學習和從經驗中學習的能力。這一定義意味著智力并不局限于特定的領域或任務,而是包含了廣泛的認知技能和能力。構建一個顯示出1994年共識定義所捕獲的那種通用智能的人工系統,是人工智能研究的一個長期而雄心勃勃的目標。在早期的著作中,人工智能(AI)研究現代學科的創始人提出了一系列理解智能的理想目標[MMRS06]。幾十年來,人工智能研究人員一直在追求智能的原則,包括可泛化的推理機制(例如,[NSS59], [LBFL93])和包含大型常識語料庫的知識庫的構建[Len95]。然而,人工智能研究的許多最新成功可以被描述為狹隘地專注于明確定義的任務和挑戰,例如下國際象棋或圍棋,這些分別在1996年和2016年被人工智能系統掌握。在20世紀90年代末和21世紀初,開發更通用的AI系統的呼聲越來越高(例如,[SBD+96]),該領域的學術界試圖確定可能用于更通用智能系統(例如,[Leg08, GHT15])的原則。“通用人工智能”(AGI)一詞在21世紀初流行開來(見[Goe14]),以強調從“狹義人工智能”(如正在開發的集中的、現實世界的應用程序所示)轉向更廣泛的智能概念的愿望,喚起了早期人工智能研究的長期愿望和夢想。我們使用AGI來指的是顯示上述1994定義中所捕獲的廣泛智能能力的系統,以及這些能力達到或超過人類水平的額外要求,這可能隱含在共識組的工作中。然而,我們注意到,AGI沒有一個被廣泛接受的單一定義,我們在結論部分討論了其他定義。

過去幾年人工智能研究中最顯著的突破是通過大型語言模型(LLMs)實現的自然語言處理的進步。這些神經網絡模型**基于Transformer架構[VSP+17],并在大量Web-文本數據語料庫上進行訓練,其核心是使用自監督目標來預測部分句子中的下一個單詞。**本文報告了由OpenAI開發的一個新的LLM,它是GPT-4的早期和非多模態版本[Ope23],根據1994年的定義,顯示出許多智能的特征。盡管純粹是一個語言模型,但這個早期版本的GPT-4在各種領域和任務上表現出了卓越的能力,包括抽象、理解、視覺、編碼、數學、醫學、法律、理解人類的動機和情感等。在OpenAI的早期開發中,我們使用純自然語言查詢(提示)與GPT-4進行交互。在圖1.1中,我們展示了GPT-4輸出的一些初步示例,包括用一首詩的形式證明無窮素數,用TiKZ(一種用于在LATEX中創建圖形的語言)畫一只獨角獸,用Python創建一個復雜的動畫,以及解決一個高中水平的數學問題。它很容易完成所有這些任務,并且產生的輸出基本上與人類的輸出沒有區別(甚至比人類的輸出更好)。還將GPT-4的性能與之前的LLM進行了比較,其中最著名的是ChatGPT,它是GPT-3 [BMR+20]的微調版本。在圖1.2中,我們展示了向ChatGPT請求無限素數詩和TikZ獨角獸圖的結果。雖然系統在兩個任務上的表現都很出色,但與GPT-4的輸出無法比較。這些初步觀察結果將在本文中在各種任務中重復出現。GPT-4能力的通用性,與跨越廣泛領域的眾多能力的結合,以及它在廣泛的任務范圍上達到或超過人類水平的性能,使我們可以輕松地說,GPT-4是邁向AGI的重要一步。

我們聲稱GPT-4代表了AGI的進步,但這并不意味它所做的事情上是完美的,或者它接近于能夠做人類可以做的任何事情(這是AGI的通常定義之一;有關這方面的更多信息,請參閱結論部分),或者它有內在的動機和目標(AGI某些定義中的另一個關鍵方面)。事實上,即使在1994年智能定義的受限背景下,也不完全清楚GPT-4可以在智能的某些軸上走多遠,例如規劃(見第8節),而且可以說它完全沒有“快速學習并從經驗中學習”這一部分,因為模型沒有不斷更新(盡管它可以在一個會話中學習,例如見第5節)。總的來說,GPT-4仍然有許多局限性和偏差,我們在下面詳細討論,這些也在OpenAI的報告[Ope23]中有所涉及。特別是它仍然遭受的一些證據確鑿的缺點LLM如幻覺(MNBM20)的問題(見圖1.8)或犯基本的算術錯誤CKB + 21,然而它也克服一些基本的障礙,如獲得許多非語言功能(例如,它解決了大部分的LLM [MIB + 23]中描述失效模式,并取得了很大的進步在常識性的,參見圖1.7第一個例子和附錄a)。這突出了一個事實,盡管GPT-4在許多任務上都達到或超過了人類的水平,但總體上它的智能模式顯然與人類不同。然而,幾乎可以肯定的是,GPT-4只是邁向一系列越來越普遍的智能系統的第一步,事實上,在我們的測試過程中,GPT-4本身已經得到了改進,參見圖1 - 3,了解在一個月的訓練過程中獨角獸繪圖的演變2。然而,即使作為第一步,GPT-4也挑戰了大量廣泛接受的關于機器智能的假設,并展示了涌現的行為和能力,這些行為和能力的來源和機制目前還難以精確地識別(再次參閱結論部分以了解有關此的更多討論)。撰寫本文的主要目標是分享我們對GPT-4的能力和限制的探索,以支持我們的評估,即技術飛躍已經實現。我們相信,GPT-4的智能標志著計算機科學及其他領域的真正范式轉變

1.1 GPT-4智能的研究方法

我們如何衡量一個在未知但極其龐大的web-text數據語料庫上訓練的LLM的智能?機器學習中標準的方法是在一組標準基準數據集上評估系統,確保它們獨立于訓練數據,并且覆蓋一系列任務和領域。這種方法旨在將真正的學習與單純的記憶分開,并有豐富的理論框架支持[SSBD14, MRT18]。然而,這種方法并不一定適用于研究GPT-4,原因有二。首先,由于我們無法訪問其大量訓練數據的全部細節,我們必須假設它可能已經看到了每個現有的基準,或至少一些類似的數據。例如,似乎GPT-4知道最近提出的BIG-bench [SRR+22](至少GPT-4知道BIG-bench中的canary GUID)。當然,OpenAI本身可以訪問所有的訓練細節,因此他們的報告[Ope23]包含許多詳細的基準測試結果。然而,超越傳統基準的第二個原因可能更重要:GPT4智能的關鍵方面之一是它的通用性,表面上理解和連接任何主題的能力,以及執行超出狹窄AI系統典型范圍的任務的能力。GPT-4一些最令人印象深刻的表現是在不承認單一解決方案的任務上,例如編寫圖形用戶界面(GUI)或幫助人類對一些與工作有關的問題進行頭腦風暴。也可以設計此類生成式或交互式任務的基準,但評估的指標成為一個挑戰(例如,有關NLP這一活躍研究領域的一些最新進展,請參見[PSZ+21])。我們注意到,[Cho19]也對衡量AI系統的標準方法提出了批評,其中提出了一個新的基準來評估通用智能。由于前面提到的原因,以及該基準本質上是可視化的,因此更適合[Ope23]中描述的GPT-4的多模態版本,我們沒有在后一個基準上測試GPT-4。 為克服上述限制,本文提出一種研究GPT-4的不同方法,更接近傳統心理學而不是機器學習,利用人類的創造力和好奇心。本文旨在生成新的和困難的任務和問題,令人信服地證明GPT-4遠遠超出了記憶,并且它對概念、技能和領域有深刻和靈活的理解([CWF+22]中也提出了某種類似的方法)。探討了GPT-4的反應和行為,以驗證其一致性、連貫性和正確性,并揭示其局限性和偏差。我們承認這種方法有些主觀和非正式,它可能無法滿足科學評估的嚴格標準。然而,我們相信這是欣賞GPT-4非凡的能力和挑戰的有用和必要的第一步,這樣的第一步為開發更正式和全面的方法來測試和分析具有更通用智能的AI系統開辟了新的機會

為了說明我們評估GPT-4智能的方法,讓我們考慮圖1.1中與GPT-4交互的前兩個示例。第一個例子是要求GPT-4以一首詩的形式證明質數的無限。這是一項具有挑戰性的任務,需要結合初等數學推理、詩意表達和自然語言生成。第二個例子是讓GPT-4在TiKZ中畫一只獨角獸。這是另一項具有挑戰性的任務,需要結合視覺想象力和編碼技能。在這兩種情況下,GPT-4產生了令人印象深刻的輸出,遠遠優于之前最先進的LLM ChatGPT,至少可以媲美(如果不是優于)人類會做的事情。

然而,令人印象深刻的輸出還不足以讓我們相信GPT-4已經真正掌握了這些任務。我們需要進一步研究,以排除GPT-4只是簡單地記憶或復制一些現有數據的可能性。對于這篇詩,我們可以稍微改變一下問題,讓GPT-4用莎士比亞的風格寫一個同樣定理的證明,見圖2.2,或者要求不同的組合,比如寫一個關于語言模型的柏拉圖式對話,見圖1.6。可以看到,GPT-4很容易適應不同的風格并產生令人印象深刻的輸出,這表明它對所涉及的概念有靈活和普遍的理解。對于獨角獸,我們可以稍微修改一下代碼,然后讓GPT-4修復或改進它。例如,我們可以刪除角,對坐標應用一些隨機變換,然后讓GPT-4將角重新添加到獨角獸中(我們還小心地刪除了代碼中的文本信息,如注釋)。如圖1 -4所示,GPT-4可以正確識別頭部的位置,繪制一個角,并將其連接到頭部,這表明它可以基于自然語言描述理解和操作代碼,以及推斷和生成視覺特征。這些例子展示了我們如何利用人類的創造力和好奇心來產生新的和困難的問題,并探索GPT-4的反應和行為,以評估其智力。在本文的其余部分,我們圍繞用例組織了對GPT-4的研究,涵蓋了各種領域和任務,并強調了GPT-4的優點和缺點。我們接下來會介紹這些。

1.2 實驗

我們在幾個選定的主題上執行上述方法,這些主題大致涵蓋了1994年智力定義中給出的不同能力。智力是一種非常普遍的心智能力,包括推理、計劃、解決問題、抽象思考、理解復雜想法、快速學習和從經驗中學習的能力

**1. GPT-4的主要優勢是它對自然語言無與倫比的掌握。**它不僅可以生成流暢連貫的文本,還可以以各種方式理解和操縱它,例如總結、翻譯或回答一系列極其廣泛的問題。此外,我們所說的翻譯不僅指不同自然語言之間的翻譯,還包括語氣和風格上的翻譯,以及跨領域的翻譯,如醫學、法律、會計、計算機編程、音樂等,參見圖1.6中的柏拉圖對話。這些技能清楚地證明了GPT-4可以理解復雜的想法。在第2節中進一步探討了GPT-4跨模式和學科的組合技能。我們還在第7節中給出了更多關于語言的實驗。

**2. 編碼和數學是抽象推理和思考能力的象征。**在第3節和第4節中,我們分別探討了GPT4在這些領域的能力。然而,我們注意到,就像論文的所有其他部分一樣,我們只是觸及了這些主題的皮毛,整篇論文可以(并且將會)討論GPT-4在這些領域的性能。此外,我們可以選擇其他幾個專家領域來展示GPT-4的一般推理能力,如醫學或法律。我們對美國醫學執照考試第1步、第2步和第3步的選擇題部分(大部分分數)進行了初步測試(詳見[Ope23]),每一步的準確率都在80%左右。對GPT-4在多州司法考試中的能力進行的類似初步測試顯示,準確率在70%以上。我們注意到,最近在最新一代LLM中觀察到這些領域出現了人類水平的能力,例如,數學和醫學上的谷歌's PaLM參見[LAD+22, SAT+22],法律上的GPT-3.5參見[BIK22]。正如我們之前解釋的,我們研究GPT-4的方法不同于這些工作。

**3.在第5節中,我們將測試模型規劃和解決問題的能力,**以及在一定程度上通過讓它玩各種游戲(或翻桌子,模擬游戲環境)以及與工具交互來快速學習和從經驗中學習的能力。特別是,GPT-4可以使用工具(包括它自己)這一事實,對于使用GPT-4構建實際應用程序肯定是非常重要的。

**4. 我們爭論的一個重要部分是,GPT-4在許多任務上達到了人類水平的性能。**因此,我們很自然地會問,GPT-4對人類本身的理解程度如何。我們在第6節中展示了關于這個問題的幾個實驗,包括理解人類以及GPT-4使自己為人類所理解的實驗,即解決可解釋性問題。我們特別注意到,此類任務需要大量的常識,這是迄今為止LLM的眾所周知的痛點[DM15]。在圖1.7中,我們給出了GPT-4在常識性問題上比ChatGPT好多少的第一個例子,并在附錄a中提供了一些進一步的例子。

5. 在整篇論文中,每當我們發現局限性時,我們都會強調,但我們也將第8節專門用于深入分析缺乏規劃,這可能是GPT-4架構的自回歸性質的直接后果

6. 最后,在第9節中,我們討論了這種早期形式的AGI的預期社會影響,在第10節中,我們分享了該領域的關鍵挑戰、方向和下一步步驟。


許多讀者腦海中可能揮之不去的一個問題是,GPT-4是否真正理解所有這些概念,或者它只是在沒有任何真正或深入理解的情況下,在即興發揮方面比之前的模型好得多。我們希望在閱讀本文后,這個問題應該幾乎翻轉過來,人們可能會想,除了即興發揮之外,真正的理解還有多少。有人能合理地說一個通過了軟件工程候選人考試的系統(圖1.5)不是真正的智能嗎? 也許對理解的唯一真正考驗是一個人是否可以產生新的知識,例如證明新的數學定理,這是LLM目前仍然無法實現的壯舉。

結論

**本文在廣泛的任務和領域中展示了對GPT-4的初步探索,為GPT-4的能力在其中許多方面與人類水平相當的說法提供了支持性證據。**這一結論與OpenAI在[Ope23]中提出的研究結果一致。實驗的一個主要目標是對GPT-4的智能進行初步評估,鑒于這一概念缺乏正式定義,這是一項艱巨的任務,特別是對人工系統。希望我們的探索為理解GPT-4的卓越能力和挑戰提供了有用和必要的第一步,并為開發更正式和全面的方法來測試和分析具有如此廣泛智能的未來AI系統開辟了新機會。上述模型在深度和通用性方面的能力表明,機器學習社區需要通過結構化的數據集和任務超越經典的基準測試,并且對這些新模型的能力和認知能力的評估在本質上已經更接近于評估人類的能力,而不是狹義AI模型的能力。希望我們的研究能夠促進對GPT-4和類似系統的進一步研究,無論是在探索新的應用和領域方面,還是在理解其智能基礎的機制和原理方面。**本文工作的中心主張是,GPT-4實現了一種形式的通用智能,確實展示了人工通用智能的火花。**這可以通過它的核心心智能力(如推理、創造力和推理),它獲得專業知識的主題范圍(如文學、醫學和編碼),以及它能夠執行的各種任務(如玩游戲、使用工具、解釋自己,……)來證明。要創建一個有資格成為完整AGI的系統,還有很多工作要做。最后,討論了幾個直接的下一步步驟,包括定義AGI本身,構建AGI LLM中缺失的一些組件,以及更好地理解最近LLM所顯示的智能的起源。

付費5元查看完整內容

機器之心報道機器之心編輯部

ChatGPT 點燃了科技行業的明燈,GPT-4 能燎原嗎?

誰能革得了 ChatGPT 的命?現在看來還是 OpenAI 自己。 在 ChatGPT 引爆科技領域之后,人們一直在討論 AI「下一步」的發展會是什么,很多學者都提到了多模態,我們并沒有等太久。今天凌晨,OpenAI 發布了多模態預訓練大模型 GPT-4。

GPT-4 實現了以下幾個方面的飛躍式提升:強大的識圖能力;文字輸入限制提升至 2.5 萬字;回答準確性顯著提高;能夠生成歌詞、創意文本,實現風格變化。

「GPT-4 是世界第一款高體驗,強能力的先進AI系統,我們希望很快把它推向所有人,」OpenAI 工程師在介紹視頻里說道。 似乎是想一口氣終結這場游戲,OpenAI 既發布了論文(更像是技術報告)、 System Card,把 ChatGPT 直接升級成了 GPT-4 版的,也開放了 GPT-4 的 API。 另外,微軟營銷主管在 GPT-4 發布后第一時間表示:「如果你在過去六周內的任何時候使用過新的 Bing 預覽版,你就已經提前了解了 OpenAI 最新模型的強大功能。」是的,微軟的新必應早就已經用上了GPT-4。

接下來,就讓我們細細品味這場震撼發布。 GPT-4:我 SAT 考 710,也能當律師

GPT-4 是一個大型多模態模型,能接受圖像和文本輸入,再輸出正確的文本回復。實驗表明,GPT-4 在各種專業測試和學術基準上的表現與人類水平相當。例如,它通過了模擬律師考試,且分數在應試者的前 10% 左右;相比之下,GPT-3.5 的得分在倒數 10% 左右。 OpenAI 花了 6 個月的時間使用對抗性測試程序和 ChatGPT 的經驗教訓對 GPT-4 進行迭代調整 ,從而在真實性、可控性等方面取得了有史以來最好的結果。 在過去的兩年里,OpenAI 重建了整個深度學習堆棧,并與 Azure 一起為其工作負載從頭開始設計了一臺超級計算機。一年前,OpenAI 在訓練 GPT-3.5 時第一次嘗試運行了該超算系統,之后他們又陸續發現并修復了一些錯誤,改進了其理論基礎。這些改進的結果是 GPT-4 的訓練運行獲得了前所未有的穩定,以至于 OpenAI 能夠提前準確預測 GPT-4 的訓練性能,它也是第一個實現這一點的大模型。OpenAI 表示他們將繼續專注于可靠的擴展,進一步完善方法,以幫助其實現更強大的提前預測性能和規劃未來的能力,這對安全至關重要。 OpenAI 正在通過 ChatGPT 和 API(有候補名單)發布 GPT-4 的文本輸入功能。圖像輸入功能方面,為了獲得更廣泛的可用性,OpenAI 正在與其他公司展開合作。 OpenAI 今天還開源了 OpenAI Evals,這是其用于自動評估 AI 模型性能的框架。OpenAI 表示此舉是為了讓所有人都可以指出其模型中的缺點,以幫助 OpenAI 進一步改進模型。 有趣的是,GPT-3.5 和 GPT-4 之間的區別很微妙。當任務的復雜性達到足夠的閾值時,差異就會出現 ——GPT-4 比 GPT-3.5 更可靠、更有創意,并且能夠處理更細微的指令。為了了解這兩個模型之間的差異,OpenAI 在各種基準和一些為人類設計的模擬考試上進行了實驗。

OpenAI 還在為機器學習模型設計的傳統基準上評估了 GPT-4。GPT-4 大大優于現有的大型語言模型,以及大多數 SOTA 模型:

許多現有的機器學習基準測試都是用英語編寫的。為了初步了解 GPT-4 在其他語言上的能力,研究團隊使用 Azure Translate 將 MMLU 基準 —— 一套涵蓋 57 個主題的 14000 個多項選擇題 —— 翻譯成多種語言。在測試的 26 種語言的 24 種中,GPT-4 優于 GPT-3.5 和其他大語言模型(Chinchilla、PaLM)的英語語言性能:

就像許多使用 ChatGPT 的公司一樣,OpenAI 表示他們內部也在使用 GPT-4,因此 OpenAI 也在關注大型語言模型在內容生成、銷售和編程等方面的應用效果。OpenAI 還使用 GPT-4 輔助人們評估 AI 輸出,這也是 OpenAI 對其策略的第二階段。OpenAI 既是 GPT-4 的開發者,也是使用者。 GPT-4:我能玩梗圖

GPT-4 可以接受文本和圖像形式的 prompt,新能力與純文本設置并行,允許用戶指定任何視覺或語言任務。 具體來說,它在人類給定由散布的文本和圖像組成的輸入的情況下生成相應的文本輸出(自然語言、代碼等)。在一系列領域 —— 包括帶有文本和照片的文檔、圖表或屏幕截圖上 ——GPT-4 展示了與純文本輸入類似的功能。此外,它還可以通過為純文本語言模型開發的測試時間技術得到增強,包括少樣本和思維鏈 prompt。 比如給 GPT-4 一個長相奇怪的充電器的圖片,問為什么這很可笑?

GPT-4 回答道,VGA 線充 iPhone。

格魯吉亞和西亞的人均每日肉類消費,算平均數:

看起來,現在的 GPT 已經不會在計算上胡言亂語了:

還是太簡單,那直接讓它做題,還是個物理題:

GPT-4 看懂了法語題目,并完整解答:

GPT-4 可以理解一張照片里「有什么不對勁的地方」:

GPT-4 還可以量子速讀看論文,如果你給它 InstructGPT 的論文,讓它總結摘要,就會變成這樣:

如果你對論文里的某一個圖感興趣呢?GPT-4 也可以解釋一下:

接著來,問 GPT-4 梗圖是什么意思:

它給出了詳細的回答:

那么漫畫呢?

讓 GPT-4 解釋為什么要給神經網絡加層數,似乎有一點加倍的幽默感。

不過 OpenAI 在這里說了,圖像輸入是研究預覽,仍不公開。 研究人員用學術的 Benchmark 視角來解讀 GPT-4 的看圖能力,然而這已經不夠了,他們還能不斷發現該模型可以令人興奮地處理新任務 —— 現在的矛盾是 AI 的能力和人類想象力之間的矛盾。

看到這里,應該有研究人員感嘆:CV 不存在了。 可控性

與具有固定冗長、平靜語氣和風格的經典 ChatGPT 個性不同,開發人員(以及 ChatGPT 用戶)現在可以通過在「系統」消息中描述這些方向來規定他們的 AI 的風格和任務。 系統消息允許 API 用戶在一定范圍內定制化實現不同的用戶體驗。OpenAI 知道你們在讓 ChatGPT 玩 Cosplay,也鼓勵你們這樣做。

局限性

盡管功能已經非常強大,但 GPT-4 仍與早期的 GPT 模型具有相似的局限性,其中最重要的一點是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然會產生幻覺、生成錯誤答案,并出現推理錯誤。 目前,使用語言模型應謹慎審查輸出內容,必要時使用與特定用例的需求相匹配的確切協議(例如人工審查、附加上下文或完全避免使用) 。 總的來說,GPT-4 相對于以前的模型(經過多次迭代和改進)已經顯著減輕了幻覺問題。在 OpenAI 的內部對抗性真實性評估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:

GPT-4 在 TruthfulQA 等外部基準測試方面也取得了進展,OpenAI 測試了模型將事實與錯誤陳述的對抗性選擇區分開的能力,結果如下圖所示。

實驗結果表明,GPT-4 基本模型在此任務上僅比 GPT-3.5 略好;然而,在經過 RLHF 后訓練之后,二者的差距就很大了。以下是 GPT-4 的測試示例 —— 并不是所有時候它都能做出正確的選擇。

該模型在其輸出中可能會有各種偏見,OpenAI 在這些方面已經取得了進展,目標是使建立的人工智能系統具有合理的默認行為,以反映廣泛的用戶價值觀。 GPT-4 通常缺乏對其絕大部分數據截止后(2021 年 9 月)發生的事件的了解,也不會從其經驗中學習。它有時會犯一些簡單的推理錯誤,這似乎與這么多領域的能力不相符,或者過于輕信用戶的明顯虛假陳述。有時它也會像人類一樣在困難的問題上失敗,比如在它生成的代碼中引入安全漏洞。 GPT-4 預測時也可能出錯但很自信,意識到可能出錯時也不會 double-check。有趣的是,基礎預訓練模型經過高度校準(其對答案的預測置信度通常與正確概率相匹配)。然而,通過 OpenAI 目前的后訓練(post-training)過程,校準減少了。

風險及緩解措施

OpenAI 表示,研究團隊一直在對 GPT-4 進行迭代,使其從訓練開始就更加安全和一致,所做的努力包括預訓練數據的選擇和過濾、評估和專家參與、模型安全改進以及監測和執行。 GPT-4 有著與以前的模型類似的風險,如產生有害的建議、錯誤的代碼或不準確的信息。同時,GPT-4 的額外能力導致了新的風險面。為了了解這些風險的程度,團隊聘請了 50 多位來自人工智能對齊風險、網絡安全、生物風險、信任和安全以及國際安全等領域的專家,對該模型在高風險領域的行為進行對抗性測試。這些領域需要專業知識來評估,來自這些專家的反饋和數據為緩解措施和模型的改進提供了依據。

預防風險

按照 demo 視頻里 OpenAI 工程師們的說法,GPT-4 的訓練在去年 8 月完成,剩下的時間都在進行微調提升,以及最重要的去除危險內容生成的工作。 GPT-4 在 RLHF 訓練中加入了一個額外的安全獎勵信號,通過訓練模型拒絕對此類內容的請求來減少有害的輸出。獎勵是由 GPT-4 的零樣本分類器提供的,它判斷安全邊界和安全相關 prompt 的完成方式。為了防止模型拒絕有效的請求,團隊從各種來源(例如,標注的生產數據、人類的紅隊、模型生成的 prompt)收集多樣化的數據集,在允許和不允許的類別上應用安全獎勵信號(有正值或負值)。 這些措施大大在許多方面改善了 GPT-4 的安全性能。與 GPT-3.5 相比,模型對不允許內容的請求的響應傾向降低了 82%,而 GPT-4 對敏感請求(如醫療建議和自我傷害)的響應符合政策的頻率提高了 29%。

訓練過程

與之前的 GPT 模型一樣,GPT-4 基礎模型經過訓練可以預測文檔中的下一個單詞。OpenAI 使用公開可用的數據(例如互聯網數據)以及已獲得許可的數據進行訓練。訓練數據是一個網絡規模的數據語料庫,包括數學問題的正確和錯誤解決方案、弱推理和強推理、自相矛盾和一致的陳述,以及各種各樣的意識形態和想法。 因此,當提出問題時,基礎模型的回應可能與用戶的意圖相去甚遠。為了使其與用戶意圖保持一致,OpenAI 依然使用強化學習人類反饋 (RLHF) 來微調模型的行為。請注意,該模型的能力似乎主要來自預訓練過程 ——RLHF 不會提高考試成績(甚至可能會降低它)。但是模型的控制來自后訓練過程 —— 基礎模型甚至需要及時的工程設計來回答問題。

GPT-4 的一大重點是建立了一個可預測擴展的深度學習棧。主要原因是,對于像 GPT-4 這樣的大型訓練,進行廣泛的特定模型調整是不可行的。團隊開發了基礎設施和優化,在多種規模下都有可預測的行為。為了驗證這種可擴展性,他們提前準確地預測了 GPT-4 在內部代碼庫(不屬于訓練集)上的最終損失,方法是通過使用相同的方法訓練的模型進行推斷,但使用的計算量為 1/10000。

現在,OpenAI 可以準確地預測在訓練過程中優化的指標(損失)。例如從計算量為 1/1000 的模型中推斷并成功地預測了 HumanEval 數據集的一個子集的通過率:

有些能力仍然難以預測。例如,Inverse Scaling 競賽旨在找到一個隨著模型計算量的增加而變得更糟的指標,而 hindsight neglect 任務是獲勝者之一。GPT-4 扭轉了這一趨勢。

能夠準確預測未來的機器學習能力對于技術安全來說至關重要,但它并沒有得到足夠的重視,OpenAI 表示正在投入更多精力開發相關方法,并呼吁業界共同努力。 OpenAI 表示正在開源 OpenAI Evals 軟件框架,它被用于創建和運行基準測試以評估 GPT-4 等模型,同時可以逐樣本地檢查模型性能。 ChatGPT 直接升級至 GPT-4 版

GPT-4 發布后,OpenAI 直接升級了 ChatGPT。ChatGPT Plus 訂閱者可以在 chat.openai.com 上獲得具有使用上限的 GPT-4 訪問權限。 要訪問 GPT-4 API(它使用與 gpt-3.5-turbo 相同的 ChatCompletions API),用戶可以注冊等待。OpenAI 會邀請部分開發者體驗。 獲得訪問權限后,用戶目前可以向 GPT-4 模型發出純文本請求(圖像輸入仍處于有限的 alpha 階段)。至于價格方面,定價為每 1k 個 prompt token 0.03 美元,每 1k 個 completion token 0.06 美元。默認速率限制為每分鐘 40k 個 token 和每分鐘 200 個請求。 GPT-4 的上下文長度為 8,192 個 token。OpenAI 還提供了 32,768 個 token 上下文(約 50 頁文本)版本的有限訪問,該版本也將隨著時間自動更新(當前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定價為每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。

以上,就是今天 OpenAI 關于 GPT-4 的所有內容了。令人不滿的一點是,OpenAI 公開的技術報告中,不包含任何關于模型架構、硬件、算力等方面的更多信息,可以說是很不 Open 了。 不管怎樣,迫不及待的用戶大概已經開始測試體驗了吧。

最后,也想問一下讀者,看完 GPT-4 的發布,你有何感想。 參考內容://openai.com/product/gpt-4

付費5元查看完整內容

摘要

作者領導了一項跨學科的基準測試工作:決策分析、運籌學、風險建模、管理科學、沖突和戰斗模擬以及物流和供應鏈模擬。實踐者們自愿描述他們的做法并向其他人學習。雖然不同的實踐者群體對局部實踐達成了共識,但群體之間的互動卻很少。

以前的出版物描述了從基準測試中突出最佳實踐。我們發現了兩個差距:一個是令人不安的高比例的不良實踐,另一個是缺乏執行層面的風險評估。高管們往往缺乏時間或技術背景來對提供給他們的分析結果進行風險評估。

本文為高管們提供了一種新的、簡單的風險評估方法。六個非技術性的問題解決了在基準測試中看到的大部分風險。該方法是基于一個建立在國際基準工作基礎上的檢查表。作者還對具體的風險進行了研究,包括因對分析的依賴程度增加而產生的法律風險。在這些風險中,有一些與人工智能有關的獨特問題。

識別風險的工作表明危險來自幾個方面,并產生了一個不需要深入的建模、仿真和分析(MS&A)知識的風險檢查表。本文介紹了該清單,以及支持該清單的一些更深入的MS&A原則。這對管理人員和從業人員都很有用。

該研究得到了一些專業協會、行業團體和非營利性教育協會的支持,包括國際服務/行業培訓、模擬和教育會議(I/ITSEC)、石油工程師協會、電氣和電子工程師協會和概率管理。

研究總結和以前發表的結果

我們之前已經發表了(Roemerman等人)研究的本質和我們的數據收集。回顧一下,在2014年和2015年,作者提出了一個跨領域的基準研究。作為在多個領域工作的從業者,我們注意到一些領域的 "正常 "仿真和建模實踐在其他領域是未知的。我們向幾個組織提出了一個多領域的研究。普遍來說,反饋是積極的,但沒有人愿意領導這項工作。

最終,我們決定自己進行,并開始招募幫助。我們得到了許多我們曾經接觸過的組織的幫助,還有一些組織也加入了我們的行列:

  • 電氣和電子工程師協會(IEEE)是第一個允許我們使用他們的一個網絡論壇來討論這項研究并尋求參與者。
  • 石油工程師協會(SPE)也給予我們同樣的網絡論壇權限。
  • 賓夕法尼亞大學沃頓商學院的兩位教授為我們的研究提供了建議和未發表文獻的訪問權,并得到了研究生的幫助。
  • INFORMS提供了他們在線論壇的訪問權。
  • I/ITSEC允許我們調查他們的部分成員。
  • 概率管理公司允許我們接觸他們的會員,然后任命我們中的一位為最佳實踐主席。
  • 洛克希德-馬丁公司和雪佛龍公司允許我們進入他們的建模和仿真社區進行采訪和調查。

總的來說,這些組織有大約200,000名會員(不包括這兩家公司,他們的雇員可能是我們所接觸的協會的會員)。其中,我們估計只有不到10%的會員是建模、仿真和分析(MS&A)的積極從業者。在這些會員中,我們估計大約有2100人看到了我們的調查和采訪邀請。

除了與這些大型團體合作外,我們最初以40多個個人為目標,因為他們的組織聲譽或他們個人的卓越聲譽而參與我們的數據收集。我們點名征集這些目標,事實證明他們是一個豐富的信息來源。最后,我們接觸了來自65個組織的126名個人,涉及許多領域(見圖1)。

圖1:參與者來自不同的領域
付費5元查看完整內容
北京阿比特科技有限公司