Andrew Ng是機器學習的先驅、Landing AI的創始人兼首席執行官,也是谷歌Brain的前團隊負責人。最近,他在未來以數據為中心的人工智能虛擬會議上發表演講,討論了一些負責任的以數據為中心的人工智能開發的實用技巧。
本演講將深入探討適用于非結構化數據的以數據為中心的AI技巧。
一個人工智能系統由兩部分組成:模型-算法或一些代碼-數據。對于大多數數據科學家(包括我自己)來說,機器學習研究人員的主導模式是下載一個固定的數據集,并在模型上進行迭代。這已經成為一種慣例,這是對這種以模型為中心的方法的成功的肯定。多虧了這種以模型為中心的AI開發模式,今天的“代碼”或模型基本上是一個已解決的問題。
這種對模型的強調將我們帶到了高性能模型架構被廣泛使用的地方。然而,系統工程數據集的方法是滯后的。今天,我發現使用工具、流程和原則來系統地設計數據來提高人工智能系統的性能要有用得多。就在過去的4-5個月里,以數據為中心的人工智能運動獲得了很大的發展勢頭,現在“以數據為中心的人工智能”這個術語出現在許多公司的主頁上,而在此之前它幾乎是不存在的。
以數據為中心的AI (DCAI)代表了最近從專注于建模到用于訓練和評估模型的底層數據的轉變。越來越多地,通用模型架構開始主導廣泛的任務,可預測的擴展規則也出現了。雖然構建和使用數據集是這些成功的關鍵,但這種努力往往是手工的——辛苦而昂貴。社區缺乏高生產率和高效的開放數據工程工具,使得構建、維護和評估數據集更容易、更便宜、更可重復。在演講中,Ng博士將介紹DCAI是什么,面臨的挑戰,以及使用DCAI方法的技巧。
在這篇簡短的報告中,我們列出了大數據、機器學習和人工智能領域的主要趨勢,重點關注將在未來12-18個月影響所有行業的公司和組織的項目。幫助企業應用數據和人工智能的工具無疑正變得越來越簡單。但對數據和人工智能興趣的增長帶來了更廣泛的應用、更廣泛的用戶,以及有趣的新挑戰。
以下是我們2022年報告中涉及的幾個主題:
現代數據平臺 機器學習中的模型樞紐 大型語言模型 圖情報 以數據為中心的人工智能 新的擴展工具