從人本主義的角度建立人工智能系統的迫切性日益增加,因為從個性化推薦系統到語言和圖像生成模型的大規模機器學習系統每天都在與人互動。在這篇論文中,我們提出了一條從人本主義的角度建立這些系統的指導方針。我們的指南包含三個步驟:(i)識別學習任務中所關注的人的角色和他們的核心特性;(ii)以一種有用且可靠的方式對這些特性進行建模;和(iii)以原則性的方式將這些模型納入學習算法的設計中。我們將這一指南應用于兩個應用:個性化推薦系統和決策支持系統。對于推薦系統,我們按照指南(i)關注用戶不斷變化的偏好,(ii)將它們模型化為動態系統,和(iii)開發具有可證明保證的高效在線學習算法,與具有不同偏好動態的用戶互動。對于決策支持系統,我們(i)選擇決策者的風險偏好作為關注的核心特性,(ii)將它們模型化到系統的目標函數中,和(iii)為在多樣風險偏好下學習模型提供具有統計保證的一般程序。我們最后討論了以人為中心的機器學習的未來,以及這一領域中跨學科研究的角色。
這篇論文旨在推動數據驅動的動態決策理論和實踐,通過融合機器學習和運籌學的思想。在整個論文中,我們關注三個方面:(i) 開發新的實用算法,系統地增強數據驅動的動態決策制定;(ii) 識別和利用導致統計和計算效率的關鍵問題結構;以及(iii) 為數據驅動的動態決策制定的統計和計算復雜性提供一般性的理解,這與我們對監督式機器學習的理解相平行,還考慮了模型結構和約束對決策制定的關鍵作用。具體來說,論文由三個部分組成。
本論文的第一部分開發了一種方法,可以自動將監督學習的進展轉化為有效的動態決策制定。重點關注上下文臂問題,這是一類核心的在線決策問題,我們提出了從上下文臂到離線回歸的首個最優和高效降維方法。我們的結果的一個顯著后果是,離線回歸的進展立即轉化為上下文臂問題,無論是在統計上還是在計算上。我們通過復雜的操作環境中的新保證和對真實世界數據集的實驗,說明了我們的結果的優勢。我們還將我們的結果擴展到更具挑戰性的設置,包括大狀態空間中的強化學習。除了積極的結果,我們還建立了一般、非結構化強化學習的新基本限制,強調了強化學習中問題結構的重要性。
本論文的第二部分開發了一個框架,將離線數據納入在線決策制定,這是出于業務和運營方面的實際挑戰。在動態定價的背景下,該框架使我們能夠嚴格刻畫數據的價值以及數據驅動決策制定中在線學習和離線學習之間的協同作用。該理論為實踐提供了重要的見解。
本論文的第三部分研究了在決策制定者可能面臨各種長期約束的新環境中的經典在線決策問題。這些約束是出于社會和運營考慮的,可能限制決策者在不同行動之間切換、消耗資源或查詢累積數據的能力。我們刻畫了這些長期約束帶來的統計和計算后果,即問題的復雜性如何隨不同約束水平而變化。結果為數據驅動的動態決策制定中的各種有趣的權衡提供了精確的描述。
視覺語言模型(VLMs)最近已經展示出了強大的效能,作為可以解析關于視覺內容的自然查詢并生成類似人類輸出的視覺助手。在這項工作中,我們探討了這些模型基于感知信息展示人類式推理的能力。為了解決一個關鍵問題,即這些推理能力在多大程度上是完全一致和基于實際的,我們還測量了這些模型的推理一致性。我們通過提出基于思維鏈(CoT)的一致性度量來實現這一點。然而,這樣的評估需要一個包括高級推理和詳細推理鏈的基準,這是昂貴的。我們通過提出一個LLM-人在回路中的管道來解決這一挑戰,這顯著降低了成本,同時確保了高質量數據集的生成。基于這個管道和現有的粗粒度注釋數據集,我們構建了CURE基準,以測量VLMs的零樣本推理性能和一致性。我們評估了現有的最先進的VLMs,并發現即使在表現最佳的模型(BLIP-2)的情況下,也無法展示出強大的視覺推理能力和一致性,這表明需要大力努力,使VLMs能夠像人類一樣系統地和一致地進行視覺推理。作為早期步驟,我們提出了一個旨在提高VLMs的推理性能和一致性的兩階段培訓框架。第一階段涉及使用由LLMs自動生成的逐步推理樣本對VLMs進行監督微調。在第二階段中,我們進一步通過LLMs提供的反饋來增強訓練過程,以生成高度一致和基于實際的推理鏈。我們經驗性地突出了我們框架的有效性,并顯示了在推理性能和一致性方面的相對改進為4%。
氣候變化是我們這個時代最緊迫的問題之一,需要社會各個領域迅速動員許多工具和方法。機器學習被提議為其中一種工具,有可能補充和加強現有的氣候變化工作。在這篇論文中,我們提供了幾個方向,用于原則性地設計和使用基于機器學習的方法(特別側重于深度學習)來解決電力領域的與氣候相關的問題。在論文的第一部分,我們提出了統計和優化的方法來估計電網上的關鍵量。具體來說,我們使用基于回歸的工具來評估用于評估電力系統干預的與氣候和健康相關的排放因素。我們還提出了一種基于矩陣補全的方法來估計電力分配系統上的電壓,以實現分布式太陽能的集成。
受到這項工作的啟發,論文的第二部分,我們關注的是設計深度學習方法,這些方法明確捕捉了與應用場景相關的物理學、硬性約束和領域知識。特別是,我們利用深度學習中的隱含層工具來設計預測方法,這些方法對模型輸出將用于的下游(隨機)決策過程有認知。我們還設計了快速、保持可行性的神經近似器,用于具有硬性約束的優化問題,以及證明了能強制執行與部署系統相關的穩定性標準或操作約束的基于深度學習的控制器。這些方法直接適用于電力系統的問題,同時也更廣泛地適用于其他物理和安全關鍵領域。雖然第二部分展示了電力系統如何為深度學習研究提供有成效的方向,但在這篇論文的最后一部分,我們反過來展示了深度學習的洞察如何為電力系統的研究提供有成效的方向。具體來說,我們展示了受隱含層文獻啟發的方法如何被用于評估電網上的與政策相關的逆向問題。我們進一步展示了如何結合隱含層和對抗魯棒深度學習的洞察,使我們能夠為電力系統的兩個核心問題——N-k安全約束最優功率流和隨機最優功率流——提供可擴展的啟發式解決方案,這兩個問題由于其計算難度,很少在實際規模上進行研究。
總的來說,這篇論文展示了如何通過深度學習和電力系統的洞察進行橋接,可以顯著推進這兩個領域的方法,除此之外,還能解決與氣候行動相關的高影響力問題。
盡管在深度學習方面已經取得了巨大的實踐進展,但我們對是什么使深度學習工作得很好以及為什么這樣做缺乏清晰的理論理解。在本文中,我們采用“自然科學”的方法來構建深度學習的理論。我們首先確定在跨越各種不同背景的實際深度網絡中出現的各種經驗屬性。然后,我們討論了這些實證發現可以如何用來通知理論。具體而言,我們證明:(1)與監督學習相比,經過自監督學習訓練的先進深度網絡盡管過度參數化,但在特定條件下仍能實現有限的泛化差距。(2)具有相似性能和架構的模型通常會收斂到相似的內部表示,即使它們的訓練方法有很大的不同(例如:監督學習和自監督學習)(3)插值分類器服從一種分布泛化形式——它們從訓練分布中收斂到一種條件采樣器類型。(4)深度網絡的數據擴展特性對訓練數據集的結構和噪聲水平的變化具有魯棒性。
//dash.harvard.edu/handle/1/37372168
我們的發現強調,盡管缺乏最壞情況的保證,深度網絡隱含地以可預測的、結構化的方式運行,從而為未來的理論分析奠定了基礎。
強化學習(RL)為數據驅動決策提供了一個通用框架。然而,正是這種通用性使得這種方法適用于廣泛的問題,也導致了眾所周知的效率低下。在這篇論文中,我們考慮了有趣的決策類所共有的不同屬性,這些屬性可以用來設計計算效率和數據效率都很高的學習算法。具體來說,這項工作研究了決策問題的各個方面的低秩結構和經典確定性規劃的效果稀疏性,以及基于端到端模型的方法所依賴的性能。我們首先展示了后繼表示中的低秩結構如何使高效在線學習算法的設計成為可能。類似地,我們展示了如何在Bellman算子中找到相同的結構,我們使用Bellman算子來制定最小二乘時間差分學習算法的有效變體。我們進一步探索狀態特征中的低秩結構,以學習完全允許在低維空間中進行高效規劃的有效轉換模型。然后,我們進一步了解基于模型的端到端方法,以便更好地理解它們的屬性。我們通過約束優化和隱式微分的視角來研究這類方法。通過隱式視角,我們得到了這些方法的屬性,這些屬性使我們能夠確定它們執行良好的條件。在本文的最后,探索了如何利用經典規劃問題的效果的稀疏性來定義一般的領域無關啟發式方法,通過使用基于潛在的獎勵塑造和提升函數近似,可以用來大大加快領域相關啟發式方法的學習。
//dspace.mit.edu/handle/1721.1/144562
深度學習模型最近徹底改變了在線環境,為改善用戶體驗打開了許多令人興奮的機會。然而,這些模型也可能通過故意或惡意用戶制造或推廣虛假信息來引入新的威脅。在這篇論文中,我們提出了新的方法來對抗網上虛假信息的擴散。我們專注于自動事實驗證的任務,即根據外部可靠來源檢查給定索賠的準確性。我們分析了事實驗證系統所需的規范,并描述了對大量全面的免費文本信息資源進行操作時對效率的需求,同時確保對具有挑戰性的輸入的魯棒性和對參考證據修改的敏感性。我們的方法是通用的,正如我們所證明的,提高了事實驗證之外的許多其他模型的穩健性、效率和可解釋性。
在本文的第一部分,我們重點研究了句子對分類器的魯棒性、敏感性和可解釋性。我們提出了在大型策劃數據集中識別和量化特性的方法,這些方法不希望導致模型依賴于不可普遍化的統計線索。我們演示了對比證據對如何通過強制模型執行句子對推理來緩解這一問題。為了自動獲得這些例子,我們開發了一種新的基于原理的去噪管道,用于修改反駁證據以同意給定的主張。此外,我們提出了一個半自動的解決方案,從維基百科修訂中創建對比對,并共享一個新的大型數據集。
在第二部分中,我們轉向提高證據檢索和聲明分類模塊的推理效率,同時可靠地控制它們的準確性。我們引入了新的置信度測度,并對共形預測框架進行了新的擴展。我們的方法可以為每個輸入動態分配所需的計算資源,以滿足任意用戶指定的容忍水平。我們在多個數據集上演示了我們經過良好校準的決策規則可靠地提供了顯著的效率提高。
//dspace.mit.edu/handle/1721.1/140022
我們探索機器學習(ML)和因果推理之間的關系。通過相互借鑒,我們專注于改進每一個方面。機器學習已經成功地應用于許多問題,但由于缺乏強有力的理論保證,導致了許多意想不到的失敗。當應用于不同的分布時,在訓練分布上表現良好的模型往往會崩潰;微小的擾動可以“欺騙”訓練好的模型,并極大地改變它的預測;訓練算法中的任意選擇會導致截然不同的模型;等等。另一方面,雖然因果推理方法的發展已經取得了巨大的進步,有很強的理論保證,但現有的方法通常不能應用于實踐,因為它們假設有大量的數據。研究ML和因果推理的交集,我們直接解決了ML中缺乏魯棒性的問題,并提高了因果推理技術的統計效率。
本論文工作背后的動機是改進用于指導決策的預測模型和因果模型的構建方法。自始至終,我們主要關注醫療健康上下文中的決策制定。在ML的因果關系方面,我們使用ML工具和分析技術來開發統計上有效的因果模型,可以指導臨床醫生在兩種治療方法之間選擇。在ML的因果關系方面,我們研究如何使用產生觀測數據的因果機制知識來有效地正則化預測模型,而不引入偏差。在臨床環境中,我們展示了如何使用因果知識來建立穩健和準確的模型來預測傳染性感染的傳播。在非臨床環境中,我們研究了如何使用因果知識來訓練在圖像分類中對分布轉移具有魯棒性的模型。
機器學習是一種從數據中提取預測模型,從而能夠將預測泛化到未觀察數據的技術。根據已知數據集選擇良好模型的過程需要進行優化。具體地說,優化過程在約束集中生成一個變量來最小化目標。這個過程包含了包括神經網絡訓練在內的許多機器學習管道,這將是我們在本文中進行理論分析的主要試驗場。在各種優化算法中,梯度方法因其高維可擴展性和反向傳播的自然局限性而成為深度學習中的主導算法。然而,盡管基于梯度的算法很受歡迎,但我們從理論的角度對機器學習環境中的這種算法的理解似乎還遠遠不夠。一方面,在現有的理論框架內,大多數上下界是封閉的,理論問題似乎得到了解決。另一方面,理論分析很難產生比實踐者發現的經驗更快的算法。本文回顧了梯度法的理論分析,指出了理論與實踐的差異。然后,我們解釋了為什么會發生不匹配,并通過發展由經驗觀察驅動的理論分析,提出了一些初始解決方案。
//dspace.mit.edu/handle/1721.1/143318
COVID-19大流行的例子表明,我們的健康和福祉取決于一個難以衡量的社會因素和個人行為網絡。我的研究旨在建立能夠影響這種社會挑戰的計算方法。這一努力需要新的算法和數據驅動的范式,涵蓋收集昂貴數據、學習模型以理解和預測交互作用以及優化干預中有限資源的使用的整個過程。針對這些需求,本文提出了機器學習、優化和社交網絡交叉的方法學發展,這些方面的發展是由在艾滋病毒預防、結核病治療和COVID-19反應方面的實地合作所推動的。這些項目產生了已部署的應用程序和策略影響。一個例子是在無家可歸的青年中開發一項預防艾滋病毒的人工智能增強干預措施。該系統在一項涉及700多名青年的實地測試中進行了評估,發現它顯著降低了艾滋病毒的關鍵風險行為。
//dash.harvard.edu/handle/1/37370083
近年來,我們已經看到了預訓練神經網絡來學習可遷移到視覺和NLP中看不見的下游任務的表征的巨大好處。然而,這種學習范式在諸如設計優化或控制等決策方面的研究還不多。在這篇論文中,我們概述了兩個問題設置,可以受益于在決策制定的背景下的預訓練。首先,我們描述了一個用于自動化設計優化的設置,特別是電路設計優化,在該設置中,特定領域的先驗數據可以有效地提高基于模型的優化方法的樣本效率。本文對如何提高基于模型的進化算法和貝葉斯優化方法的樣本效率提出了新的思路,并進行了實證和理論分析。在第二個問題設置中,我們將討論如何從大型任務無關數據集中利用無監督的預訓練來提取行為表征,并進行少量的模仿學習。我們發現,當新任務的例子演示稀缺時,預訓練agent提取技能是使他們準備進行少樣本模仿的一個實用方向。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-35.html