亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

開發值得決策者信任的機器學習模型對于在實踐中使用這些模型至關重要。算法透明性工具,如可解釋性和不確定性估計,能夠向決策者展示模型的可信度。在本論文中,我們首先探討了從業者在工業界如何使用可解釋性。通過一項訪談研究,我們發現,盡管工程師們越來越多地使用可解釋性方法來測試開發過程中的模型行為,但這些方法在外部利益相關者中采用的情況卻有限。為此,我們為特定決策環境開發了新穎的算法透明性方法,并通過人類主體實驗與真實決策者一起測試這些方法。

我們首先提出DIVINE,一種基于示例的解釋方法,它不僅找到對模型參數有影響的訓練點,而且這些點在輸入空間中具有多樣性。我們展示了我們的解釋如何提高決策者模擬模型決策邊界的能力。接下來,我們討論反事實潛在不確定性解釋(CLUE),這是一種特征重要性解釋方法,識別出如果擾動輸入特征,將會減少模型在給定輸入上的不確定性。我們展示了決策者如何使用我們的解釋來識別模型在未見輸入上的不確定性。 盡管每種方法本身都是成功的,我們更感興趣的是,了解在決策者利用某種形式的決策支持后,結果在何種環境下會有所改善,無論是算法透明性還是模型預測。我們提出了學習決策支持策略的問題,該策略針對給定的輸入,選擇為沒有先驗信息的決策者提供何種形式的支持。利用隨機上下文多臂強盜問題的技術,我們引入THREAD,一種在線算法,用于個性化每個決策者的決策支持策略。我們與真實用戶一起部署THREAD,展示了在線學習個性化策略的過程,并說明了在實踐中學習決策支持策略的細微差別。 我們以個性化決策支持的前景作為本論文的結論,這種支持形式可以包括基于決策者需求的算法透明性。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

隨著機器學習系統逐漸成為我們日常生活的組成部分,尤其是基礎模型的顯著進步,我們必須評估它們的可信性、公平性,并探索改進這些關鍵方面的方法。本論文探討了機器學習模型性能、魯棒性和公平性的測量與提升。此外,我們還研究了這些系統在新應用領域的設計和部署,并將這些指標作為重要目標。

本論文旨在使機器學習在總體上變得更加可信和強大。第一個主題是評估機器學習模型的魯棒性和公平性及其改進策略。我們的方法結合了分布魯棒優化(DRO)和人類難以察覺的對抗攻擊,同時提高了模型的魯棒性和公平性。通過分析機器學習系統的魯棒性和公平性,我們直觀地將機器感知與人類感知更接近。除了魯棒性和公平性之外,我們還研究了梯度流方法,以緩解數據稀缺問題,并在少樣本學習環境中提高分類系統的性能。我們證明了梯度流方法能夠全局收斂,并且在下游遷移學習任務中展示了其生成有用數據樣本的能力。

最后,我們專注于機器學習算法在材料科學領域的創新應用。具體來說,我們設計了機器學習系統來加速分子模擬中罕見事件的采樣。與傳統采樣方法相比,我們的方法在速度上有顯著提高,同時對這些罕見事件的概率估計也更加魯棒。

在整個論文中,我們展示了機器學習在多個方面的改進,包括公平性和魯棒性。我們還展示了它在傳統應用如機械模擬中的強大能力。未來的工作將擴展這些系統,以應對更復雜和更高維度的挑戰。通過不斷的努力,本論文為開發更加可靠和強大的機器學習系統做出了貢獻。。

付費5元查看完整內容

在機器學習領域,我們致力于開發能夠學習的算法,即在沒有被特別編程完成某項任務的情況下,積累關于如何完成任務的知識。在這篇論文中,我們從兩個不同的角度來探討學習:我們可以應用高效機器學習者的領域以及我們可以通過更有效地解決底層優化問題來改進學習的方式。機器學習方法通常非常依賴數據。雖然現代機器學習在解決實際問題方面取得了巨大成功,但這些成功案例主要局限于有大量相關領域數據可用的設置。元學習領域旨在通過創建“學會如何學習”的模型(即能夠在給出相對較少的示例時迅速適應新任務的模型)來開發具有改進的樣本效率的模型。在本論文中,我們關注使用超網絡進行任務適應的攤銷元學習者,這些學習者成本非常有效,只需通過超網絡進行一次前向傳播即可學會如何執行新任務。我們展示了這些攤銷元學習者可以以超出其在小樣本學習設置中的典型用途的新方式來利用。

我們針對攤銷元學習者開發了一種基于集合的中毒攻擊,這種攻擊讓我們能夠定制一組協同作用的輸入,用作適應新任務的訓練數據(即作為支持集)時,這些輸入能夠欺騙系統的學習算法。這樣共同制作的對抗性輸入可以協同操縱分類器,對于具有可微適應機制的攤銷學習者來說,這種輸入尤其容易計算。我們還在可解釋性領域利用攤銷學習者進行“數據集調試”,在此過程中,我們開發了一種稱為Meta-LOO的數據價值或樣本重要性策略,可用于檢測噪聲或分布外數據;或者將一組示例提煉到其最有用的元素。

從我們的第二個角度看,機器學習和優化是密切相關的;實際上,學習可以被表述為以模型參數為目標的訓練損失最小化問題——盡管實際上我們還需要我們的算法具有泛化能力,這不是更廣泛優化的關注點。選擇的優化策略影響了算法學習的速度以及找到的解決方案(即模型參數)的質量。通過研究優化,我們可以改善我們的模型的學習效果和速度。

在這篇論文中,我們采取了雙管齊下的方法來實現這一目標。首先,我們開發了一種在線超梯度基礎的超參數優化策略,通過支持廣泛的超參數同時保持可擴展性,改進了現有的最佳技術。值得注意的是,我們的方法支持優化算法的超參數,如學習率和動量,這是文獻中類似方法不支持的。其次,我們開發了一種適用于深度學習的非凸損失景觀的二階優化策略。我們的算法近似了一個鞍點是排斥而非吸引的鞍點自由版本的Hessian,以一種適用于深度學習問題的方式。

付費5元查看完整內容

本論文的核心目標是通過提高深度學習模型的標簽和訓練效率來增強深度學習的實用性。為此,我們研究了基于信息論原理的數據子集選擇技術,特別是主動學習和主動采樣。主動學習提高了標簽效率,而主動采樣提高了訓練效率。監督式深度學習模型通常需要大量的帶標簽數據進行訓練。標簽獲取可能既昂貴又耗時,且訓練大型模型資源密集型,這限制了其在學術研究和“大科技”公司之外的應用。深度學習中現有的數據子集選擇方法通常依賴于啟發式方法或缺乏一個原理化的信息論基礎。相比之下,本論文檢查了數據子集選擇的幾種目標及其在深度學習中的應用,力求采用一種由信息論啟發的更原理化的方法。

我們首先在單次前向傳播的深度神經網絡中區分了認知不確定性和隨機不確定性,這提供了有用的直覺和洞見,關于不同形式的不確定性及其對數據子集選擇的相關性。然后,我們提出并研究了在(貝葉斯)深度學習中進行主動學習和數據子集選擇的各種方法。最后,我們將各種現有和提出的方法與在權重或預測空間中信息量的近似聯系起來。

支撐這項工作的是一個原理化且實用的信息論量符號,包括隨機變量和觀察到的結果。這篇論文展示了從統一視角出發工作的好處,并強調了我們的貢獻對深度學習實際應用潛在影響的可能性。

付費5元查看完整內容

《分布式機器學習模式》是一本關于將機器學習從個人電腦擴展到大規模分布式集群的實用指南。分布式機器學習系統允許開發人員處理非常大的數據集,跨多個集群進行操作,利用自動化工具,以及獲得硬件加速的好處。本書揭示了應對擴展機器學習系統的挑戰的最佳實踐技巧和內部竅門。 在《分布式機器學習模式》中,您將學到如何: * 應用分布式系統模式來構建可擴展和可靠的機器學習項目 * 構建具有數據攝取、分布式訓練、模型服務等的ML流水線 * 使用Kubernetes、TensorFlow、Kubeflow和Argo Workflows自動化ML任務 * 在不同模式和方法之間進行權衡 * 管理和監控大規模機器學習工作負載

本書旨在將已建立的分布式系統模式應用于機器學習項目,同時探討專門為機器學習創建的新的前沿模式。這本書堅實地扎根于現實世界,演示了如何使用基于TensorFlow、Kubernetes、Kubeflow和Argo Workflows的示例來應用這些模式。通過實際項目和清晰的DevOps技術,您可以輕松啟動、管理和監控云原生的分布式機器學習流水線。 作者Yuan Tang是Argo和Kubeflow的項目負責人,也是TensorFlow和XGBoost的維護者,以及眾多開源項目的作者。 本書適合熟悉機器學習基礎、Bash、Python和Docker的數據分析師和工程師。 《分布式機器學習模式》包括以下內容: * 基本概念和背景 * 分布式機器學習系統的模式 * 構建分布式機器學習工作流程 * 項目概述和系統架構 * 相關技術概述 * 完整實現

這本書被評論為對處理分布式環境中的機器學習問題的深入指南,對分布式機器學習從業者來說是一本非常有價值的書籍。它提供了關于分布式訓練思想、問題和解決方案的詳細介紹,以及在TensorFlow、Kubernetes、Kubeflow和Argo Workflows基礎上實現分布式模型訓練和推理的全面項目。

付費5元查看完整內容

盡管在深度學習方面已經取得了巨大的實踐進展,但我們對是什么使深度學習工作得很好以及為什么這樣做缺乏清晰的理論理解。在本文中,我們采用“自然科學”的方法來構建深度學習的理論。我們首先確定在跨越各種不同背景的實際深度網絡中出現的各種經驗屬性。然后,我們討論了這些實證發現可以如何用來通知理論。具體而言,我們證明:(1)與監督學習相比,經過自監督學習訓練的先進深度網絡盡管過度參數化,但在特定條件下仍能實現有限的泛化差距。(2)具有相似性能和架構的模型通常會收斂到相似的內部表示,即使它們的訓練方法有很大的不同(例如:監督學習和自監督學習)(3)插值分類器服從一種分布泛化形式——它們從訓練分布中收斂到一種條件采樣器類型。(4)深度網絡的數據擴展特性對訓練數據集的結構和噪聲水平的變化具有魯棒性。

//dash.harvard.edu/handle/1/37372168

我們的發現強調,盡管缺乏最壞情況的保證,深度網絡隱含地以可預測的、結構化的方式運行,從而為未來的理論分析奠定了基礎。

付費5元查看完整內容

深度學習算法,比如那些用于圖像識別的算法,在自動化醫療診斷和指導臨床決策方面大有前途。與此同時,醫學深度學習系統的開發和臨床轉化還面臨著一些重要的挑戰。首先,開發大型且注釋良好的數據集成本很高。其次,醫學圖像判讀有必要識別病灶的微妙關鍵特征,盡管在人群中生理外觀有很大差異。第三,由于域轉移問題,將深度學習算法的性能從一種設置轉移到另一種設置具有挑戰性。第四,深度學習系統的輸出需要是可解釋的,以便臨床醫生能夠理解系統。本文研究了如何應對這些挑戰,從小型數據集構建可泛化和可解釋的深度學習模型。本文研究了將從非醫療源ImageNet學習到的先驗知識遷移到醫療應用對模型性能的影響,特別是當數據集大小不夠時。與直接從ImageNet轉移學習不同,GrayNet被提議作為一個橋梁數據集,在從ImageNet學習到的通用圖像特征上創建一個預先訓練的豐富醫學圖像表示的模型。分析了GrayNet的優點,包括總體性能和跨不同成像掃描儀的泛化,并與使用小數據從頭開始訓練和從ImageNet轉移學習進行了比較。受放射科醫生如何解釋診斷圖像的啟發,還介紹了特定領域的技術,包括窗口設置優化和切片插值,并展示了進一步增強模型性能的方法。引入了一個新的可視化模塊,能夠在訓練過程中生成一個圖像圖譜,并將其顯示為測試過程中所做的模型預測的基礎,以證明模型預測的合理性,并使臨床醫生更容易理解它們。本論文通過三種不同的應用展示了深度學習在醫學圖像判讀方面的潛力,包括人工智能輔助骨齡評估,以提高人類的準確性和可變性,發現以前未識別的模式,在手部x光片中進行骨性別分類,以及處理原始計算機斷層掃描數據,而不需要圖像重建。本論文的貢獻有望促進各種醫療應用中可推廣和可解釋的深度學習算法的發展,從而加速人工智能系統進入臨床實踐。

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

深度學習模型最近徹底改變了在線環境,為改善用戶體驗打開了許多令人興奮的機會。然而,這些模型也可能通過故意或惡意用戶制造或推廣虛假信息來引入新的威脅。在這篇論文中,我們提出了新的方法來對抗網上虛假信息的擴散。我們專注于自動事實驗證的任務,即根據外部可靠來源檢查給定索賠的準確性。我們分析了事實驗證系統所需的規范,并描述了對大量全面的免費文本信息資源進行操作時對效率的需求,同時確保對具有挑戰性的輸入的魯棒性和對參考證據修改的敏感性。我們的方法是通用的,正如我們所證明的,提高了事實驗證之外的許多其他模型的穩健性、效率和可解釋性。

在本文的第一部分,我們重點研究了句子對分類器的魯棒性、敏感性和可解釋性。我們提出了在大型策劃數據集中識別和量化特性的方法,這些方法不希望導致模型依賴于不可普遍化的統計線索。我們演示了對比證據對如何通過強制模型執行句子對推理來緩解這一問題。為了自動獲得這些例子,我們開發了一種新的基于原理的去噪管道,用于修改反駁證據以同意給定的主張。此外,我們提出了一個半自動的解決方案,從維基百科修訂中創建對比對,并共享一個新的大型數據集。

在第二部分中,我們轉向提高證據檢索和聲明分類模塊的推理效率,同時可靠地控制它們的準確性。我們引入了新的置信度測度,并對共形預測框架進行了新的擴展。我們的方法可以為每個輸入動態分配所需的計算資源,以滿足任意用戶指定的容忍水平。我們在多個數據集上演示了我們經過良好校準的決策規則可靠地提供了顯著的效率提高。

//dspace.mit.edu/handle/1721.1/140022

付費5元查看完整內容

機器學習是一種變革性的計算工具,它正在革新許多技術和科學應用。然而,最近在人工智能和機器學習方面的成功,以及隨之而來的模型的廣泛部署,已經改變了經典的機器學習管道。首先,可用數據的絕對規模——在數量和維度上——已經爆炸。此外,現代機器學習架構具有指數級的設計選擇和超參數,但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要,該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后,隨著我們收集越來越多的用戶數據,我們希望在向公眾發布這些模型時,基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中,我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說,我們首先提出了理解自適應梯度算法的最優性的新的理論結果,并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后,我們提出了可擴展的最小最大優化方法,以有效地解決魯棒目標。最后,我們開發了私有優化方法,在更嚴格的隱私要求下最優地學習,以及自適應方法,在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。

//searchworks.stanford.edu/view/14053711

付費5元查看完整內容

深度學習最近變得非常流行,因為它在許多復雜的數據驅動應用程序中取得了令人難以置信的成功,比如圖像分類和語音識別。數據庫社區多年來一直致力于數據驅動的應用,因此應該在支持這一新浪潮方面發揮帶頭作用。然而,數據庫和深度學習在技術和應用方面是不同的。在本文中,我們討論了這兩個領域交叉的研究問題。特別地,我們從數據庫的角度討論了對深度學習系統的可能改進,并分析了可能從深度學習技術中受益的數據庫應用。

付費5元查看完整內容
北京阿比特科技有限公司