論文題目: Privacy-Preserving Gradient Boosting Decision Trees
論文作者: Qinbin Li, Zhaomin Wu, Zeyi Wen, Bingsheng He
論文摘要: 梯度提升決策樹(GBDT)是近年來用于各種任務的流行機器學習模型。在本文中,我們研究如何在保留差異性隱私的有力保證的同時提高GBDT的模型準確性。敏感度和隱私預算是差異化私人模型有效性的兩個關鍵設計方面。現有的具有差分隱私保護的GBDT解決方案由于過于寬松的敏感性界限和無效的隱私預算分配(尤其是GBDT模型中的不同樹)而導致嚴重的準確性損失。松散的靈敏度范圍導致更多的噪聲以獲得固定的優先級。無效的隱私預算分配使準確性降低,尤其是在樹的數量很大時。因此,我們提出了一種新的GBDT訓練算法,該算法可實現更嚴格的靈敏度范圍和更有效的噪聲分配。具體而言,通過研究梯度的屬性和每棵樹在GBDT中的貢獻,我們提出針對每個迭代和葉節點修剪自適應地控制訓練數據的梯度,以收緊敏感度范圍。此外,我們設計了一種新穎的增強框架,可以在樹之間分配隱私預算,從而可以減少準確性損失。我們的實驗表明,與其他基準相比,我們的方法可以實現更好的模型準確性。
題目: Algorithmic Decision Making with Conditional Fairness
摘要:
當前,公平問題已成為決策系統中備受關注的問題。人們提出了各種公平概念來衡量算法的不公平程度。在實踐中,經常存在一組我們稱為公平變量的變量,即用戶的選擇等決策前協變量。公平變量的影響與評價決策支持算法的公平性無關。因此,我們定義條件公平作為一個更健全的衡量公平的條件,對公平變量。鑒于對公平變量的不同先驗知識,我們證明了傳統的公平符號,如人口均等和均等概率,是我們的條件公平符號的特殊情況。此外,我們提出了一種可推導的條件公平性調節器(DCFR),該調節器可集成到任何決策模型中,以跟蹤算法決策精度與公平性之間的權衡。具體地說,我們在DCFR中提出了一個基于條件獨立性損失的對抗性表示來衡量不公平的程度。通過對三個真實數據集的廣泛實驗,我們證明了我們的條件公平性表示法和DCFR的優點。
自回歸文本生成模型通常側重于局部的流暢性,在長文本生成過程中可能導致語義不一致。此外,自動生成具有相似語義的單詞是具有挑戰性的,而且手工編寫的語言規則很難應用。我們考慮了一個文本規劃方案,并提出了一個基于模型的模仿學習方法來緩解上述問題。具體來說,我們提出了一種新的引導網絡來關注更長的生成過程,它可以幫助下一個單詞的預測,并為生成器的優化提供中間獎勵。大量的實驗表明,該方法具有較好的性能。
題目
保護隱私的協同過濾綜述,Survey of Privacy-Preserving Collaborative Filtering
關鍵字
協同過濾,隱私保護,機器學習,人工智能,推薦系統
簡介
協作過濾推薦系統根據用戶過去的經驗以及具有相似興趣的其他用戶的經驗向用戶提供建議。推薦系統的使用在最近幾年得到了廣泛的發展,可以幫助人們選擇觀看哪些電影,閱讀哪些書籍以及購買哪些物品。但是,在使用此類系統時,用戶通常會擔心其隱私,并且許多用戶不愿意為大多數在線服務提供準確的信息。隱私保護協作過濾推薦系統旨在為用戶提供準確的推薦,同時保持有關其數據隱私的某些保證。這項調查研究了有關保護隱私的協作過濾的最新文獻,提供了一個廣闊的視野,并使用兩種不同的標準對文獻中的關鍵貢獻進行了分類:漏洞的類型和解決方法。
作者
Islam Elnabarawy,Student Member, IEEE,Wei Jiang,Member, IEEE,and Donald C. Wunsch II,Fellow, IEEE
題目: Order-Preserving Key Compression for In-Memory Search Trees
簡介:
本文提出了一種用于內存搜索樹的高速保序編碼器(HOPE)。HOPE是一個快速的基于字典的壓縮器,它可以對任意鍵進行編碼,同時保持它們的順序。HOPE的方法是在細粒度上識別常見的鍵模式,并利用熵實現小字典的高壓縮率。我們首先建立了一個理論模型來推理關于保留訂單的字典設計。在此基礎上,選取了6種具有代表性的壓縮方案,并進行了實驗驗證。這些方案在壓縮率和編碼速度之間進行了不同的權衡。我們對數據庫中使用的五種數據結構進行了評估:SuRF、ART、HOT、B+tree和Prefix B+tree。我們的實驗表明,對于大多數字符串鍵工作負載,使用HOPE允許搜索樹同時實現更低的查詢延遲(最多降低40%)和更好的內存效率(最多降低30%)。
近年來,隨著深度神經網絡模型性能不斷刷新,模型的骨干網絡參數量愈發龐大,存儲和計算代價不斷提高,從而導致難以部署在資源受限的嵌入式平臺上。滴滴 AI Labs 與美國東北大學王言治教授研究組合作,聯合提出了一種基于 AutoML 思想的自動結構化剪枝的算法框架 AutoCompress,能自動化的去尋找深度模型剪枝中的超參數,去除模型中不同層的參數冗余,替代人工設計的過程并實現了超高的壓縮倍率。從而滿足嵌入式端上運行深度模型的實時性能需求。
相較之前方法的局限性,該方法提出三點創新性設計:
(1)提出混合型的結構化剪枝維度; (2)采用高效強大的神經網絡剪枝算法 ADMM(交替乘子優化算法)對訓練過程中的正則項進行動態更新; (3)利用了增強型引導啟發式搜索的方式進行行為抽樣。在 CIFAR 和 ImageNet 數據集的大量測試表明 AutoCompress 的效果顯著超過各種神經網絡壓縮方法與框架。在相同準確率下,實際參數量的壓縮相對之前方法最大可以提高超 120 倍。
論文題目: Initialization for Network Embedding: A Graph Partition Approach
論文摘要: 網絡嵌入已經在文獻中得到了深入的研究,并廣泛用于各種應用中,如鏈接預測和節點分類。盡管先前的工作集中在新算法的設計上或針對各種問題設置進行了量身定制,但常常忽略了學習過程中對初始化策略的討論。在這項工作中,我們解決了這個重要的網絡嵌入初始化問題,它可以顯著地提高算法的有效性和效率。具體來說,我們首先利用graph partition技術將圖劃分為幾個不相交的子集,然后基于這些partition構造一個abstract graph。我們通過計算abstract graph上的網絡嵌入,得到圖中每個節點的嵌入初始化,abstract graph上的網絡嵌入比輸入圖小得多,然后將嵌入傳播到輸入圖的節點中。通過對各種數據集的大量實驗,我們證明了我們的初始化技術顯著提高了最先進算法在鏈接預測和節點分類方面的性能,分別提高了7.76%和8.74%。此外,我們證明了初始化技術至少減少了20%的運行時間。
作者簡介: Wenqing Lin,騰訊高級研究員,新加坡南洋理工大學計算機科學系博士。