成對比較的排名聚合廣泛應用于社會學、政治學、經濟學、心理學、體育等領域。鑒于其巨大的社會影響和隨之而來的激勵措施,潛在的對手有強烈的動機來操縱排名列表。然而,理想的攻擊機會和過度的對抗能力使現有方法難以實際操作。為了充分探索潛在的風險,我們利用了在線攻擊脆弱的數據收集過程。由于它獨立于排名聚合并且缺乏有效的保護機制,我們通過偽造成對比較來干擾數據收集過程,而無需了解未來的數據或真實分布。從博弈論的角度來看,在線操縱者與控制原始數據源的排名者之間的對抗場景被表述為應對知識不確定性的分布魯棒博弈。然后我們通過分析Bernoulli和水庫等采樣算法的脆弱性,證明了在上述博弈中,均衡可能對對手有利。根據上述理論分析,我們在貝葉斯決策框架和一大類參數成對比較模型下提出了不同的序列操作策略。對于完全掌握知識的攻擊者,我們建立了所提出策略的漸近最優性。為了提高在不完全知識下進行序列操作的成功率,一個分布魯棒估計器替代了鞍點問題中的最大似然估計,提供了一個保守的數據生成解決方案。最后,驗證性的實證結果表明,所提出的方法能夠以序列方式操縱排名聚合方法的結果。
鑒于信息量的爆炸性增長,推薦系統已成為在線活動中不可或缺的服務之一,能夠有效地幫助用戶找到他們感興趣的內容或目標購買的產品,從而提升用戶參與度和滿意度。盡管在過去的幾年中,得益于深度學習的進步,推薦方法得到了極大的發展,但它們仍然面臨著幾個限制。現有的方法可能難以有效理解和捕捉文本的旁信息,難以泛化到各種推薦場景,并在其預測中進行推理。最近,大語言模型(LLMs)的出現徹底改變了自然語言處理(NLP)領域,因為它們具有卓越的語言理解和生成能力。更令人印象深刻的是,它們能夠通過推理來解決復雜問題,并且可以輕松泛化到新的領域或任務。這樣的能力為解決現有推薦方法中的上述限制提供了機會,這使得基于LLM的推薦系統成為未來一個有前景的研究領域。為此,在本教程中,我們旨在從預訓練、微調和提示等各個方面提供關于基于LLM的推薦系統的最新進展的全面概述。這預計將幫助AI社區中相關領域的研究人員和工業實踐者獲得對基于LLM的推薦系統的總體理解,并為他們提供新的想法以進行更多令人興奮的研究。 我們的綜述論文:《大語言模型(LLMs)時代的推薦系統》 我們的幻燈片:第一部分,第二部分 教程網站://advanced-recommender-systems.github.io/LLMs4Rec-IJCAI/ 本教程的主題包括但不限于以下內容:
在本文中,我們考慮了多目標強化學習,這在具有多個優化目標的許多實際問題中出現。我們采用最大-最小框架來解決這一問題,重點關注多個目標之間的公平性,并在最大-最小框架下開發了相關理論和實用的無模型算法。所開發的理論在多目標強化學習方面提供了理論上的進步,而提出的算法在性能上顯著優于現有的基準方法。
圖數據在現實世界的各種應用中無處不在。為了更深入地理解這些圖,圖挖掘算法多年來發揮了重要作用。然而,大多數圖挖掘算法缺乏對公平性的考慮。因此,它們可能對某些人口次群體或個人產生歧視性的結果。這種潛在的歧視導致社會越來越關注如何緩解圖挖掘算法中表現出的偏見。本教程全面概述了在測量和減輕圖挖掘算法中出現的偏差方面的最新研究進展。首先介紹了幾個廣泛使用的公平性概念和相應的指標。然后,對現有的去偏置圖挖掘算法技術進行了有組織的總結。展示了不同的現實世界應用在去偏后如何受益于這些圖挖掘算法。對當前的研究挑戰和開放問題提出了見解,以鼓勵進一步取得進展。
//yushundong.github.io/ICDM_2022_tutorial.html
內容:
Background and Motivation. * An overview of graph mining tasks that have been studied on algorithmic bias mitigation. * An overview of the applications which benefit from debiased graph mining algorithms.
Why is it necessary to define fairness in different ways? * Group Fairness: graph mining algorithms should not render discriminatory predictions or decisions against individuals from any specific sensitive subgroup. * Individual Fairness: graph mining algorithms should render similar predictions for similar individuals. * Counterfactual Fairness: an individual should receive similar predictions when his/her features are perturbed in a counterfactual manner. * Degree-Related Fairness: nodes with different degree values in the graph should receive similar quality of predictions. * Application-Specific Fairness: fairness notions defined in specific real-world applications.
Optimization with regularization. * Optimization with constraint. * Adversarial learning. * Edge re-wiring. * Re-balancing. * Orthogonal projection.
Recommender systems. * Applications based on knowledge graphs. * Other real-world applications, including candidate-job matching, criminal justice, transportation optimization, credit default prediction, etc.
Summary of presented fairness notions, metrics and debiasing techniques in graph mining. * Summary on current challenges and future directions. * Discussion with audience on which fairness notion, metric should be applied to their own application scenarios.
講者:
我們提出了VERIX,這是在安全關鍵應用中向驗證機器學習模型的可解釋性邁出的第一步。具體地說,我們的合理和最優解釋可以保證對有界擾動的預測不變性。我們利用約束求解技術和特征靈敏度排序來有效地計算這些解釋。我們評估了我們的方法在圖像識別基準和一個真實場景的自動駕駛飛機滑行。
//www.zhuanzhi.ai/paper/34b21de1b36a14c054ad6aca3e70eb87
我們考慮在分布在用戶設備上的私有數據上建立訓練模型。為了確保隱私,我們添加了設備上的噪聲,并使用安全聚合,以便只向服務器顯示噪聲和。我們提出了一個全面的端到端系統,在執行安全聚合之前適當地離散數據并添加離散高斯噪聲。我們提供了一種新的離散高斯和的隱私分析方法,并仔細分析了數據量化和模求和算法的影響。我們的理論保證強調了溝通、隱私和準確性之間的復雜張力。我們廣泛的實驗結果表明,我們的解決方案基本上能夠以低于16位精度的每個值匹配中心差分隱私的精度。
識別惡意用戶對于確保互聯網平臺的安全性和完整性至關重要。已經建立了幾個基于深度學習的檢測模型。然而,惡意用戶可以通過操縱他們的行為來逃避深度檢測模型,使得這些模型幾乎沒有用處。這種深度檢測模型在對抗攻擊時的漏洞是未知的。本文提出了一種新的基于深度用戶序列嵌入的分類模型對抗攻擊模型,該模型利用用戶帖子序列生成用戶嵌入并檢測惡意用戶。在攻擊中,對手生成一個新的帖子來欺騙分類器。我們提出了一種新的端到端個性化文本生成攻擊模型,稱為PETGEN,它同時降低了檢測模型的有效性,并生成具有幾個關鍵的理想屬性的帖子。具體來說,PETGEN會根據用戶的寫作風格生成個性化的帖子,對給定的目標上下文有了解,知道用戶在目標上下文上的歷史帖子,并封裝用戶最近的主題興趣。我們在兩個真實世界的數據集(Yelp和Wikipedia,都有惡意用戶的真實情況)上進行了廣泛的實驗,表明PETGEN顯著降低了流行的基于深度用戶序列嵌入的分類模型的性能。在白盒和黑盒分類器設置中,PETGEN在文本質量和攻擊效能方面優于5個攻擊基準。總的來說,這項工作為下一代的對抗感知序列分類模型鋪平了道路。
Adaptive Methods for Real-World Domain Generalization
不變方法在解決領域泛化問題方面已經取得了顯著的成功,該問題的目標是對不同于訓練中使用的數據分布進行推斷。在我們的工作中,我們研究是否有可能利用未知測試樣本本身的領域信息。我們提出一個域自適應方法包括兩個步驟: a)我們首先學習區別的域嵌入從無監督訓練的例子,和 b)使用該域嵌入作為補充信息來構建一個domainadaptive模型,這需要輸入以及其域考慮而做出的預測。對于看不見的域,我們的方法簡單地使用少數未標記的測試示例來構建域嵌入。這使得對任何看不見的域進行自適應分類成為可能。我們的方法在各種領域泛化基準上實現了最先進的性能。此外,我們還引入了第一個真實世界的大規模域泛化基準Geo-YFCC,該基準包含超過40個訓練域、7個驗證域和15個測試域的1.1萬個樣本,比之前的工作大了幾個數量級。我們表明,現有的方法要么不能擴展到這個數據集,要么不如基于所有訓練領域的數據聯合的訓練模型的簡單基線。相比之下,我們的方法獲得了顯著的1%的改進。
//www.zhuanzhi.ai/paper/6e7661967d0879ebfd0236873a75386b
自訓練算法訓練模型以適應另一個先前學習的模型預測的偽標簽,對于使用神經網絡對未標記的數據進行學習非常成功。但是,當前對自訓練的理論理解僅適用于線性模型。這項工作為半監督學習,無監督領域適應和無監督學習提供了深度網絡自訓練的統一理論分析。我們分析的核心是一個簡單但現實的“擴展”假設,該假設指出,數據的低概率子集必須擴展到相對于子集而言具有較大概率的鄰域。我們還假設不同類別中的示例鄰域具有最小的重疊。我們證明在這些假設下,基于自訓練和輸入一致性正則化的人口目標最小化方法將在地面真相標簽方面實現高精度。通過使用現成的泛化邊界,我們立即將此結果轉換為在邊際和Lipschitzness中為多項式的神經網絡的樣本復雜度保證。我們的結果有助于解釋最近提出的使用輸入一致性正則化的自訓練算法的經驗成功。
//www.zhuanzhi.ai/paper/dd480967a4fbca4c6cc92
最近,終身學習在構建不斷積累和轉移知識以幫助未來學習的機器學習系統方面引起了關注。無監督主題建模廣泛用于從文檔集合中發現主題。然而,由于數據稀疏性,例如,在一個小的(短)文檔集合中,會產生不連貫的主題和次優的文檔表示,主題建模的應用具有挑戰性。為了解決這個問題,我們提出了一個神經主題建模的終身學習框架,它可以連續處理文檔集流,積累主題,并通過從多個來源的知識轉移來指導未來的主題建模任務,以更好地處理稀疏的數據。在終身學習過程中,我們特別共同研究:(1)終生共享生成同源性(潛在話題)以轉移先驗知識,(2)通過新穎的選擇性數據增強、聯合訓練和話題正則化方法最小化保留過去學習的災難性遺忘。在給定一個文檔集合流的情況下,我們應用所提出的終身神經主題建模(LNTM)框架,將三個稀疏文檔集合建模為未來任務,并通過perplexity、Topic coherence和information retrieval task量化,證明了性能的提高。