本論文探討生成式人工智能(GENAI)——特別是大語言模型(LLMs)與小語言模型(SLMs)——對供應鏈管理(SCM)決策制定的革命性影響。傳統AI工具通常通過結構化預測分析支持SCM,而GENAI為構建更敏捷穩健的供應鏈(SC)引入了動態場景生成、實時優化及非結構化數據解析等新能力。本研究通過系統文獻綜述(SLR)識別GENAI在SCM整合中的當前應用、實施挑戰與研究缺口。一方面,SLMs在特定領域低資源需求任務中展現巨大潛力,尤其契合中小企業需求;另一方面,LLMs擅長需求預測與環境社會治理(ESG)合規等數據密集型戰略任務。為助力企業應用GENAI,本研究構建五步實施框架,支持不同數字化水平組織在SCM運營中部署GENAI。研究強調SLMs在SCM中的關鍵價值,揭示其作為促進全球供應鏈數字化轉型與可持續變革加速器的可能性。為確保技術進步與負責任創新同步,本研究深入剖析AI實施的社會、環境及倫理影響,致力于通過提供適配不同數字背景企業的定制化框架,為多元SCM場景的AI應用貢獻理論與實踐價值。
企業供應鏈(SC)是由采購、生產、物流與分銷等相互關聯活動構成的復雜系統。傳統運營依賴基于歷史數據的規則系統與確定性模型進行協調執行,確保貨物流與服務流從源頭至終端的效率。盡管近年數字化技術廣泛應用,現代供應鏈日趨復雜多變,多數企業仍固守僵化的傳統企業系統(Spanaki等,2025)。
人工智能在SCM中的應用日益廣泛,旨在提升預測精度、自動化常規任務及支持優化決策。然而傳統AI系統存在顯著局限——處理實時數據與非結構化信息能力不足。相較之下,涵蓋LLMs與SLMs的GENAI技術帶來全新能力:通過模擬現實場景、解析自然語言指令及整合多源數據,實現自主適應性決策(Dubey等,2024;Richey等,2023)。Jackson等(2024)指出,GENAI可跨多供應鏈領域提供主動決策支持,突破傳統AI僅限于預測性活動的局限。
全球供應鏈網絡對可持續性、敏捷性與韌性的迫切需求驅動本研究。地緣政治動蕩、供應短缺、需求波動及環境問題等中斷事件的頻發與加劇,持續挑戰現代供應鏈體系(Sunmola & Baryannis,2024)。企業亟需在提升運營效率的同時,具備風險預判與實時響應能力。這構成GENAI有望解決的核心命題:GENAI雖為增強供應鏈智能、提升響應能力及推動數據驅動決策創造重大機遇,但其在供應鏈場景的實施面臨嚴峻障礙(Dubey等,2024),包括高昂算力成本、強數字基建需求、隱私隱患、模型偏見及AI結果過度依賴風險(Jackson等,2024)。組織間(尤其大型企業與中小企業)數字成熟度差異進一步加劇技術可用性與可擴展性擔憂。本研究旨在識別GENAI整合入SCM的潛在效益,同時應對相關挑戰與風險,評估不同數字化階段企業如何有效利用GENAI技術增強決策能力,重點關注可持續性、可擴展性與運營效率。
盡管數字技術對SCM的重要性日益凸顯,當前供應鏈決策流程仍主要基于規則、分散化且被動響應。多數企業僅依賴電子表格、靜態企業資源規劃(ERP)系統及人力密集型工作流——這些工具在當今復雜多變的供應鏈環境中已被證實力不從心。因其無法納入非結構化數據與實時信號,此類方法難以應對預測、場景規劃及解決方案推薦等挑戰。本論文通過探討SCM運營如何從"人力主導"轉向"人機協同"決策模式填補關鍵研究空白——即人員與GENAI系統(特別是SLMs與LLMs)協作決策。相較于傳統工具,這些模型能生成新信息以模擬場景、綜合多源數據并主動支持戰略與運營決策(Zheng等,n.d.)。然而此類模型與SCM的整合面臨多重挑戰:供應鏈各環節存在數字成熟度差異、勞動力技能局限、數據基礎設施碎片化、倫理與環境風險及技術能力缺口。專家關注的模型可解釋性、互操作性及組織對GENAI輸出的信任問題,進一步加劇人機協同決策的實施難度。SLMs雖具輕量化與領域特異性優勢(Li等,2024),但其在供應鏈中的應用潛力尚未充分探索;而LLMs常需遠超中小企業承受能力的算力資源(Li等,2023)。這些動態機制引發關鍵問題:如何根據企業能力適配GENAI部署,在降低過度依賴風險、確保透明度及限制技術獲取不平等方面取得平衡。
本研究核心目標是檢驗GENAI(特別是LLMs與SLMs)對SCM可持續性與決策制定的潛在影響。通過定向文獻綜述,闡釋這些AI模型如何影響關鍵SCM運營及增強決策能力;結合系統文獻綜述評估現有指南、框架或路線圖能否指導不同數字成熟度企業實施GENAI輔助供應鏈決策。
具體目標包括:
? 論證SLMs與LLMs如何優化采購、風險管理、物流及預測等核心供應鏈運營
? 剖析不同數字成熟度企業部署GENAI的主要風險與挑戰
? 設計可擴展實施框架,通過包容性部署與風險緩釋策略實現GENAI能力與企業數字準備度的匹配
本研究旨在探究GENAI(尤其是LLMs與SLMs)如何通過增強核心供應鏈任務決策來化解相關風險與局限。通過開發契合GENAI接受度與企業數字準備度的實用可擴展框架,彌合技術能力與戰略需求間的鴻溝。本論文通過界定LLMs與SLMs在多元供應鏈環境中支持負責任創新與公平獲取AI決策的路徑,深化GENAI在SCM中的理論認知,助力企業提升運營效率、數字適應力與可持續性,為學術研究與實踐應用提供雙重價值。
分層多智能體系統(HMAS)通過層級化結構組織智能體集群,有效管理復雜性與規模擴展。此類層級架構雖能簡化協調流程,卻常伴隨隱性權衡。本文提出五維分類體系:控制層級、信息流、角色任務委派、時間分層及通信結構,其核心價值在于提供跨方案比較框架而非指定"最優"設計。該分類法關聯具體協調機制——從經典任務分配的合同網協議到新興分層強化學習研究,并以電網、油田作業等工業場景佐證框架實用性:生產層、維護層與供應層智能體通過協同實現油井故障診斷或能源需求平衡。案例表明層級結構可在保障局部自主性前提下達成全局效率,但平衡點極為微妙。文末提出開放挑戰:實現人類可解釋的層級決策、超大規模智能體集群擴展、以及大語言模型等學習型智能體安全融入分層框架的可行性評估。本論文首創融合結構、時間與通信維度的分層MAS統一設計框架,構建經典協調機制與現代強化學習及大語言模型智能體的理論橋梁。
人工智能的現代應用常需多智能體在復雜環境中協同作業。分層多智能體系統(HMAS)通過層級化組織架構協調大規模智能體集群,已成為高效的系統設計范式。在HMAS中,高層智能體(或智能體團隊)通常監管協調低層智能體,形成類人類組織層級的指揮鏈。該架構優勢體現在三方面:首先解決可擴展性問題——當智能體數量激增時,純扁平化(完全去中心化)結構易受通信開銷與全局一致性制約,而通過中間"領導者"智能體實施分治策略可有效管理復雜度。分層機制賦予特定智能體更高責任權重,實現任務需求靈活適配與大規模MAS高效管控。例如自動駕駛領域提出的"區域領導者"架構:頂層智能體優化路網全局目標,區域領導者協調局部交通流。其次支持差異化抽象層級與時間尺度的決策:高層智能體執行寬時間跨度的抽象規劃(如任務規劃),低層智能體實施精細動作控制(如運動控制),提升系統整體一致性。第三促進結構化協調與沖突消解:明確權責關系(指揮鏈)與通信路徑,規避完全平等型團隊常見的決策遲滯或振蕩現象。正如Malone與Crowston經典論述所指:協調本質是管理活動間依存關系——當存在結構化監督機制時該過程顯著簡化(Malone and Crowston, 1994)。
分布式AI與多智能體系統的早期研究已證實組織設計對性能的影響。學界通過分析層級、團隊、聯盟、全息及市場等組織范式權衡優劣,尤其揭示層級組織(常通過管理者-工作者模式或樹狀拓撲實現)能以部分魯棒性為代價提升全局效率;而完全去中心化的"團隊"組織雖最大化韌性平等性,卻在大規模群體中效率受限。最新研究凸顯混合架構的復興趨勢——融合分層與去中心化協調機制以兼取二者優勢。行業投資數據佐證該趨勢:2024年Q1多智能體系統領域通過超1100筆交易獲122億美元融資,彰顯醫療、交通、金融及國防等千億級市場對MAS變革潛力的持續信心(Aalpha, 2025)。Sun等人2025年的深度研究指出"分層與去中心機制的混合策略"是實現可擴展性與適應性平衡的關鍵路徑,印證本文分類方法的科學價值。事實上層級結構在自然界(如具工蜂-蜂后層級的昆蟲社會)與人類社會(企業組織架構)普遍存在,表明精心設計的層級可顯著增強多智能體AI系統的協調效能。
除結構優勢外,HMAS更契合人機交互需求。在能源運營、軍事指揮等任務關鍵型領域,人類監督員管理AI智能體、智能體再管控底層自動化流程的分層模式,既映射現實管理結構,又為人機協作提供意圖注入節點。通過明確定義人類操作員(戰略決策者)與自主智能體(戰術執行者)角色,層級架構促進人機高效協作。但該集成亦引發新挑戰——系統需向上提供可解釋性(確保人類理解智能體決策)并建立信任機制保障可靠委派。
面對多智能體應用規模與復雜度的持續增長(從含數百分布式能源的智能電網,到自動駕駛車隊,再到自適應供應鏈),亟需建立分層多智能體系統的系統性分類與設計指南。現有MAS分類法(如按團隊規模、通信拓撲、智能體異構性劃分)基礎上,本文提出聚焦層級組織模式及其協調機制的升級版分類體系。該研究融合經典框架(如Smith 1980年提出的任務分配合同網協議及MAS組織理論)與前沿成果(分層多智能體強化學習、大語言模型智能體),以多維視角勾勒HMAS設計空間,明晰系統架構師的抉擇與權衡。分類體系植根現實應用(尤以作者深耕的能源與運營領域為典型),通過油田監測分層MAS、微電網控制等工業案例實證設計范式的實用價值。文末指出現代AI能力與層級結構交叉衍生的研究議題:如何在深度分層系統中維持全局透明度?如何將大語言模型智能體的推理能力融入傳統層級架構?本成果貢獻了橫跨控制、信息流、角色/任務委派、時間分層、通信結構五維度的統一分類法,并顯式關聯協調機制與工業部署,為研究者與系統架構師提供超越既有綜述的實用設計透鏡。
智能決策機制(IDM)作為人工智能(AI)的核心構成,旨在實現決策流程的自動化與能力增強。現代IDM技術范式通過整合先進框架,使智能體能夠制定高效且自適應的決策方案,并將復雜任務解構為可執行步驟——例如AI智能體架構與高級強化學習。基于多模態基礎模型的最新研究方法,正將視覺、語言與傳感數據等多樣化輸入模式統一為連貫的決策流程。
基礎模型(FMs)已成為科學界與產業界的關鍵支柱,深刻變革著決策能力與科研范式。其大規模多模態數據處理特性催生出極強的適應性,推動醫療健康、生命科學及教育等領域的跨學科突破。本綜述系統檢視IDM的技術演進路徑、FMs賦能的先進范式及其在多元化科學與產業領域的變革性影響,著重探討構建高效、自適應且符合倫理的決策體系所面臨的挑戰與發展機遇。
? 決策智能歷經從規則驅動向人工智能驅動的演進,實現具備情境感知能力的自適應決策。
? 基礎模型通過知識統一賦能醫療等領域的規模化自適應決策機制。
? 決策基礎模型的發展進程取決于安全防護、隱私保障及人機倫理框架的完善程度。
大型語言模型(LLMs)的持續發展為系統工程領域(尤其是視覺問答(VQA)方向)開辟了新機遇。多模態LLMs能夠同時處理文本與圖形輸入,使其可結合基于模型的系統工程(MBSE)模型的圖形元素與配套文本描述進行綜合解析。本文探究多模態LLMs對系統建模語言(SysML)v1塊定義圖(BDDs)的理解與解釋能力。BDDs是以可視化形式精確描述系統結構元素、屬性、關系與多重性的圖表。我們采用精選的SysML BDD數據集及配套多項選擇題集,對專有與開源多模態LLMs進行評估——該數據集設計用于測試LLMs在布魯姆分類法前兩層級(記憶與理解)的表現,同時分析模型規模對準確率的影響。研究結果揭示了當前哪些LLMs能夠原生解析SysML BDD語法,為未來利用AI代理增強系統建模流程的研究提供方向。
人工智能(AI)與基于模型的系統工程(MBSE)流程的融合,為提升模型理解、驗證及支持活動提供了重要機遇。多模態大語言模型(LLMs)能夠處理文本與圖形輸入,拓展了系統建模語言(SysML)v1模型自動化解析的潛力。塊定義圖(BDDs)作為SysML v1模型的核心要素,是系統結構、屬性與關系的基礎性表征(OMG,2019)。盡管LLMs發展迅速,但其精準解析SysML建模成果的能力仍鮮有研究。現有對多模態LLMs的評估主要集中于通用圖像或圖示推理,而非SysML等特定領域圖形語言(Antol等,2015;Ishmam等,2024;Lin等,2014)。這一空白限制了對LLMs在支持依賴SysML模型解析的工程流程中的效能認知。
本文通過評估當代多模態LLMs對SysML v1.x BDDs的解析能力填補這一空白。我們構建了精選BDD數據集,并設計符合布魯姆分類法前兩層級(記憶與理解)的多項選擇題集。評估涵蓋專有與開源LLMs,分析不同規模模型的性能差異。研究結果為當前LLMs在理解形式化系統建模成果上的優勢與局限提供實證見解,并為未來增強MBSE實踐中AI驅動的支持技術指明研究方向。
在技術飛速進步、市場波動加劇與全球性中斷頻發的時代,有效供應鏈管理需創新方法應對不確定性、復雜性與動態變化。本研究開發并應用一系列新型智能決策支持系統(IDSS),以解決中斷環境下的大規模隨機動態供應鏈網絡問題。通過電子商務、制造業、醫療健康與可持續性等多元領域案例驗證所提系統,具體提出四類彈性IDSS框架:集成先進優化算法、機器學習、強化學習與物流仿真技術,應對重大供應鏈中斷的現實挑戰。首個系統通過移動倉庫與眾包配送優化城市末端配送,顯著降低配送時間、成本與環境影響;第二系統開發多階段隨機動態規劃模型增強全球供應鏈彈性,優化不確定性下的物流運作;第三系統聚焦公平高效疫苗分配,采用數據驅動決策降低短缺風險;第四系統設計穩健可持續的口罩分發與回收網絡,平衡成本效益、環境影響與客戶服務。研究整合精確方法(如并行化隨機對偶動態整數規劃PSDDiP)、強化學習與混合優化策略,在保障可擴展性與計算效率前提下,提升大規模供應鏈實時彈性決策能力。既有IDSS多缺乏此類集成,或未考慮中斷場景,亦未經過大規模實時驗證。實證表明彈性IDSS在提升響應速度、時間管理與成本效益方面潛力顯著。中斷事件中數據可用性缺口與決策動態適應機制的研究,為政策制定者與實踐者提供新洞見。例如,所提在線強化驅動自適應優化(ORDAO)方法,相較交互式多智能體仿真(IMAS)可減少11%配送時間完成同等訂單量。
本論文通過開發整合數據驅動模型、優化算法、仿真與機器學習的IDSS,推動大規模供應鏈物流運營的彈性與可持續性。第二章提出基于隨機建模、行程時間仿真、眾包運力深度學習與強化學習的末端配送IDSS;第三章構建含風險對沖策略的多階段隨機制造供應鏈模型及并行SDDiP算法;第四章設計醫療領域實時需求預測與動態庫存疫苗分發系統;第六章開發閉環供應鏈內口罩可持續分發與回收的魯棒-隨機模型。第五章總結成果,闡明核心貢獻,討論模型局限并展望未來方向。整體研究為行業定制IDSS提供統一框架,增強不確定性下的適應與響應能力。
本研究探討人工智能(AI)在決策過程中不斷演變的角色,聚焦AI賦能技術如何與人類決策者互動及其影響。AI系統正加速融入商業管理至信息系統等各行業,或輔助或替代人類判斷。現有文獻強調AI融入生活與工作帶來的變革潛力與挑戰:以ChatGPT為代表的大語言模型憑借數據驅動洞察、效率提升與決策一致性等優勢被廣泛應用,但研究亦揭示需深入理解的領域——AI復制或放大人類偏見的風險、自主決策的倫理影響、人機交互的復雜性。盡管AI輔助、增強或替代人類決策已獲廣泛關注,但通過提示工程與情境應用賦予AI的角色如何影響決策結果、行為模式與建議生成,學界仍缺乏深入探索。
本論文包含四項研究,探討角色定義與目標設定對AI決策行為的影響,揭示精確定義AI角色如何在不同情境中塑造決策結果與人類決策流程。
研究1 通過系統性文獻綜述,論證機器學習與AI工具(如ChatGPT)結合提升文獻分析效率與深度的有效性。研究識別AI整合關鍵領域,揭示研究空白,指出高影響力期刊與主題,為未來研究繪制路線圖。該研究強調跨學科方法對全面理解與發揮AI潛力、應對倫理復雜性的重要性。
研究2 采用"人在回路"(HITL)框架分析AI賦能招聘流程,通過某國際招聘公司18個月質性案例研究,揭示AI工具、招聘專員與尋源分析師協作塑造招聘結果的合作模式。研究表明:AI系統實施需平衡效率與倫理及人本考量,人類判斷、監督與適應力不可或缺;組織領導力、方案適應性與人類自主權是成功關鍵要素。
研究3 通過系列實驗探究AI系統(以ChatGPT為例)被賦予的角色如何影響信息系統(IS)語境下的決策結果。研究發現:當ChatGPT被賦予人類角色時,其決策行為高度復現人類偏見;而作為AI角色時則表現出更高一致性與客觀性。研究揭示提示工程對引導AI系統符合預期決策流程的重要性——無論是模擬人類判斷還是提升決策客觀效率。
研究4 探索AI系統中的"算法厭惡"現象,測試GPT類模型在不同版本與溫度參數下對人工建議與算法輸入的響應差異。研究發現:GPT模型表現出類似人類的算法厭惡傾向,更偏好人工建議,但其表現形式與人類存在差異。該研究將算法厭惡概念擴展至AI系統,強調理解AI如何處理人機建議對設計決策支持系統的重要性,確保AI既能獨立運作又能與人類協作。
本研究在四方面深化對AI決策角色的理解:
綜上,這些研究為理解AI與人類決策者動態互動提供洞見,強調情境與角色設定對優化AI決策貢獻的重要性,為未來探索AI融入更復雜重大決策場景奠定基礎。
研究編號 | 研究重點 | 研究路徑、理論基礎與方法論 | 主要發現 | 理論貢獻 | 實踐貢獻 |
---|---|---|---|---|---|
研究1 | 商業與管理學者如何應對AI在組織中的興起?研究熱點與空白領域為何? | 采用結構化主題建模與機器學習方法進行系統性文獻綜述(CLR),結合ChatGPT輔助分析 | - 識別44個AI研究熱點(如客戶營銷、AI倫理) - 揭示體育、應急響應與智慧城市等領域的空白 |
提出"計算文獻綜述"方法論,結合AI工具提升文獻分析效率 | 指導研究者鎖定高影響力期刊,優化文獻檢索路徑 |
研究2 | AI賦能的招聘決策中如何平衡效率與倫理?人在回路(HITL)原則如何應用? | 對國際招聘機構開展18個月質性案例研究,基于社會技術系統理論與HITL框架 | - 發現協作型HITL配置模式 - 揭示行政負擔加重、權力重構等挑戰 |
拓展HITL理論在AI招聘場景的應用 | 提出AI招聘實施指南:強效領導力、系統適應性與人本考量 |
研究3 | ChatGPT在信息系統中多大程度能復現人類決策行為?角色設定如何影響決策輸出? | 通過提示工程實驗,測試ChatGPT在不同角色設定(人類/AI)下的決策行為 | - 人類角色設定下復現決策偏見 - AI角色設定下展現更高客觀性 |
提出"角色中心決策框架",揭示大語言模型角色工程對決策的影響機制 | 為提示工程提供設計準則,優化AI決策支持系統的角色配置策略 |
研究4 | AI系統是否存在算法厭惡?GPT模型對人類建議與算法輸入的響應差異如何? | 復現經典算法厭惡實驗范式,測試GPT不同版本(3.5/4.0)在多種溫度參數下對建議來源的偏好 | - GPT表現出類人算法厭惡傾向 - 對人工建議的偏好強度與溫度參數呈負相關 |
首次將算法厭惡理論拓展至AI系統,建立"元算法厭惡"概念 | 為AI協同決策系統設計提供新視角,優化人機建議權重分配機制 |
本論文探討了如何應用有監督的機器學習技術來提高網絡控制系統(NCS)的性能和可解釋性。無人駕駛系統(UxVs)可通過覆蓋大片區域的延伸偵察任務提供快速高效的目標定位。以協作方式控制一組 UxV 是一個難題,美海軍正在開發的一個解決方案是網絡控制系統行為集成優化(BION)。BION 是一種 NCS,利用部分可觀測蒙特卡洛規劃(POMCP)算法提供接近最優的近實時編隊控制。本文旨在通過使用訓練優良的神經網絡近似關鍵功能,解決 POMCP 算法的某些局限性。神經網絡利用概率技術和顯著性圖提高了可解釋性,同時也提高了處理速度。在基于 ResNet 的不同架構上進行了實驗,并成功地將訓練良好的神經網絡集成到了 BION 中。這項研究拓展了實驗和開發 BION 的能力,從而推動了UxV 的開發和集成。
第二章將討論 BION 的核心功能,以及與神經網絡和顯著性圖譜相關的關鍵概念。第三章將討論實現過程,包括訓練和評估數據、神經網絡架構、神經網絡訓練算法以及生成顯著性圖。第四章將介紹工作成果,包括訓練統計數據和計算出的顯著性圖樣本。第 5 章總結了本文的貢獻以及未來可能的工作領域。
本文介紹了一種在美國海軍和國防部框架內提高可操作技術(OT)系統安全性和效率的新方法。這項研究由負責作戰能源的海軍副助理部長贊助,旨在解決 OT 系統中異常檢測方面的關鍵差距。本文引入了一個綜合傳感器系統和先進的機器學習(ML)模型,用于分析各種 OT 設備的實時功耗數據。通過從模擬的小規模 OT 環境中開發獨特的非侵入式負載監控(NILM)數據集,本研究率先將成本效益高、易于部署的傳感器陣列與支持向量機、長短期記憶和卷積神經網絡算法等 ML 技術集成在一起。這種集成旨在簡化異常檢測,減輕這些 OT 系統中多種背板協議集成所帶來的復雜性。通過異常表征和定制檢測方法的制定,本文在利用 ML 識別系統故障、設備故障和潛在網絡安全威脅的早期指標方面開創了新的先例。這項工作極大地促進了獨立 OT 系統的安全性和復原力,使其能夠抵御一系列異常現象,為未來對基礎設施至關重要的安全和復原力 OT 系統的發展奠定了基礎。
在機器學習(ML)的整個流程中,人們扮演著至關重要的角色。人們通過復雜的分布式評估網絡對大量數據進行注釋,從而為機器學習算法的開發做出貢獻。在機器學習部署端,專家從業人員在醫療保健、借貸、教育、社會服務和救災等各種現實世界領域與 ML 模型成果合作。本論文的重點是研究和支持人類在復雜決策環境中的判斷,以期改善他們與機器學習算法的整合。這項工作以研究人類行為的學科,特別是心理學、認知科學和人機交互學的豐富和肥沃土壤為基礎,從定量和定性的角度研究不同社會技術系統中的情景人為因素,如眾包、同行評審、ML 輔助決策等。具體來說,我們設計了統計工具,用于理解不同數據激發范式下的人類行為。下一步,我們將設計實驗,從統計學角度深入了解人類在復雜環境下的決策偏差,從而支持循證政策改革,提高決策質量。為了改進現實世界環境中的人工智能部署,我們提出了特定領域和通用領域框架,以支持人類與人工智能的有效合作。這里的重點是理解和利用人類與 ML 工具的相對優勢。本論文展示了在提高機器學習算法影響力這一更廣泛的目標中強調人類作用的重要性。
機器學習(ML)技術的飛速發展,在很大程度上是由于它有望自動完成傳統上認為只有人類才能完成的各種任務。從基于視覺表征識別數字的簡單行為,到診斷胸片異常的復雜任務。對視覺表征的理解是現代機器學習方法的成就之一。其他進步包括但不限于自然語言處理、機器人等領域。這些技術進步的核心宗旨是希望復制和再現人類的能力。換句話說,要全面了解機器學習工具,就必須研究其設計初衷的人類印記。
人類的能力和智慧通過幾種復雜的互動交織在 ML 工具的結構中。當我們仔細研究任何機器學習算法的設計和執行所涉及的不同過程時,這一點就會變得顯而易見。實際上,在現實世界中部署一個 ML 模型包括三個主要階段: (1) 收集數據,以捕捉模型的預期目標,例如,對于圖像識別模型,可能需要收集帶有注釋的圖像,以描述圖像中感興趣的特征;(2) 模型開發,在此過程中,采用精心選擇的架構對模型進行訓練,以學習預期目標;(3) 模型部署,將開發的 ML 工具部署到現實世界的環境中,例如自動駕駛汽車中的圖像識別模型,它可以幫助駕駛員獲得低功耗和安全的駕駛體驗。
在本論文中,我們將重點關注人在人工智能設計和執行管道的第一和第三階段中發揮的不可或缺的作用。人們在這些階段的行為對 ML 工具產生了至關重要的影響,并直接影響到 ML 在實踐中的成果。在數據收集階段,除了最近使用合成數據訓練 ML 模型的趨勢之外,數據幾乎完全由人生成。收集到的數據反映了參與生成數據的人的知識、經驗等。經過訓練,人工智能可以從數據中的模式中學習,其結果也反映了同樣的知識和經驗。之前的機器學習文獻對這一現象進行了詳細研究。從人們那里收集數據的一種常見方式是眾包,即在眾包平臺上上傳一項特定任務(如圖像標記),由參與的工作人員為上傳的圖像提供注釋。不難看出,眾包工作者行為的特殊性會對根據這些數據訓練出的最終模型產生怎樣的影響。
接下來,模型部署階段的具體情況會對模型的幾個方面產生重要影響。例如,請看前面提到的視覺模型為駕駛提供幫助的例子。理想的駕駛助手應該能夠在駕駛員即將犯錯時發出警告,因此在這種情況下,合適的輔助模型在很大程度上取決于人類駕駛員的能力和需求。這一想法適用于所有引入人工智能工具來增強人類能力的現實環境。了解人工智能模型所要輔助的人類專家當前的能力和缺陷,對于設計一個能夠在實踐中實現改善整體結果目標的模型至關重要。
鑒于人的整合在塑造 ML 模型的行為及其在實際應用中的有用性方面發揮著重要作用,我的論文有助于設計工具和實驗,以支持在復雜環境中更好地理解和整合人,從而改進 ML 工具。具體來說,這篇論文著眼于眾包和會議同行評審領域,研究復雜數據激發環境中人類行為的不同方面。我們的研究結果揭示了人們在這兩種環境下的行為中以前未經測試的細微差別和偏差,倡導在數據激發中進行以人為本的設計。接下來,關于人在模型部署階段的作用,本論文研究了在分類和生成設置中人與人工智能成果的協作。我們闡明了了解人類專家和人工智能模型在任何任務中的相對優勢對于支持有效的人類-人工智能協作的重要性。
第一部分側重于理解眾包中的人類決策行為。正如前面簡要提到的,眾包是訓練機器學習模型的主要數據來源,而其中生成的數據質量會影響在此基礎上訓練的模型的行為。在本論文中,我們設計了統計工具來檢查眾包數據的屬性。訓練 ML 模型需要大量數據,因此我們利用高維統計學習技術為本章介紹的算法提供理論保證。具體來說,第 2 章提供了一種雙樣本測試算法,用于檢測兩個人群對一組項目的偏好(以排名表示)是否存在統計意義上的顯著差異。第 3 章研究了在眾包過程中,當眾包者的專業水平信息可用時的數據聚合方法。具體來說,我們證明了一種流行的聚合方法--最大似然估計--在統計上是不被允許的。
第二部分側重于理解同行評審中的人類決策行為。科學同行評審是一種復雜的數據激發設置,它由評審人和提交的論文組成,旨在找出最優秀的論文。這種設置以分布式人工評估為基礎,其中每個評審員只評估一部分提交的論文,而每篇論文只由少數幾個人進行評估。這種設置為研究人類行為提供了豐富的素材,同時也帶來了一系列挑戰,如主觀性、偏見、激勵機制錯位等。本章的工作重點是研究同行評議數據,檢驗參與者的行為是否存在偏差,并據此提出基于證據的同行評議政策改革建議。第二部分的大部分技術工作包括:(1)設計實驗,仔細收集會議同行評審中的人類評價數據;(2)應用統計技術,找出人們評價中的重要模式。
接下來,我們將在第三部分討論本論文的第二個重點,即理解和支持人類與機器學習模型結果的整合。機器學習模型正被用于支持醫療保健、信用貸款、刑事司法等廣泛領域的決策。例如,在刑事司法系統中,算法累犯風險評分為被告的審前保釋決策提供依據。在高風險決策系統中引入 ML 輔助,就是要通過精心設計的混合決策系統,將人類認知和 ML 模型各自的優勢結合起來并加以放大。因此,論文的第三部分旨在提出可行的見解,以提高人類與 ML 合作的有效性,從而提高其成果的質量。
在第 8 章中,我們延續了之前對人類決策中的偏差所做的研究,研究了人類認知偏差在人工智能輔助決策中的作用。這項研究是之前關于支持人類決策者適當依賴 ML 模型輸出的研究的延續。
如前所述,有效的人類-人工智能合作關系的一個重要組成部分是了解人類與基于人工智能的決策在特定任務上的優勢和局限性。雖然行為科學研究為人工智能模型補充人類認知能力(反之亦然)的潛在機會提供了見解,但還需要進一步的研究來(1)了解這些發現在具體的現實世界人類決策任務中的影響,然后(2)將這些見解付諸實施,以促進有效的人類-人工智能合作關系。因此,本論文的其余部分提出了在兩類任務中實現人機交互互補的見解:預測性決策任務和生成性、共同創造性任務。相應地,第 9 章提出了預測決策中人機互補的通用領域和特定領域框架,第 10 章介紹了我們在審核人工智能模型中人機結合的特定領域工作。
這項工作旨在通過人類決策者及其與機器學習算法的結合,為大規模提高社會技術系統的決策質量提供可操作的見解。
人工智能(AI)和機器學習(ML)為整個技術生態系統提供了新的能力。作為新技術的基礎,最終軟件產品的安全性在很大程度上取決于底層供應鏈的安全性,包括其軟件依賴性。本研究通過對精選的人工智能庫樣本的依賴關系進行漏洞映射,對人工智能/機器學習供應鏈的一部分進行了研究。我們在樣本庫的依賴樹中尋找依賴深度與相應庫供應鏈中發現的漏洞數量之間的關系。我們考慮了多種開發工具和庫及其軟件依賴關系,所有這些都是開源軟件。了解開發供應鏈中存在的潛在風險、漏洞和依賴關系將為進一步安全開發 AI/ML 產品和確保其供應鏈的安全提供參考。
在本報告中,我們記錄了機器學習(ML)回歸在周期性、高度振蕩和??∞函數上的可擴展性和靈敏度。這項工作的動機是需要在潮汐傳播等周期性問題上使用 ML 回歸。在這項工作中,TensorFlow 被用來研究周期函數從一維到三維的機器可擴展性。針對一系列層、神經元和學習率,計算了每個維度的掛鐘時間,以進一步研究 ML 回歸對這些參數的敏感性。最后,比較了隨機梯度下降和 Adam 優化器的掛鐘時間和敏感性。