您現(xiàn)在的位置:首頁 > 背景提升 > 數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)專題:“橫行賭場” 基于統(tǒng)計(jì)分析原理的不確定性過程決策分析,以如何利用算法在“多臂老虎機(jī)”游戲中取勝為例 【大學(xué)組】
驗(yàn)證碼

獲取驗(yàn)證碼

數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)專題:“橫行賭場” 基于統(tǒng)計(jì)分析原理的不確定性過程決策分析,以如何利用算法在“多臂老虎機(jī)”游戲中取勝為例 【大學(xué)組】

專業(yè):計(jì)算機(jī)科學(xué),自然科學(xué)

項(xiàng)目類型:國外小組科研

開始時間:2024年11月23日

是否可加論文:是

項(xiàng)目周期:7周在線小組科研學(xué)習(xí)+5周不限時論文指導(dǎo)學(xué)習(xí)

語言:英文

有無剩余名額:名額充足

建議學(xué)生年級:大學(xué)生

是否必需面試:否

適合專業(yè):數(shù)據(jù)科學(xué)數(shù)據(jù)分析統(tǒng)計(jì)學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)

地點(diǎn):無

建議選修:Python數(shù)據(jù)處理及其數(shù)學(xué)原理

建議具備的基礎(chǔ):人工智能、數(shù)據(jù)科學(xué)、統(tǒng)計(jì)學(xué)等專業(yè)學(xué)生 學(xué)生需要具備微積分、概率論與數(shù)理統(tǒng)計(jì)基礎(chǔ),同時會使用Python編程語言

產(chǎn)出:7周在線小組科研學(xué)習(xí)+5周不限時論文指導(dǎo)學(xué)習(xí) 共125課時 項(xiàng)目報(bào)告 優(yōu)秀學(xué)員獲主導(dǎo)師Reference Letter EI/CPCI/Scopus/ProQuest/Crossref/EBSCO或同等級別索引國際會議全文投遞與發(fā)表指導(dǎo)(可用于申請) 結(jié)業(yè)證書 成績單

項(xiàng)目背景: 一個賭徒面前有N個賭博機(jī),事先他不知道每臺賭博機(jī)的真實(shí)盈利情況,他應(yīng)該如何根據(jù)機(jī)器的操作結(jié)果做出反應(yīng),來使自身的收益最大化呢?——這個假設(shè)便是著名的“多臂強(qiáng)盜”問題的名字來源。實(shí)際上在機(jī)器學(xué)習(xí)被應(yīng)用的領(lǐng)域當(dāng)中,時時刻刻也都存在著這樣的選擇與決策情景:一個品牌針對其商品有著多款廣告宣傳,但不知道每一個用戶對于每一種廣告的接受程度;在投資中我們可能會面臨多個項(xiàng)目,但并無法確認(rèn)每個項(xiàng)目的具體回報(bào)率;亦或是在線零售商如何在不完全了解需求信息的背景下進(jìn)行實(shí)時動態(tài)定價……

項(xiàng)目介紹:“多臂強(qiáng)盜”問題是概率論中的一個經(jīng)典問題,亦是深度強(qiáng)化學(xué)習(xí)中的重要模塊。人們針對解決此類不確定性序列決策問題,提出了“多臂強(qiáng)盜”算法框架(Multi-Armed Bandits,簡稱MAB,中文又譯作“多臂老虎機(jī)”)。近年來這一算法框架因優(yōu)異的性能和較少的反饋學(xué)習(xí)等優(yōu)點(diǎn),在推薦系統(tǒng)、信息檢索到醫(yī)療保健和金融投資等諸多應(yīng)用領(lǐng)域中受到了廣泛關(guān)注。本課題正是以此框架為核心內(nèi)容,學(xué)生將在參與的過程中深入了解算法的基礎(chǔ)模型及應(yīng)用,將認(rèn)識到被廣泛使用的上置信界算法(Upper Confidence Bound,簡稱UCB)及湯普森采樣算法(Thompson Sampling Algorithms)。導(dǎo)師還將講授自身在該領(lǐng)域的最新研究成果。

This is an introductory course on multi-armed bandits, which provides a sequential decision-making framework under uncertainty and has broad applications in recommendation systems, dynamic pricing, clinical trials, financial investments, etc. We will cover the classical multi-armed bandit model and its applications, several widely used algorithms proposed for its solution including the Explore-Then-Commit (ETC), Upper Confidence Bound (UCB) and Thompson Sampling (TS) Algorithms, performance analysis of these algorithms, and conclude the lectures with the recent work of the instructor on correlated and structured bandits.

項(xiàng)目大綱:多臂老虎機(jī)問題的基礎(chǔ)介紹 Introduction to Multi-armed Bandits 隨機(jī)多臂老虎機(jī)模型 Stochastic Multi-armed Bandits 上置信界(UCB)算法 The Upper Confidence Bound (UCB) Algorithm 貝葉斯強(qiáng)盜策略與湯普森采樣算法 Bayesian Bandits and Thompson Sampling (TS) 算法應(yīng)用于實(shí)施,算法性能分析 Algorithm implementation, performance analysis 多臂老虎機(jī)算法在推薦系統(tǒng)中的應(yīng)用 Applications of Bandits in Recommendation Systems 學(xué)術(shù)研討1:教授與各組學(xué)生探討并評估個性化研究課題可行性,幫助學(xué)生明晰后續(xù)科研思路 Final Project Preparation Session I 學(xué)術(shù)研討2:學(xué)生將在本周課前完成程序設(shè)計(jì)原型(prototype)及偽代碼(Pseudocode),教授將根據(jù)各組進(jìn)度進(jìn)行個性化指導(dǎo),確保學(xué)生優(yōu)質(zhì)的終期課題產(chǎn)出 Final Project Preparation Session II 項(xiàng)目成果展示 Final Presentation 論文指導(dǎo) Project Deliverables Tutoring

更多課程分類
驗(yàn)證碼

獲取驗(yàn)證碼