您現(xiàn)在的位置:首頁 > 背景提升 > Alpha go的算法原理-大學組
驗證碼

獲取驗證碼

Alpha go的算法原理:深度強化學習與圖神經(jīng)網(wǎng)絡(GNN)研究【大學組】

計算機科學/數(shù)據(jù)科學/人工智能/深度學習


項目背景

近年來,人工智能數(shù)據(jù)科學技術不斷突破與發(fā)展。卷積神經(jīng)網(wǎng)絡CNN開啟了深度學習新篇章,推動計算機視覺落地自動化駕駛等諸多領域;循環(huán)神經(jīng)網(wǎng)絡RNN推動了自然語言處理,使得機器翻譯、智能語音技術日趨成熟;深度學習之上,強化學習圖神經(jīng)網(wǎng)絡GNN的崛起正在深度賦能數(shù)據(jù)挖掘,將成為企業(yè)場景拓展、數(shù)據(jù)整合、行業(yè)效率飛躍的關鍵。項目將聚焦強化學習,特別是圖神經(jīng)網(wǎng)絡GNN這一構筑未來數(shù)字生態(tài)的核心數(shù)據(jù)科學技術。


項目介紹

項目內(nèi)容涉及強化學習核心理論和技能,具體包括遺傳算法、強化學習框架、Q-learning、行動者-批評(actor-critic;AC)模型、馬爾可夫決策過程、優(yōu)化控制、圖神經(jīng)網(wǎng)絡(graph neural networks; GNN)、自動機器學習(Auto ML)等。學生通過項目了解如何開發(fā)基于強化學習的生產(chǎn)力軟件,在結束時提交項目個性化研究課題報告,進行成果展示。

個性化研究課題參考:

強化學習在博弈論中的應用:類alpha算法開發(fā)

利用經(jīng)驗留存解決強化學習所需樣本太多問題的可行性分析

強化學習中的機器獎勵設置方法迭代

為強化學習過擬合的特定場景重新建模的自動過程研究

具有精確尺度估計的動作-評價網(wǎng)絡結構與強化學習優(yōu)勢函數(shù)


適合人群

大學生

計算機科學、人工智能、數(shù)據(jù)科學、電子與計算機工程等專業(yè),軟件工程、自動化等相關專業(yè)或者希望掌握強化學習的學生;對人工智能、大數(shù)據(jù)以及交叉學科和方向感興趣的學生; 學生需要具備線性代數(shù)及概率論與數(shù)理統(tǒng)計基礎,至少會使用一門編程語言實現(xiàn)神經(jīng)網(wǎng)絡,有過強化學習開發(fā)經(jīng)驗的申請者優(yōu)先


導師介紹

劍橋大學終身正教授

Dr.Pietro is a Full Professor at the Department of Computer Science and Technology of the University of Cambridge and a member of the Artificial Intelligence group. Prof. Pietro is also a member of the Cambridge Centre for AI in Medicine. His research interest focuses on developing Artificial Intelligence and Computational Biology models to understand disease complexity and address personalized and precision medicine. The current focus is on Graph Neural Network modeling.

導師現(xiàn)任劍橋大學計算機科學與技術終身正教授,持有歐洲學習和智能系統(tǒng)實驗室(Ellis;歐洲大型跨國人工智能研究所,目前擁有千位全球頂尖計算機工程師、數(shù)學家和其他領域科學家,旨在重構歐洲人工智能前沿研究)席位、劍橋大學大數(shù)據(jù)研究指導委員會席位。Pietro導師的研究興趣為人工智能圖神經(jīng)網(wǎng)絡建模,在國際知名學術期刊發(fā)表論文多篇,曾榮獲歐盟委員會未來與新興技術(FET;迄今歐盟規(guī)模最大、資助力度最強的科研資助項目之一)會展三等獎。


任職學校

劍橋大學建校于1209年,是世界范圍內(nèi)歷史最為悠久的大學之一,英國Top2名校,G5名校之一。劍橋大學享有世界聲譽,在英國社會和高等教育系統(tǒng)中具有極其重要的地位,同時具有廣泛的世界性影響。許多青年學子都以到劍橋大學深造為理想。劍橋大學在2020年QS世界大學綜合排名位列第7。


項目大綱

強化學習:項目將在本周聚焦遺傳算法和強化學習框架。 Introduction to reinforcement learning

環(huán)境:強化學習由智能體和環(huán)境兩部分構成。項目將在本周探討離策略、無模型強化學習算法 Q-learning、行動者-批評(actor-critic;AC)模型、馬爾可夫決策過程等。Environment

優(yōu)化:項目將在本周深入學習強化學習與優(yōu)化控制。 Optimization

集成與控制 Integration and Control

集成:項目將在本周進一步探討圖神經(jīng)網(wǎng)絡(graph neural networks; GNN)、自動機器學習(Auto ML)等。 Integration

項目回顧與成果展示 Program Review and Presentation

論文輔導 Project Deliverables Tutoring


時間安排與收獲

7周在線小組科研學習+5周論文輔導學習 共125課時

學術報告

優(yōu)秀學員獲主導師Reference Letter

EI/CPCI/Scopus/ProQuest/Crossref/EBSCO或同等級別索引國際會議全文投遞與發(fā)表(可用于申請)

結業(yè)證書

成績單

更多課程分類
驗證碼

獲取驗證碼