5月5日,應(yīng)數(shù)理與金融學(xué)院邀請,同濟大學(xué)董玉超博士在T1612會議室作題為《Randomized Optimal Stopping Problem in Continuous Time and Reinforcement Learning Algorithm》的學(xué)術(shù)報告。報告會由系統(tǒng)科學(xué)學(xué)科負責(zé)人費為銀教授主持,學(xué)院青年骨干教師、研究生參加了此次報告會。
董玉超從強化學(xué)習(xí)方法在金融數(shù)學(xué)與最優(yōu)控制領(lǐng)域的應(yīng)用價值切入,系統(tǒng)闡釋了該算法相較于傳統(tǒng)優(yōu)化方法在處理高維隨機問題、復(fù)雜動態(tài)系統(tǒng)建模等方面的理論優(yōu)勢。聚焦連續(xù)時間下的隨機最優(yōu)停時問題,以美式看跌期權(quán)定價為典型案例,創(chuàng)新性地提出將熵正則化機制嵌入強化學(xué)習(xí)獎勵函數(shù),構(gòu)建起經(jīng)典最優(yōu)停時問題與連續(xù)時間隨機控制問題的數(shù)學(xué)等價框架。這一方法論突破不僅拓展了動態(tài)規(guī)劃的理論邊界,更為金融衍生品定價、投資決策優(yōu)化等實際問題提供了新的算法實現(xiàn)路徑。
在互動環(huán)節(jié),與會師生就強化學(xué)習(xí)算法、熵正則化參數(shù)校準等關(guān)鍵問題與董玉超博士展開深度探討,氣氛熱烈。本次報告通過學(xué)科交叉視角揭示了機器學(xué)習(xí)方法在金融數(shù)學(xué)領(lǐng)域的前沿應(yīng)用,為我院相關(guān)方向的研究注入了新的學(xué)術(shù)增長點,進一步推動了智能算法與數(shù)理金融的融合創(chuàng)新研究。
(文:李亮 編輯:郭亞勤 預(yù)審:潘海峰 審核:彭海燕)