報 告人:付俊杰 教授
報告題目:基于模型加速安全強化學習的無人車軌跡跟蹤控制
報告時間:2025年05月17日(周六)上午10:30
報告地點:騰訊會議411-195-263
主辦單位:數學與統計學院、數學研究院、科學技術研究院
報告人簡介:
付俊杰,東南大學教授,博導,教育部國家高層次人才,江蘇省杰出青年基金獲得者。2011年及2017年于北京大學工學院分別獲學士和博士學位。2017年至今于東南大學任教。主要研究方向包括輸入飽和多智能體分布式協同控制、分布式協同避障、分布式模型預測控制、多智能體安全強化學習等。至今共發表(含接收)SCI期刊論文50余篇,出版中文專著2部,英文專著章節1篇。申請國家發明專利11項(已授權6項)。主持國防項目、教育部裝備預研聯合基金、江蘇省杰出青年基金項目、國家自然科學基金面上及青年項目等。曾獲2022年中國指揮與控制學會科學技術進步一等獎(排2/15),2023年亞太神經網絡學會青年研究獎,2022 ICUS 最佳會議論文獎(排1/2)等。擔任國際SCI期刊The Innovation、 Intelligence and Robotics、無人系統技術等青年編委,IEEE SMC Magazine編委。目前為中國指揮與控制學會網絡科學與工程專委會副總干事、IEEE Senior Member。
報告摘要:
對于復雜環境下存在動力學不確定性的無人車系統安全軌跡跟蹤控制問題,傳統自適應或者擾動補償控制方法通常依賴于未知動力學及外界擾動項的一些先驗信息,而魯棒控制方法通常依賴于擾動上界并且控制輸入具有一定保守性。基于強化學習方法的軌跡跟蹤控制可以降低對系統動力學及環境信息的依賴,僅利用在線交互數據即可實現對控制策略的學習與訓練。然而,強化學習過程中的探索步驟對于無人車運行過程中的安全性構成威脅,且強化學習算法通常需要大量樣本才能實現策略網絡收斂,可能帶來過高的訓練成本。本報告介紹近期提出的一種基于模型加速安全強化學習的無人車軌跡跟蹤控制方法,能夠實現策略網絡訓練過程中無人車系統的高安全性以及大幅提升策略網絡訓練速度。