Tin tức

Nghiên cứu mới của UET FIT về cải tiến Soft Actor-Critic được công bố trên IEEE Transactions on SMC!

Phạm Thị Mai Bảo

Tháng Hai 12

🎉 Thành tựu nghiên cứu mới từ UET FIT! 🎉
Khoa CNTT (UET FIT) xin chúc mừng ThS. Lê Bằng Giang và TS. Tạ Việt Cường với bài báo mới nhất được công bố trên IEEE Transactions on Systems, Man, and Cybernetics: Systems, một tạp chí uy tín trong lĩnh vực khoa học máy tính và điều khiển hệ thống (Top 5% trong Computer Science)!
📌 Tiêu đề: On the Effectiveness of Regularization Methods for Soft Actor-Critic in Discrete-Action Domains
🔍 Tóm tắt nghiên cứu:
Nghiên cứu tập trung phát triển thuật toán Soft Actor-Critic (SAC), là một trong những thuật toán phổ biến nhất của học tăng cường, bên cạnh các thuật toán khác như PPO hoặc Mạng học sâu DQN. Trong các nghiên cứu trước đây, thuật toán SAC tuy đạt được hiệu suất cao trên môi trường với hành động liên tục nhưng gặp nhiều khó khăn với môi trường với hành động rời rạc.
Nghiên cứu của nhóm đã dựa trên quan sát về độ biến thiên của hàm năng lượng entropy để chỉ ra vấn đề của SAC nằm ở chiến thuật luôn có xu hướng thiên về tìm hiểu môi trường, dẫn đến tính không ổn định đối với các tín hiệu phần thưởng rời rạc. Hay nói một cách khác, chiến thuật dễ bị suy biến về tìm kiếm tất định.
Dựa trên quan sát này, nhóm đã tiến hành cải tiến và đề xuất một phiên bản, Reg-SAC. Reg-SAC đưa vào hai kĩ thuật điều tiết lại độ biến thiên của entropy, giúp cho việc cập nhật chiến thuật ổn định hơn:
✅ Ngăn chặn sự suy giảm nhiệt độ entropy bằng một giá trị giới hạn (clipping value).
✅ Điều chỉnh cập nhật gradient của chính sách thông qua độ đo Kullback-Leibler.
📈 Kết quả nổi bật:
Reg-SAC giúp mô hình ổn định hơn trong các môi trường có phần thưởng thưa thớt.
Trong các bài toán quyết định rời rạc, Reg-SAC vượt trội hơn SAC tiêu chuẩn và vẫn duy trì hiệu suất cao trên bộ dữ liệu Atari có phần thưởng dày đặc.
🔗 Đọc bài báo đầy đủ tại đây: https://ieeexplore.ieee.org/document/10777063/
Hãy cùng chúc mừng nhóm tác giả từ UET FIT với nghiên cứu đầy ý nghĩa này, góp phần nâng cao hiệu quả của thuật toán học tăng cường trong các bài toán hành động rời rạc! 👏👏

© VNU-UET-Faculty of Information Technology. All rights reserved.