

Khoa CNTT (UET FIT) xin chúc mừng ThS. Lê Bằng Giang và TS. Tạ Việt Cường với bài báo mới nhất được công bố trên IEEE Transactions on Systems, Man, and Cybernetics: Systems, một tạp chí uy tín trong lĩnh vực khoa học máy tính và điều khiển hệ thống (Top 5% trong Computer Science)!


Nghiên cứu tập trung phát triển thuật toán Soft Actor-Critic (SAC), là một trong những thuật toán phổ biến nhất của học tăng cường, bên cạnh các thuật toán khác như PPO hoặc Mạng học sâu DQN. Trong các nghiên cứu trước đây, thuật toán SAC tuy đạt được hiệu suất cao trên môi trường với hành động liên tục nhưng gặp nhiều khó khăn với môi trường với hành động rời rạc.
Nghiên cứu của nhóm đã dựa trên quan sát về độ biến thiên của hàm năng lượng entropy để chỉ ra vấn đề của SAC nằm ở chiến thuật luôn có xu hướng thiên về tìm hiểu môi trường, dẫn đến tính không ổn định đối với các tín hiệu phần thưởng rời rạc. Hay nói một cách khác, chiến thuật dễ bị suy biến về tìm kiếm tất định.
Dựa trên quan sát này, nhóm đã tiến hành cải tiến và đề xuất một phiên bản, Reg-SAC. Reg-SAC đưa vào hai kĩ thuật điều tiết lại độ biến thiên của entropy, giúp cho việc cập nhật chiến thuật ổn định hơn:



Reg-SAC giúp mô hình ổn định hơn trong các môi trường có phần thưởng thưa thớt.
Trong các bài toán quyết định rời rạc, Reg-SAC vượt trội hơn SAC tiêu chuẩn và vẫn duy trì hiệu suất cao trên bộ dữ liệu Atari có phần thưởng dày đặc.

Hãy cùng chúc mừng nhóm tác giả từ UET FIT với nghiên cứu đầy ý nghĩa này, góp phần nâng cao hiệu quả của thuật toán học tăng cường trong các bài toán hành động rời rạc! 


