– Thời gian: 9-12, thứ 6, ngày 20/12/2024
– Địa điểm: Phòng 3 – G3
– Điều phối khoa học: TS. Lê Đức Trọng.
Để đảm bảo cho buổi Seminar được diễn ra thành công, mời mọi người đăng ký tham gia buổi seminar tại link sau trước 12:00 ngày 15/12/2024: https://forms.gle/LyTwCwpuj9XnAD1RA
Phần 1:
Diễn giả: Nhật Hồ
Tiểu sử:
Nhật Hồ hiện đang là Trợ lý Giáo sư về Khoa học Dữ liệu, Học Máy và Thống Kê tại Đại học Texas ở Austin. Ông là thành viên chính của Phòng thí nghiệm Học Máy tại Đại học Texas, Austin và là nhân sự cấp cao của Viện Nền tảng Học Máy, một viện AI tiên phong hàng đầu tại Mỹ, tập trung vào nền tảng của học máy, trí tuệ nhân tạo và khoa học dữ liệu. Ông cũng là người đứng đầu Phòng thí nghiệm Khoa học Dữ liệu và Học Máy.
Nhật Hồ đã công bố hơn 91 bài báo tại các hội nghị và tạp chí hàng đầu về học máy, khoa học dữ liệu, trí tuệ nhân tạo và thống kê, bao gồm ICML, NeurIPS, ICLR, CVPR, ICCV, AISTATS, JMLR, Annals of Statistics, và nhiều nơi khác. Hiện tại, ông đang giữ vai trò biên tập viên của tạp chí Electronic Journal of Statistics và là trưởng khu vực của các hội nghị ICML, ICLR, AISTATS, AAAI,…
Nghiên cứu hiện tại của ông tập trung vào sự tương tác giữa bốn nguyên tắc chính của học máy và khoa học dữ liệu:
- Tính không đồng nhất (heterogeneity) của dữ liệu phức tạp, bao gồm các mô hình hỗn hợp, mô hình phân cấp và Bayesian phi tham số.
- Sự ổn định và tối ưu của các thuật toán tối ưu hóa và lấy mẫu trong việc giải quyết các mô hình học máy thống kê.
- Khả năng mở rộng và hiệu quả của vận chuyển tối ưu (optimal transport) trong các ứng dụng học máy và học sâu.
- Tính giải thích được, hiệu quả và tính bền vững của các mô hình học máy lớn và phức tạp.
Nội dung trình bày:
Foundation of Mixture of Experts in Complex and Massive AI Models
Mixtures of experts (MoEs), a class of statistical machine learning models that combine multiple models, known as experts, to form more complex and accurate models, have been combined into deep learning architectures to improve the ability of these architectures and AI models to capture the heterogeneity of the data and to scale up these architectures without increasing the computational cost. In mixtures of experts, each expert specializes in a different aspect of the data, which is then combined with a gating function to produce the final output. Therefore, parameter and expert estimates play a crucial role by enabling statisticians and data scientists to articulate and make sense of the diverse patterns present in the data. However, the statistical behaviors of parameters and experts in a mixture of experts have remained unsolved, which is due to the complex interaction between gating function and expert parameters.
In the first part of the talk, we investigate the performance of the least squares estimators (LSE) under a deterministic MoEs model where the data are sampled according to a regression model, a setting that has remained largely unexplored. We establish a condition called strong identifiability to characterize the convergence behavior of various types of expert functions. We demonstrate that the
rates for estimating strongly identifiable experts, namely the widely used feed-forward networks with activation functions sigmoid(·) and tanh(·), are substantially faster than those of polynomial experts, which we show to exhibit a surprising slow estimation rate.
In the second part of the talk, we show that the insights from theories shed light into understanding and improving important practical applications in machine learning and artificial intelligence (AI), including effectively scaling up massive AI models with several billion parameters, efficiently finetuning large-scale AI models for downstream tasks, and enhancing the performance of Transformer model, state-of-the-art deep learning architecture, with a novel self-attention mechanism.
Phần 2: Poster khoa học
Trần Đình Tân – Cải tiến thuật toán song song cho bài toán tối đa hóa hàm submodular không đơn điệu dưới ràng buộc chi phí
Phạm Thị Tố Nga – FAIREDU: A Multiple Regression-Based Method for Enhancing Fairness in Machine Learning Models for Educational Applications
Trần Thị Thu Phương – VSum-HB: A Vietnamese Text Summarization Dataset For Reinforcement Learning From Human Feedback
Phạm Quốc Hùng – ViQAG: A System for Vietnamese Questions and Answers Generation