Link to original video by Tuấn Đặng Minh

Talk về AI, Transformer giữa Dr. Quoc Le và Dr. Christopher Nguyen tại AISC25 ngày 13/3/2025 tại HN.

Outline Video Talk về AI, Transformer giữa Dr. Quoc Le và Dr. Christopher Nguyen tại AISC25 ngày 13/3/2025 tại HN.

Tóm tắt ngắn:

Tóm tắt chi tiết:

Buổi nói chuyện được chia thành nhiều phần chính:

Phần 1: Hành trình nghiên cứu của Tiến sĩ Quoc Le: Phần này tập trung vào câu chuyện cá nhân và hành trình nghiên cứu của Tiến sĩ Quoc Le, từ việc lớn lên ở một vùng quê không có điện đến việc nhận học bổng du học Úc. Ông chia sẻ về sự tò mò về công nghệ và sự ấn tượng từ sự kiện con người đặt chân lên mặt trăng, dẫn đến niềm đam mê nghiên cứu trí tuệ nhân tạo. Ông miêu tả sự chuyển hướng từ phương pháp Kernel sang mạng nơ-ron, mặc dù điều này bị nhiều người phản đối lúc bấy giờ. Câu nói "mỗi thành công chỉ sau một đêm đều cần 10 năm" được nhắc đến để minh họa cho quá trình nghiên cứu lâu dài và không hề dễ dàng.

Phần 2: Từ Sequence-to-Sequence đến Transformer: Phần này tập trung vào đóng góp quan trọng của Tiến sĩ Quoc Le trong việc phát triển mô hình sequence-to-sequence. Ông giải thích động lực đằng sau việc phát triển mô hình này là mong muốn tạo ra một mô hình tổng quát cho xử lý ngôn ngữ tự nhiên (NLP). Việc lựa chọn dịch máy làm ứng dụng đầu tiên là do có sẵn lượng dữ liệu lớn. Ông nhấn mạnh sự đóng góp của các đồng nghiệp trong việc phát triển Transformer từ mô hình sequence-to-sequence, đặc biệt là việc chuyển sang sử dụng cơ chế attention song song thay vì LSTM tuần tự.

Phần 3: Gemini và tương lai của Transformer: Phần này thảo luận về sự phát triển của mô hình Gemini tại Google, bao gồm cả những thách thức và quyết định khó khăn trong quá trình phát triển. Ông đề cập đến hai dự án song song Bird (encoder-only) và Lambda (decoder-only), và lý do tại sao ông tin rằng mô hình decoder-only mạnh mẽ hơn. Ông cũng chia sẻ về những thách thức liên quan đến ảo giác và an toàn của các mô hình lớn.

Phần 4: Tương lai của AI và kiến trúc Transformer: Phần này tập trung vào những suy nghĩ của Tiến sĩ Quoc Le về tương lai của AI và kiến trúc Transformer. Ông cho rằng việc mở rộng quy mô (scaling) vẫn rất quan trọng, nhưng pre-training sẽ đạt đến điểm bão hòa. Ông cũng thảo luận về tầm quan trọng của tính song song trong xử lý thông tin và khả năng mô hình Transformer có thể bị thách thức bởi các mô hình mới tập trung vào khả năng lập luận và suy luận phức tạp hơn. Ông đề cập đến sự cần thiết của các mô hình có khả năng xử lý thông tin theo chuỗi thời gian (recurrence) và sự cần thiết của việc kết hợp các mô hình có chức năng điều khiển (executive function) và mô hình thế giới (world model). Ông không tin rằng Transformer là một "con đường cụt" nhưng thừa nhận sẽ có sự chậm lại trong tiến trình phát triển do khó khăn trong việc thu thập dữ liệu cho các nhiệm vụ phức tạp hơn.