Link to original video by The MAD Podcast with Matt Turck
What You MUST Know About AI Engineering in 2025 | Chip Huyen, Author of “AI Engineering”

Tóm tắt ngắn:
- Video là cuộc trò chuyện giữa Matt Turk và Chip Huyen, tác giả cuốn sách "AI Engineering", về kỹ thuật AI năm 2025, tập trung vào việc xây dựng ứng dụng AI dựa trên các mô hình nền tảng (Foundation Models).
- Các điểm chính bao gồm sự khác biệt giữa kỹ thuật AI hiện nay và học máy truyền thống (ML), tầm quan trọng của việc đánh giá hệ thống AI (đặc biệt khó khăn với AI thông minh hơn), vai trò bị đánh giá thấp của kỹ thuật gợi ý (prompt engineering), sự bền vững của RAG (Retrieval Augmented Generation), thách thức trong lập kế hoạch cho các tác nhân AI, và các thành phần khác nhau của kiến trúc AI thế hệ mới. Các công nghệ cụ thể được đề cập đến bao gồm các mô hình ngôn ngữ lớn (LLM), XG Boost, ChatGPT, Llama, và các kỹ thuật như fine-tuning, distillation, mixture of experts.
- Ứng dụng bao gồm chatbot hỗ trợ khách hàng, hệ thống đề xuất, và các ứng dụng lập trình. Những hệ thống này thường kết hợp cả mô hình truyền thống và mô hình thế hệ mới. Các hệ thống AI ngày càng phức tạp và khó đánh giá.
- Các quá trình được mô tả chi tiết bao gồm các giai đoạn huấn luyện mô hình (pre-training và post-training), quá trình lấy mẫu (sampling) trong mô hình ngôn ngữ, và các phương pháp đánh giá hệ thống AI.
Tóm tắt chi tiết:
Video được chia thành các phần chính sau:
Phần 1: Giới thiệu và sự khác biệt giữa Kỹ thuật AI và Học máy truyền thống:
- Matt giới thiệu Chip Huyen và cuốn sách "AI Engineering".
- Chip giải thích sự khác biệt chính: trước đây, việc xây dựng ứng dụng AI đòi hỏi phải tự xây dựng mô hình, nhưng hiện nay, các mô hình nền tảng đã làm cho việc này dễ dàng hơn rất nhiều. Quá trình phát triển ứng dụng cũng đảo ngược: từ sản phẩm đến dữ liệu, thay vì từ dữ liệu đến sản phẩm như trước đây. Việc đánh giá hệ thống AI cũng khó hơn nhiều do sự phức tạp của các mô hình thế hệ mới. Chip nhấn mạnh sự kết hợp giữa các mô hình truyền thống và mô hình Foundation Models trong hầu hết các ứng dụng hiện nay, trái ngược với quan niệm công chúng cho rằng AI thế hệ mới thay thế hoàn toàn các phương pháp cũ.
Phần 2: Kiến trúc và các thành phần của hệ thống AI thế hệ mới:
- Chip mô tả ba lớp chính trong kiến trúc: lớp phát triển ứng dụng (bao gồm prompt engineering và đánh giá), lớp phát triển mô hình (fine-tuning, tối ưu hóa), và lớp hạ tầng (vấn đề về khả năng mở rộng).
- Chip giải thích tại sao mô hình ngôn ngữ lại dễ mở rộng hơn các mô hình khác, nhờ vào dữ liệu dồi dào và tự giám sát (self-supervised learning). Các khái niệm giám sát (supervised), không giám sát (unsupervised), và tự giám sát được giải thích rõ ràng.
- Chip thảo luận về tầm quan trọng của kích thước mô hình (số lượng tham số) và các phương pháp để cải thiện hiệu suất của mô hình nhỏ hơn, như mixture of experts, quantization, và distillation.
Phần 3: Huấn luyện mô hình và đánh giá:
- Chip giải thích các giai đoạn huấn luyện: pre-training (huấn luyện trên nhiệm vụ dự đoán từ tiếp theo) và post-training (hướng đến việc tạo ra phản hồi hữu ích cho người dùng). Post-training thường bao gồm các kỹ thuật như học tăng cường từ phản hồi của người dùng (RLHF) và tối ưu hóa ưu tiên trực tiếp (DPO).
- Chip nhấn mạnh tầm quan trọng của quá trình lấy mẫu (sampling) để chọn đầu ra phù hợp nhất từ nhiều khả năng của mô hình.
- Chip thảo luận về những thách thức trong việc đánh giá hệ thống AI, đặc biệt là việc đánh giá dựa trên ROI (Return on Investment) và sự cần thiết phải thiết kế các chỉ số đánh giá phù hợp với từng trường hợp sử dụng. Entropy và perplexity được đề cập đến như các chỉ số hữu ích trong quá trình phát triển mô hình nhưng không phải là các chỉ số chính để đánh giá ứng dụng. Việc sử dụng AI làm người đánh giá (AI as a judge) cũng được thảo luận, cùng với những ưu điểm và nhược điểm của phương pháp này.
Phần 4: Kỹ thuật gợi ý (Prompt Engineering) và RAG:
- Chip nhấn mạnh tầm quan trọng của kỹ thuật gợi ý (prompt engineering) và cách tiếp cận có hệ thống để tối ưu hóa gợi ý. Khái niệm học trong ngữ cảnh (in-context learning) được giải thích, bao gồm zero-shot learning và few-shot learning.
- Chip thảo luận về kỹ thuật gợi ý phòng thủ (defensive prompt engineering) để bảo vệ hệ thống AI khỏi các cuộc tấn công như jailbreaking và trích xuất thông tin.
- Chip giải thích RAG (Retrieval Augmented Generation) và lý do tại sao nó vẫn cần thiết ngay cả khi mô hình có cửa sổ ngữ cảnh rất lớn.
Phần 5: Tác nhân AI (AI Agents):
- Chip định nghĩa tác nhân AI dựa trên khả năng cảm nhận và tương tác với môi trường. Việc lập kế hoạch cho tác nhân AI là một thách thức lớn, đòi hỏi khả năng dự đoán kết quả của các hành động và lựa chọn hành động tối ưu. Khó khăn trong việc tạo dữ liệu huấn luyện cho tác nhân AI để cải thiện khả năng lập kế hoạch cũng được đề cập.
Cuối cùng, Chip giới thiệu kho lưu trữ GitHub liên kết với cuốn sách, chứa nhiều tài nguyên hữu ích cho người đọc.