Andrew Ng Explores The Rise Of AI Agents And Agentic Reasoning | BUILD 2024 Keynote

Tóm tắt ngắn:
- Bài thuyết trình chính của Andrew Ng tập trung vào sự trỗi dậy của các tác nhân AI (AI agents) và khả năng lập luận theo kiểu tác nhân (agentic reasoning). Ông cho rằng đây là một trong những cơ hội lớn nhất của AI hiện nay.
- Các điểm chính bao gồm việc phát triển mô hình học máy nhanh hơn nhờ AI sinh sản (generative AI), bốn mô hình thiết kế chính cho quy trình làm việc của tác nhân AI (phản chiếu, sử dụng công cụ, lập kế hoạch, hợp tác đa tác nhân), và ứng dụng của các tác nhân AI đa phương thức (multimodal) trong xử lý hình ảnh và video. Ông đã đề cập đến các công cụ như LangChain và mô hình GPT-3.5, GPT-4.
- Ứng dụng bao gồm tự động hóa các tác vụ phức tạp trong lĩnh vực pháp lý, chăm sóc sức khỏe, tuân thủ quy định, và đặc biệt là xử lý dữ liệu hình ảnh và video hiệu quả hơn. Ông đã trình diễn một ứng dụng demo xử lý video sử dụng Vision Agent của Landing AI.
- Các phương pháp được mô tả chi tiết bao gồm các quy trình làm việc theo kiểu tác nhân (agentic workflows) với các bước phản chiếu, sử dụng công cụ, lập kế hoạch và hợp tác đa tác nhân.
Tóm tắt chi tiết:
Bài thuyết trình được chia thành các phần chính sau:
Phần 1: Cơ hội trong AI và sự phát triển nhanh chóng của mô hình học máy:
Andrew Ng bắt đầu bằng việc ví AI như "điện năng mới", nhấn mạnh tiềm năng to lớn của nó. Ông mô tả cấu trúc AI (AI stack) và cho rằng lớp ứng dụng (application layer) là nơi có nhiều cơ hội nhất. Ông nhấn mạnh sự phát triển nhanh chóng trong việc xây dựng mô hình học máy, đặc biệt là nhờ AI sinh sản, cho phép tạo ra các nguyên mẫu nhanh chóng chỉ trong vài ngày thay vì vài tháng như trước đây. Ông đề cập đến việc thử nghiệm nhanh chóng và lặp lại (iteration) trở thành phương pháp hiệu quả hơn để tạo ra các sản phẩm AI mới. Việc đánh giá (evals) trở thành điểm nghẽn mới.
Phần 2: Trỗi dậy của các tác nhân AI (Agentic AI):
Đây là phần trọng tâm của bài thuyết trình. Ng giải thích khái niệm tác nhân AI và so sánh nó với cách sử dụng mô hình ngôn ngữ lớn (LLM) truyền thống (zero-shot prompting). Ông cho rằng quy trình làm việc theo kiểu tác nhân (agentic workflow), bao gồm các bước như lập kế hoạch, nghiên cứu, sửa đổi, mang lại kết quả tốt hơn nhiều. Ông trình bày bốn mô hình thiết kế chính cho quy trình làm việc của tác nhân AI:
- Phản chiếu (Reflection): LLM tự đánh giá và cải thiện đầu ra của chính nó.
- Sử dụng công cụ (Tool Use): LLM thực hiện các cuộc gọi API, tìm kiếm web, hoặc thực thi mã.
- Lập kế hoạch (Planning): LLM lập kế hoạch một chuỗi hành động để hoàn thành nhiệm vụ phức tạp.
- Hợp tác đa tác nhân (Multi-agent Collaboration): Nhiều LLM đóng vai trò khác nhau để cùng nhau giải quyết vấn đề.
Ông dùng ví dụ về benchmark HumanEval để chứng minh hiệu quả của agentic workflow.
Phần 3: Ứng dụng của tác nhân AI đa phương thức (Multimodal) trong xử lý hình ảnh và video:
Ng giới thiệu Vision Agent của Landing AI, một ví dụ về tác nhân AI đa phương thức. Ông trình diễn một số demo, cho thấy khả năng của Vision Agent trong việc đếm người chơi trong một trận bóng đá, phát hiện khoảnh khắc ghi bàn trong video, và tạo ra siêu dữ liệu (metadata) cho video. Đây là minh chứng cho việc ứng dụng agentic workflow trong xử lý dữ liệu hình ảnh và video, giúp khai thác hiệu quả dữ liệu hình ảnh và video mà trước đây khó có thể làm được.
Phần 4: Xu hướng AI quan trọng và kết luận:
Ng kết luận bằng việc nêu ra bốn xu hướng AI quan trọng: tăng tốc độ tạo token, tối ưu hóa LLM cho việc sử dụng công cụ, tầm quan trọng ngày càng tăng của kỹ thuật dữ liệu (data engineering), và cuộc cách mạng xử lý hình ảnh đang đến. Ông khẳng định đây là thời điểm tuyệt vời để xây dựng các ứng dụng AI mới và khuyến khích khán giả khám phá các demo của Vision Agent trên va.landing.ai. Câu nói đáng chú ý: "AI là điện năng mới".