Andrew Ng Explores The Rise Of AI Agents And Agentic Reasoning | BUILD 2024 Keynote

Tóm tắt ngắn:
- Bài thuyết trình chính của Andrew Ng tập trung vào sự trỗi dậy của AI Agent và khả năng lập luận theo kiểu Agent (Agentic Reasoning). Ông cho rằng AI là "điện năng mới", một công nghệ đa dụng tạo ra nhiều cơ hội ứng dụng chưa từng có.
- Các điểm chính xoay quanh việc phát triển mô hình AI nhanh hơn nhờ AI Generative, đặc biệt là việc xây dựng các ứng dụng AI Agent sử dụng các mẫu thiết kế như phản xạ (reflection), sử dụng công cụ (tool use), lập kế hoạch (planning) và cộng tác đa Agent (multi-agent collaboration). Ông đề cập đến các công cụ như GPT-3.5, GPT-4, và mô hình của Hugging Face. Một ví dụ cụ thể là ứng dụng Vision Agent của Landing AI, cho phép xử lý hình ảnh và video một cách hiệu quả.
- Ứng dụng bao gồm tự động hóa các tác vụ phức tạp như xử lý tài liệu pháp lý, hỗ trợ chẩn đoán y tế, tuân thủ các quy định của chính phủ, và phân tích dữ liệu hình ảnh/video. Việc phát triển nhanh chóng các nguyên mẫu và thử nghiệm nhanh chóng trở thành phương pháp chính để sáng tạo.
- Các phương pháp được mô tả chi tiết bao gồm các mẫu thiết kế của AI Agent và quy trình phát triển ứng dụng AI nhanh hơn nhờ AI Generative.
Tóm tắt chi tiết:
Bài thuyết trình được chia thành các phần chính sau:
Phần 1: AI là "điện năng mới" và cơ hội trong stack AI: Andrew Ng bắt đầu bằng việc khẳng định AI là một công nghệ đa dụng như điện năng, tạo ra nhiều cơ hội ứng dụng. Ông mô tả "stack AI" gồm phần cứng, hạ tầng đám mây (bao gồm cả Snowflake), mô hình cơ sở và lớp ứng dụng. Ông nhấn mạnh rằng lớp ứng dụng là nơi có nhiều cơ hội nhất.
Phần 2: Phát triển mô hình AI nhanh hơn với AI Generative: Ông thảo luận về sự gia tăng tốc độ phát triển mô hình AI nhờ AI Generative. Trước đây, việc xây dựng một hệ thống AI có thể mất 6-12 tháng, nhưng giờ đây, với AI Generative, một số ứng dụng có thể được xây dựng trong vòng 10 ngày. Điều này cho phép thử nghiệm nhanh chóng và tạo ra nhiều nguyên mẫu. Ông cũng đề cập đến việc đánh giá (evals) trở thành một nút thắt trong quá trình phát triển nhanh chóng này.
Phần 3: AI Agent và Agentic Reasoning: Đây là phần trọng tâm của bài thuyết trình. Ng giải thích Agentic Workflow không phải là viết liền mạch từ đầu đến cuối như zero-shot prompting, mà là một quá trình lặp đi lặp lại, bao gồm các bước như lập kế hoạch, nghiên cứu, sửa đổi. Ông nhấn mạnh bốn mẫu thiết kế chính của AI Agent: phản xạ (reflection), sử dụng công cụ (tool use), lập kế hoạch (planning) và cộng tác đa Agent (multi-agent collaboration). Ông sử dụng ví dụ về benchmark HumanEval để chứng minh hiệu quả của Agentic Workflow, cho thấy GPT-3.5 với Agentic Workflow đạt hiệu quả cao hơn đáng kể so với GPT-4 không sử dụng Agentic Workflow.
Phần 4: Vision Agent và ứng dụng trong xử lý hình ảnh và video: Ng trình diễn Vision Agent của Landing AI, một ví dụ cụ thể về AI Agent xử lý hình ảnh và video. Ông cho thấy Vision Agent có thể đếm cầu thủ trên sân, xác định thời điểm ghi bàn trong video bóng đá, và tạo metadata cho video. Ông cũng trình bày một ứng dụng demo cho phép tìm kiếm video dựa trên mô tả văn bản. Đây là một minh chứng cho việc ứng dụng AI Agent trong xử lý dữ liệu hình ảnh/video, giúp khai thác giá trị từ dữ liệu chưa được sử dụng hiệu quả trước đây.
Phần 5: Xu hướng AI quan trọng và kết luận: Ng kết luận bằng việc nêu ra bốn xu hướng AI quan trọng: tăng tốc độ tạo token, tối ưu hóa mô hình ngôn ngữ lớn cho việc sử dụng công cụ, tầm quan trọng ngày càng tăng của kỹ thuật dữ liệu (đặc biệt là dữ liệu không cấu trúc), và cuộc cách mạng xử lý hình ảnh đang đến. Ông khuyến khích khán giả thử nghiệm các demo Vision Agent trên va.landing.ai. Câu nói đáng chú ý: "AI là điện năng mới".