Andrew Ng Explores The Rise Of AI Agents And Agentic Reasoning | BUILD 2024 Keynote

Tóm tắt ngắn:
- Bài thuyết trình chính của Andrew Ng tập trung vào sự trỗi dậy của AI Agent và khả năng lập luận theo kiểu Agent (Agentic Reasoning). Ông cho rằng AI là "điện năng mới", một công nghệ đa dụng tạo ra nhiều cơ hội ứng dụng chưa từng có.
- Các điểm chính bao gồm sự gia tăng tốc độ phát triển mô hình học máy, đặc biệt là nhờ AI Generative; sự chuyển dịch từ quy trình phát triển tuần tự sang song song; và bốn mô hình thiết kế chính cho AI Agent: phản xạ (reflection), sử dụng công cụ (tool use), lập kế hoạch (planning), và cộng tác đa Agent (multi-agent collaboration). Công nghệ cụ thể được đề cập đến bao gồm các mô hình ngôn ngữ lớn (LLM) như GPT-3.5, GPT-4, và các mô hình đa phương thức (multimodal).
- Ứng dụng được đề cập đến bao gồm giám sát danh tiếng, xử lý tài liệu pháp lý phức tạp, hỗ trợ chẩn đoán y tế, tuân thủ giấy tờ chính phủ, và xử lý hình ảnh/video. Ví dụ cụ thể là ứng dụng Vision Agent của Landing AI, cho phép đếm người chơi trong video bóng đá, phát hiện bàn thắng, và trích xuất metadata từ video.
- Các quy trình được mô tả chi tiết bao gồm quy trình phát triển mô hình AI nhanh hơn nhờ AI Generative, và bốn mô hình thiết kế cho AI Agent.
Tóm tắt chi tiết:
Bài thuyết trình được chia thành các phần chính sau:
Phần 1: AI là "điện năng mới" và cơ hội ứng dụng: Andrew Ng bắt đầu bằng việc ví AI như "điện năng mới", một công nghệ đa dụng với tiềm năng to lớn. Ông mô tả cấu trúc AI stack, nhấn mạnh tầm quan trọng của lớp ứng dụng (application layer) trong việc tạo ra giá trị và doanh thu.
Phần 2: Sự gia tăng tốc độ phát triển mô hình AI: Ông thảo luận về sự gia tăng tốc độ phát triển mô hình học máy, đặc biệt là nhờ AI Generative. Việc xây dựng các ứng dụng AI giờ đây có thể được thực hiện nhanh hơn nhiều, từ vài tháng xuống còn vài ngày. Ông nhấn mạnh sự chuyển dịch từ quy trình phát triển tuần tự sang song song, nơi mà việc xây dựng nguyên mẫu và thu thập dữ liệu diễn ra gần như cùng lúc. Việc đánh giá (evals) trở thành một nút thắt cần giải quyết.
Phần 3: AI Agent và Agentic Reasoning: Đây là phần trọng tâm của bài thuyết trình. Andrew Ng giới thiệu khái niệm AI Agent và bốn mô hình thiết kế chính:
- Phản xạ (Reflection): Mô hình này cho phép AI tự đánh giá và cải thiện đầu ra của chính nó thông qua việc lặp lại quá trình.
- Sử dụng công cụ (Tool Use): AI Agent có khả năng gọi các API, tìm kiếm trên web, hoặc thực hiện các tác vụ khác để hoàn thành nhiệm vụ.
- Lập kế hoạch (Planning): AI Agent có thể lập kế hoạch và thực hiện một chuỗi các hành động để giải quyết các nhiệm vụ phức tạp.
- Cộng tác đa Agent (Multi-agent collaboration): Nhiều AI Agent có thể cùng nhau làm việc để giải quyết một vấn đề. Ông đưa ra ví dụ về việc sử dụng GPT-3.5 và GPT-4 với và không có Agentic Workflow, cho thấy sự cải thiện đáng kể về hiệu suất.
Phần 4: Vision Agent và ứng dụng xử lý hình ảnh/video: Andrew Ng trình diễn Vision Agent của Landing AI, một ví dụ cụ thể về ứng dụng của AI Agent trong xử lý hình ảnh và video. Ông cho thấy Vision Agent có thể đếm người chơi trong video bóng đá, phát hiện bàn thắng, và trích xuất metadata từ video. Ông cũng trình diễn một ứng dụng demo cho phép tìm kiếm video dựa trên mô tả văn bản. Đây là một ví dụ minh họa rõ ràng về việc AI Agent có thể tạo ra giá trị từ dữ liệu hình ảnh và video chưa được khai thác.
Phần 5: Xu hướng AI quan trọng và kết luận: Ông kết luận bằng việc nêu ra bốn xu hướng AI quan trọng: tăng tốc độ tạo token, tối ưu hóa LLM cho việc sử dụng công cụ, tầm quan trọng ngày càng tăng của kỹ thuật dữ liệu, và sự phát triển của xử lý hình ảnh. Ông khẳng định đây là thời điểm tuyệt vời để xây dựng các ứng dụng AI và khuyến khích khán giả khám phá các demo của Vision Agent trên va.landing.ai. Câu nói đáng chú ý: "AI là điện năng mới".