[MLOpsVN] Seminar #12 - Triton Server and TensorRT-LLM

Tóm tắt Seminar #12 - Triton Server và TensorRT-LLM

Tóm tắt Ngắn:

Seminar giới thiệu về Triton Server và TensorRT-LLM, hai công cụ mạnh mẽ để triển khai và phục vụ các mô hình ngôn ngữ lớn (LLM).
Triton Server là một nền tảng mã nguồn mở cho phép triển khai nhiều mô hình LLM cùng lúc trên nhiều GPU, tối ưu hóa hiệu năng và quản lý tài nguyên hiệu quả.
TensorRT-LLM là một công cụ tối ưu hóa của Nvidia, cho phép tăng tốc độ suy luận của các mô hình LLM bằng cách chuyển đổi chúng sang định dạng Engine, giảm kích thước mô hình và tiêu thụ ít tài nguyên hơn.
Seminar cũng giới thiệu về dòng sản phẩm Jetson của Nvidia, những thiết bị nhỏ gọn với khả năng xử lý mạnh mẽ, phù hợp cho việc triển khai các mô hình LLM trong các ứng dụng cá nhân hoặc quy mô nhỏ.
Seminar bao gồm phần demo về việc triển khai một mô hình LLaMa 13B trên Triton Server, sử dụng TensorRT-LLM để tối ưu hóa hiệu năng.

Tóm tắt Chi tiết:

Phần 1: Giới thiệu và Bối cảnh

Seminar được tổ chức bởi MLOpsVN Group, tập trung vào chủ đề Triton Server và TensorRT-LLM.
Diễn giả là Pha Lê, một chuyên gia AI Engineer với kinh nghiệm làm việc tại nhiều công ty công nghệ lớn như FPT, Momo.
Pha Lê chia sẻ về sự phát triển của LLM và nhu cầu ngày càng tăng về các công cụ phục vụ cho việc triển khai và tối ưu hóa các mô hình này.
Diễn giả đưa ra ví dụ về OpenAI và chi phí cao để sử dụng các dịch vụ LLM của họ, nhấn mạnh sự cần thiết của các giải pháp tối ưu hóa hiệu năng và chi phí.

Phần 2: Giới thiệu về Triton Server

Triton Server là một nền tảng mã nguồn mở được thiết kế để phục vụ các mô hình LLM hiệu quả.
Nó hỗ trợ nhiều framework deep learning phổ biến như TensorFlow, PyTorch, ONNX, và nhiều ngôn ngữ lập trình khác.
Triton Server có khả năng triển khai nhiều mô hình cùng lúc, quản lý tài nguyên GPU hiệu quả, và cung cấp các API để tương tác với các ứng dụng khác.
Diễn giả minh họa cách thức hoạt động của Triton Server thông qua một sơ đồ kiến trúc, cho thấy khả năng chia sẻ tài nguyên GPU hiệu quả giữa nhiều mô hình.

Phần 3: Giới thiệu về TensorRT-LLM

TensorRT-LLM là một công cụ tối ưu hóa của Nvidia, được thiết kế để tăng tốc độ suy luận của các mô hình LLM.
Nó sử dụng một Deep Learning Compiler để tối ưu hóa các phép toán trong mô hình, giảm kích thước mô hình và tiêu thụ ít tài nguyên hơn.
TensorRT-LLM hỗ trợ các ngôn ngữ lập trình như C++, Python, và được tích hợp vào Triton Server.
Diễn giả so sánh hiệu năng của TensorRT-LLM với các phương pháp tối ưu hóa truyền thống, cho thấy sự cải thiện đáng kể về tốc độ và hiệu quả.

Phần 4: Giới thiệu về Jetson Platform

Jetson là một dòng sản phẩm của Nvidia, bao gồm các thiết bị nhỏ gọn với khả năng xử lý mạnh mẽ, phù hợp cho việc triển khai các mô hình LLM trong các ứng dụng cá nhân hoặc quy mô nhỏ.
Diễn giả giới thiệu về các sản phẩm Jetson như Jetson Nano, Jetson AGX, và nhấn mạnh khả năng xử lý các mô hình LLM trên các thiết bị này.
Pha Lê chia sẻ kinh nghiệm triển khai một hệ thống nhận diện khuôn mặt (IVC) trên Jetson Nano, chứng minh khả năng ứng dụng của Jetson trong các ứng dụng thực tế.

Phần 5: Demo Triển khai LLaMa 13B trên Triton Server

Diễn giả hướng dẫn từng bước cách triển khai một mô hình LLaMa 13B trên Triton Server, sử dụng TensorRT-LLM để tối ưu hóa hiệu năng.
Pha Lê sử dụng Docker container để tạo môi trường triển khai, tải xuống mô hình từ Hugging Face, và sử dụng TensorRT-LLM để chuyển đổi mô hình sang định dạng Engine.
Diễn giả thực hiện demo về việc chạy mô hình LLaMa 13B trên Triton Server, cho thấy khả năng tương tác với mô hình thông qua API và hiệu năng suy luận nhanh chóng.

Phần 6: Q&A và Kết luận

Diễn giả trả lời các câu hỏi từ khán giả về các khía cạnh kỹ thuật của Triton Server, TensorRT-LLM, và Jetson Platform.
Pha Lê chia sẻ kinh nghiệm về việc sử dụng các công cụ này trong các dự án thực tế, và đưa ra lời khuyên cho những người muốn tìm hiểu và ứng dụng các công nghệ này.
Seminar kết thúc bằng lời cảm ơn đến khán giả và lời hứa hẹn về những buổi seminar tiếp theo.

Lưu ý: