Link to original video by Aleksandar Haber PhD
Install and Run Locally Wan2.1 -Best Open-Source and Free Text-to-Video and Image-to-Video AI Model

Tóm tắt ngắn:
- Video hướng dẫn cài đặt và chạy mô hình trí tuệ nhân tạo mã nguồn mở Wan2.1, một mô hình mạnh mẽ chuyển đổi văn bản thành video và ảnh thành video.
- Mô hình được đánh giá là tốt nhất trong số các mô hình đã thử nghiệm, hỗ trợ GPU phổ thông, cho phép tạo video chất lượng cao từ các prompt văn bản (ví dụ: mô tả cảnh biển, chiến binh Hy Lạp cưỡi ngựa). Thời gian tạo video phụ thuộc vào cấu hình GPU (khoảng 6 phút trên RTX 3090, 4 phút trên RTX 4090). Có hai phiên bản: mô hình nhỏ (1.3B tham số) và mô hình lớn (14B tham số).
- Ứng dụng chính là tạo video từ văn bản hoặc hình ảnh, mở ra tiềm năng lớn trong lĩnh vực sáng tạo nội dung.
- Quá trình cài đặt chi tiết được hướng dẫn, bao gồm cài đặt CUDA, Git, các thư viện Python cần thiết và tải mô hình từ Hugging Face.
Tóm tắt chi tiết:
Video được chia thành các phần chính sau:
Phần 1: Giới thiệu và ví dụ
- Giới thiệu về mô hình Wan2.1 (hoặc Van2.1) và khả năng chuyển đổi văn bản/ảnh thành video.
- Thể hiện hai ví dụ minh họa khả năng tạo video từ prompt văn bản: một cảnh người đàn ông và chó chơi trên bãi biển, và một cảnh chiến binh Hy Lạp cưỡi ngựa. Video được tạo trên GPU Nvidia RTX 3090, mất khoảng 6 phút. Người thuyết trình nhấn mạnh đây là mô hình tốt nhất anh ấy đã từng dùng thử.
Phần 2: Thông tin về mô hình và Hugging Face/GitHub
- Mô hình Wan2.1 được khẳng định là vượt trội so với các mô hình mã nguồn mở khác và cả một số giải pháp thương mại.
- Mô hình có hai phiên bản: 1.3B và 14B tham số. Người thuyết trình chỉ chạy được phiên bản nhỏ hơn trên GPU của mình.
- Thông tin về yêu cầu VRAM (khoảng 8GB cho mô hình nhỏ) và thời gian tạo video trên các loại GPU khác nhau được đề cập.
- Link đến trang Hugging Face và GitHub của dự án được cung cấp.
Phần 3: Chuẩn bị và cài đặt
- Yêu cầu cài đặt Nvidia CUDA Toolkit và compiler. Link hướng dẫn cài đặt được cung cấp trong phần mô tả.
- Kiểm tra phiên bản CUDA bằng lệnh
nvcc --version
. - Hướng dẫn cài đặt trên hệ điều hành Ubuntu 24.04 (vấn đề cài đặt trên Windows sẽ được giải quyết trong video sau).
- Cài đặt các gói cần thiết:
apt update
,apt upgrade
,apt install git
. - Clone repository từ GitHub bằng lệnh
git clone [link repository]
.
Phần 4: Tạo môi trường ảo và cài đặt thư viện
- Tạo môi trường ảo Python bằng lệnh
python3 -m venv env1
. - Kích hoạt môi trường ảo bằng lệnh
source env1/bin/activate
. - Cài đặt các thư viện Python từ file
requirements.txt
bằng lệnhpip install -r requirements.txt
. - Cài đặt
huggingface_hub
để tải mô hình.
Phần 5: Tải mô hình và chạy
- Hướng dẫn tải mô hình nhỏ (1.3B tham số) từ Hugging Face bằng lệnh
huggingface-cli download [model ID] [local directory]
. - Giải thích về các tham số trong file
generate.py
: task (tên mô hình), kích thước ảnh (480x480), đường dẫn đến thư mục checkpoint, và prompt văn bản. - Chạy file
generate.py
với các tham số đã cấu hình. Quá trình tạo video được theo dõi thông qua terminal và sử dụngnvidia-smi
để giám sát sử dụng GPU. - Kết quả là một video được tạo ra trong thư mục
workspace
.
Phần 6: Kết luận
- Video kết thúc bằng lời kêu gọi like và subscribe.