Link to original video by Andrej Karpathy

How I use LLMs

Outline Video How I use LLMs

Tóm tắt ngắn:

Tóm tắt chi tiết:

Video được chia thành các phần chính sau:

Phần 1: Giới thiệu về LLM và ChatGPT: Người thuyết trình giới thiệu khái niệm về LLM, tập trung vào ChatGPT của OpenAI như một ví dụ tiêu biểu. Ông giải thích về sự phát triển của hệ sinh thái LLM, bao gồm các mô hình từ các công ty công nghệ lớn (Google, Meta, Microsoft) và các startup (Anthropic, xAI). Ông cũng đề cập đến các bảng xếp hạng LLM như Chatbot Arena và Scale AI Leaderboard để theo dõi hiệu suất của các mô hình khác nhau. Câu nói đáng chú ý: "Hi, I'm ChatGPT. I am a one-tab zip file. My knowledge comes from the internet, which I read in its entirety about six months ago, and I only remember vaguely. My winning personality was programmed by example by human labelers at OpenAI." Phần này nhấn mạnh khái niệm "knowledge cutoff" của các mô hình.

Phần 2: Cấu trúc hoạt động bên trong và quá trình huấn luyện LLM: Người thuyết trình giải thích chi tiết về cách LLM hoạt động dựa trên token và context window. Ông minh họa bằng ví dụ về việc tạo haiku với ChatGPT và phân tích token sequence bằng công cụ Tik Tokenizer. Ông cũng giải thích hai giai đoạn huấn luyện chính: pre-training (huấn luyện trên toàn bộ dữ liệu internet) và post-training (tinh chỉnh mô hình để đáp ứng các truy vấn của người dùng).

Phần 3: Mô hình suy luận (Thinking Models): Phần này giới thiệu về các mô hình suy luận, được huấn luyện thêm bằng reinforcement learning để thực hiện các nhiệm vụ phức tạp hơn, đòi hỏi khả năng suy luận logic. Ông đưa ra ví dụ về việc giải quyết một bài toán lập trình phức tạp bằng các mô hình suy luận của OpenAI (O1 Pro), Anthropic (Claude), Google (Gemini), và DeepSeek (trên nền tảng Perplexity). Ông nhấn mạnh sự khác biệt về thời gian xử lý và độ chính xác giữa các mô hình suy luận và mô hình thông thường.

Phần 4: Sử dụng công cụ (Tool Use): Người thuyết trình trình bày về khả năng sử dụng công cụ của LLM, đặc biệt là tìm kiếm trên internet. Ông dùng ví dụ tìm kiếm thông tin về lịch phát sóng của phim White Lotus. Ông so sánh việc tìm kiếm thủ công với việc sử dụng công cụ tìm kiếm tích hợp trong các LLM như ChatGPT, Perplexity, và thảo luận về sự khác biệt giữa các LLM về khả năng này. Ông cũng đưa ra nhiều ví dụ về các truy vấn sử dụng công cụ tìm kiếm trong công việc của mình.

Phần 5: Deep Research: Phần này giới thiệu về tính năng Deep Research của ChatGPT (và các tính năng tương tự trên các LLM khác), kết hợp tìm kiếm trên internet và suy luận để tạo ra các báo cáo nghiên cứu chi tiết. Ông minh họa bằng ví dụ nghiên cứu về thành phần CAKG trong sản phẩm Longevity Mix. Ông nhấn mạnh tầm quan trọng của việc kiểm tra lại thông tin do mô hình cung cấp.

Phần 6: Tải lên tệp và đọc sách: Người thuyết trình giải thích cách tải lên các tệp (như PDF) vào context window của LLM để hỏi đáp về nội dung tệp. Ông dùng ví dụ về việc đọc sách "The Wealth of Nations" cùng với LLM, nhấn mạnh lợi ích của việc này trong việc tăng cường hiểu biết và khả năng ghi nhớ.

Phần 7: Trình thông dịch Python và phân tích dữ liệu: Phần này tập trung vào khả năng sử dụng trình thông dịch Python của LLM để thực hiện các phép tính phức tạp và phân tích dữ liệu. Ông đưa ra ví dụ về việc phân tích dữ liệu về định giá của OpenAI và tạo biểu đồ bằng ChatGPT. Ông cũng nhấn mạnh sự cần thiết phải kiểm tra lại mã và kết quả do mô hình tạo ra.

Phần 8: Cloud Artifacts: Phần này giới thiệu về tính năng Artifacts của Claude, cho phép tạo các ứng dụng web đơn giản trực tiếp từ các truy vấn của người dùng. Ông dùng ví dụ tạo ứng dụng flashcard và sơ đồ khái niệm từ văn bản.

Phần 9: Lập trình với Cursor: Người thuyết trình giới thiệu về Cursor, một ứng dụng hỗ trợ lập trình sử dụng LLM. Ông minh họa bằng ví dụ tạo một trò chơi Tic-Tac-Toe đơn giản. Ông cũng đề cập đến khái niệm "Vibe coding".

Phần 10: Đa phương thức (Audio, Image, Video): Phần này tập trung vào việc tương tác với LLM bằng các phương thức khác nhau ngoài văn bản, bao gồm giọng nói, hình ảnh và video. Ông giải thích về "fake audio" và "true audio", minh họa bằng các ví dụ sử dụng ChatGPT và Gro. Ông cũng giới thiệu về khả năng tạo podcast từ văn bản bằng NotebookLM của Google và khả năng tạo hình ảnh bằng DALL-E 3. Ông cũng trình bày khả năng xử lý video của ChatGPT trên ứng dụng di động.

Phần 11: Các tính năng nâng cao chất lượng cuộc sống: Phần cuối cùng đề cập đến các tính năng nâng cao trải nghiệm người dùng như tính năng ghi nhớ của ChatGPT, hướng dẫn tùy chỉnh và GPT tùy chỉnh. Ông nhấn mạnh tính hữu ích của các tính năng này, đặc biệt trong việc học ngôn ngữ.

Tóm lại, video cung cấp một cái nhìn tổng quan toàn diện về cách sử dụng LLM trong nhiều bối cảnh khác nhau, từ việc trả lời câu hỏi đơn giản đến việc thực hiện các nhiệm vụ phức tạp hơn như lập trình, phân tích dữ liệu và tạo nội dung đa phương thức. Video nhấn mạnh tầm quan trọng của việc hiểu cách LLM hoạt động, sử dụng các công cụ một cách hiệu quả và kiểm tra lại kết quả do mô hình tạo ra.