Link to original video by Andrej Karpathy

How I use LLMs

Tóm tắt ngắn:

Video giới thiệu về cách sử dụng các Mô hình Ngôn ngữ Lớn (LLM) như ChatGPT và các LLM khác.
Các điểm chính bao gồm: khái niệm về "token," khả năng sử dụng công cụ (tìm kiếm web, trình thông dịch Python), mô hình "suy luận" (thinking models), khả năng đa phương thức (âm thanh, hình ảnh, video), và các tính năng nâng cao chất lượng cuộc sống (bộ nhớ, hướng dẫn tùy chỉnh, GPT tùy chỉnh).
Ứng dụng của LLM được trình bày rộng rãi, từ trả lời câu hỏi kiến thức đến hỗ trợ lập trình, phân tích dữ liệu, tạo hình ảnh và video, học ngôn ngữ, và nhiều hơn nữa.
Các quá trình được mô tả chi tiết bao gồm cách LLM xử lý văn bản thành các "token," cách sử dụng công cụ tìm kiếm web, và cách huấn luyện các mô hình "suy luận."

Tóm tắt chi tiết:

Video được chia thành nhiều phần, mỗi phần tập trung vào một khía cạnh khác nhau của việc sử dụng LLM:

Phần 1: Giới thiệu về LLM và ChatGPT: Người thuyết trình giới thiệu khái niệm LLM, nhấn mạnh sự phát triển nhanh chóng của hệ sinh thái LLM kể từ khi ChatGPT ra mắt năm 2022. Ông so sánh ChatGPT với các LLM khác từ các công ty công nghệ lớn (Google, Meta, Microsoft) và các startup (Anthropic, xAI). Ông cũng đề cập đến các bảng xếp hạng LLM như Chatbot Arena và Scale Leaderboard. "ChatGPT... Original Gangster incumbent... most popular and most feature rich."

Phần 2: Cơ chế hoạt động bên trong LLM: Phần này giải thích cách LLM xử lý văn bản thành các "token" và cách các "token" này được sử dụng trong quá trình tạo văn bản. Người thuyết trình sử dụng ví dụ về việc tạo haiku và minh họa cách một câu hỏi và câu trả lời được phân tách thành các "token" bằng công cụ Tik Tokenizer. Ông mô tả quá trình tương tác giữa người dùng và mô hình như một chuỗi "token" liên tục, được gọi là "context window" (cửa sổ ngữ cảnh).

Phần 3: Kiến thức và cá tính của LLM: Người thuyết trình giải thích hai giai đoạn huấn luyện chính của LLM: pre-training (huấn luyện trước) và post-training (huấn luyện sau). Pre-training là quá trình huấn luyện mô hình trên một lượng lớn dữ liệu văn bản từ internet, tạo nên kiến thức của mô hình. Post-training là quá trình tinh chỉnh mô hình để có được cá tính và phong cách mong muốn. "Hi, I'm ChatGPT. I am a one-tab zip file..." Ông nhấn mạnh rằng kiến thức của LLM có giới hạn thời gian (knowledge cutoff) và không phải lúc nào cũng chính xác.

Phần 4: Sử dụng LLM cho các truy vấn kiến thức: Người thuyết trình đưa ra các ví dụ thực tế về cách ông sử dụng ChatGPT để tìm kiếm thông tin, chẳng hạn như lượng caffeine trong một shot Americano và thành phần của thuốc DayQuil/NyQuil. Ông nhấn mạnh tầm quan trọng của việc kiểm tra thông tin từ LLM với các nguồn chính thống.

Phần 5: Mô hình "suy luận" (Thinking Models): Phần này giới thiệu về các mô hình LLM được huấn luyện bằng reinforcement learning, cho phép chúng "suy luận" và giải quyết các bài toán phức tạp hơn. Ông so sánh hiệu quả của các mô hình "suy luận" và không "suy luận" khi giải quyết một bài toán lập trình. "These thinking strategies... resemble the inner monologue you have when you go through problem solving."

Phần 6: Sử dụng công cụ (Tool Use): Phần này tập trung vào khả năng sử dụng công cụ của LLM, đặc biệt là tìm kiếm trên internet. Ông minh họa bằng ví dụ tìm kiếm thông tin về lịch phát sóng của phim White Lotus. Ông so sánh cách thức sử dụng công cụ tìm kiếm của các LLM khác nhau (ChatGPT, Perplexity, Claude, Gemini).

Phần 7: Tìm kiếm chuyên sâu (Deep Research): Người thuyết trình giới thiệu tính năng "Deep Research" của ChatGPT, cho phép mô hình thực hiện tìm kiếm chuyên sâu trên internet và "suy luận" để tạo ra báo cáo chi tiết về một chủ đề. Ông so sánh tính năng này với các tính năng tương tự của Perplexity và Grok.

Phần 8: Tải lên tệp và đọc tài liệu: Ông trình bày cách tải lên các tệp (PDF, văn bản) vào LLM để mô hình có thể đọc và trả lời câu hỏi về nội dung của tệp đó. Ông sử dụng ví dụ về việc đọc sách "The Wealth of Nations" cùng với LLM.

Phần 9: Sử dụng trình thông dịch Python: Phần này giải thích cách LLM có thể sử dụng trình thông dịch Python để thực hiện các phép tính phức tạp và tạo ra các chương trình. Ông so sánh cách các LLM khác nhau xử lý các phép tính phức tạp.

Phần 10: Phân tích dữ liệu nâng cao (Advanced Data Analysis): Người thuyết trình giới thiệu tính năng phân tích dữ liệu nâng cao của ChatGPT, cho phép mô hình thu thập, xử lý và trực quan hóa dữ liệu. Ông nhấn mạnh tầm quan trọng của việc kiểm tra mã do mô hình tạo ra.

Phần 11: Cloud Artifacts: Phần này giới thiệu tính năng Cloud Artifacts của Anthropic, cho phép LLM tạo ra các ứng dụng web đơn giản trực tiếp trong trình duyệt. Ông sử dụng ví dụ về việc tạo ứng dụng flashcard và sơ đồ khái niệm.

Phần 12: Lập trình với Cursor: Người thuyết trình giới thiệu về Cursor, một ứng dụng hỗ trợ lập trình sử dụng LLM. Ông trình bày cách sử dụng Cursor để tạo một ứng dụng trò chơi đơn giản. "Vibe coding... giving the control to composer and just telling it what to do."

Phần 13: Đa phương thức (Multimodality): Phần này tập trung vào việc tương tác với LLM thông qua các phương thức khác nhau như giọng nói, hình ảnh và video. Ông trình bày cách sử dụng giọng nói để tương tác với LLM, cả bằng cách chuyển đổi giọng nói thành văn bản và bằng cách sử dụng "true audio" (âm thanh thực). Ông cũng trình bày cách sử dụng hình ảnh làm đầu vào cho LLM và cách tạo hình ảnh bằng LLM (DALL-E). Ông cũng giới thiệu khả năng xử lý video của LLM trên ứng dụng di động.

Phần 14: Các tính năng nâng cao chất lượng cuộc sống: Phần này bao gồm các tính năng như bộ nhớ của ChatGPT, hướng dẫn tùy chỉnh và GPT tùy chỉnh, giúp người dùng cá nhân hóa trải nghiệm sử dụng LLM.

Video kết thúc bằng một tóm tắt tổng quan về các tính năng và ứng dụng của LLM, nhấn mạnh sự phát triển nhanh chóng và tiềm năng to lớn của công nghệ này.