Link to original video by IBM Technology

How to Make AI More Accurate: Top Techniques for Reliable Results

Tóm tắt ngắn:

Video thảo luận về cách cải thiện độ chính xác của trí tuệ nhân tạo (AI), đặc biệt là các mô hình ngôn ngữ lớn (LLM). AI đôi khi đưa ra những câu trả lời sai lệch, thiếu chính xác, thậm chí "ảo giác" (hallucination).
Các kỹ thuật được đề cập bao gồm: RAG (Retrieval Augmented Generation) – bổ sung thông tin từ cơ sở dữ liệu vào truy vấn; lựa chọn mô hình phù hợp với mục đích sử dụng; COT (Chain of Thought Prompting) – yêu cầu AI trình bày quá trình suy luận; LLM Chaining – kết hợp nhiều LLM để đưa ra câu trả lời đồng thuận; Mixture of Experts (MoE) – sử dụng nhiều mô hình chuyên biệt; điều chỉnh nhiệt độ (temperature) của mô hình; sử dụng system prompt; và học tăng cường với phản hồi của con người (Reinforcement Learning with Human Feedback). Ví dụ về RAG được minh họa bằng việc AI đề xuất dùng keo dán mạnh để giữ pepperoni trên pizza.
Việc cải thiện độ chính xác của AI rất quan trọng để đảm bảo AI đưa ra những lời khuyên đáng tin cậy trong việc ra quyết định, đặc biệt là trong các lĩnh vực đòi hỏi độ chính xác cao như y tế hay pháp luật.
Video giải thích chi tiết các kỹ thuật trên, bao gồm cả ví dụ minh họa và giải thích kỹ thuật.

Tóm tắt chi tiết:

Video bắt đầu bằng một ví dụ hài hước về AI đề xuất giải pháp "dùng keo dán mạnh" để giữ pepperoni trên pizza, minh họa cho vấn đề AI có thể đưa ra những câu trả lời sai lệch. Sau đó, video trình bày một số kỹ thuật để cải thiện độ chính xác của AI:

Phần 1: RAG (Retrieval Augmented Generation)

Kỹ thuật này bổ sung thông tin từ một nguồn dữ liệu đáng tin cậy (ví dụ: cơ sở dữ liệu vector) vào truy vấn trước khi đưa đến LLM. Điều này giúp LLM có thêm thông tin cần thiết để trả lời chính xác hơn, giảm thiểu hiện tượng "ảo giác".
Ví dụ: Trước khi LLM nhận truy vấn, hệ thống sẽ tìm kiếm thông tin liên quan từ cơ sở dữ liệu và thêm vào truy vấn ban đầu.

Phần 2: Chọn mô hình phù hợp

Lựa chọn mô hình AI phù hợp với mục đích sử dụng là rất quan trọng. Mô hình lớn, đa lĩnh vực có thể dễ "ảo giác" hơn khi trả lời các câu hỏi chuyên sâu, trong khi mô hình nhỏ, chuyên biệt lại hiệu quả hơn với các câu hỏi thuộc lĩnh vực chuyên môn của nó.
Ví dụ: Mô hình lớn biết về nhiều lĩnh vực (y tế, luật, công nghệ…) có thể trả lời kém chính xác hơn một mô hình nhỏ chuyên về an ninh mạng khi được hỏi về an ninh mạng.

Phần 3: COT (Chain of Thought Prompting)

Kỹ thuật này yêu cầu AI trình bày quá trình suy luận từng bước trước khi đưa ra câu trả lời cuối cùng. Điều này giúp giảm thiểu lỗi, đặc biệt trong các bài toán đòi hỏi tính logic như toán học.
Ví dụ: Giải bài toán về số lượng widget đỏ và xanh, việc trình bày từng bước tính toán giúp tìm ra đáp án chính xác hơn là chỉ đưa ra đáp án trực giác. Video đề cập đến zero-shot và few-shot chain of thought prompting.

Phần 4: LLM Chaining

Kỹ thuật này sử dụng nhiều LLM để đưa ra câu trả lời đồng thuận. Các LLM sẽ lần lượt xử lý truy vấn và chỉnh sửa kết quả của nhau, cuối cùng đưa ra câu trả lời tổng hợp. Một biến thể khác là có một LLM "giám sát" để đánh giá và lựa chọn câu trả lời tốt nhất từ các LLM khác.
Ví dụ: Giống như "hỏi ý kiến nhiều người", kết hợp nhiều "chuyên gia" AI để đưa ra câu trả lời chính xác hơn.

Phần 5: Mixture of Experts (MoE)

Tương tự LLM chaining nhưng sử dụng nhiều mô hình chuyên biệt (sub-models) nằm trong cùng một LLM lớn. Một "gating network" sẽ chọn mô hình phù hợp để xử lý từng phần của truy vấn.
Ví dụ: Một truy vấn có thể được chia nhỏ và xử lý bởi các mô hình chuyên về toán học, ngôn ngữ, công nghệ…

Phần 6: Điều chỉnh nhiệt độ (Temperature)

Điều chỉnh tham số "nhiệt độ" của mô hình ảnh hưởng đến độ sáng tạo và độ chính xác của câu trả lời. Nhiệt độ thấp cho kết quả chính xác, dự đoán được, trong khi nhiệt độ cao cho kết quả sáng tạo hơn nhưng có thể kém chính xác hơn.
Ví dụ: Câu hỏi khoa học cần nhiệt độ thấp để đảm bảo tính chính xác, trong khi viết lời bài hát cần nhiệt độ cao để có kết quả sáng tạo hơn.

Phần 7: System prompt và Reinforcement Learning with Human Feedback

System prompt là thông điệp được thêm vào mỗi truy vấn để hướng dẫn mô hình hoạt động. Có thể sử dụng để yêu cầu mô hình đưa ra câu trả lời chính xác hoặc thêm các "hàng rào bảo vệ" chống lại các cuộc tấn công.
Reinforcement Learning with Human Feedback sử dụng phản hồi của con người (đánh giá đúng/sai) để huấn luyện mô hình, cải thiện độ chính xác của câu trả lời.

Video kết thúc bằng lời kêu gọi khán giả chia sẻ ý kiến và đề xuất các phương pháp khác để cải thiện độ chính xác của AI.