OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12

Tóm tắt ngắn:

Video giới thiệu hai mô hình ngôn ngữ mới của OpenAI: O3 và O3 mini, được xem là bước tiến mới trong lĩnh vực AI, đặc biệt về khả năng lập luận phức tạp.
Điểm nhấn là khả năng vượt trội của O3 và O3 mini trong các bài kiểm tra lập trình, toán học (bao gồm cả các bài toán khó bậc PhD và các bài toán chưa từng được công bố), đạt điểm số cao hơn đáng kể so với các mô hình trước đó như O1. Mô hình O3 mini đặc biệt ấn tượng về hiệu quả chi phí.
Ứng dụng của các mô hình này vẫn đang trong giai đoạn thử nghiệm an toàn công khai, OpenAI kêu gọi sự tham gia của các nhà nghiên cứu an ninh và an toàn để đánh giá và cải thiện mô hình. Dự kiến ra mắt chính thức vào cuối tháng 1 năm 2025.
Phương pháp "deliberative alignment" được đề cập như một kỹ thuật mới trong việc huấn luyện an toàn mô hình AI, giúp cải thiện đáng kể khả năng nhận diện và từ chối các yêu cầu nguy hiểm.

Tóm tắt chi tiết:

Video được chia thành các phần chính sau:

Phần 1: Giới thiệu O3 và O3 mini:

OpenAI công bố hai mô hình ngôn ngữ mới: O3 và O3 mini, kế thừa và vượt trội hơn O1 về khả năng lập luận. Tên gọi O3 được giải thích một cách hài hước.
Hai mô hình hiện chưa được phát hành công khai, nhưng OpenAI mở cửa cho chương trình thử nghiệm an toàn công khai, kêu gọi sự tham gia của các nhà nghiên cứu. Thời điểm ra mắt chính thức dự kiến vào cuối tháng 1 (O3 mini) và ngay sau đó (O3).

Phần 2: Khả năng của O3:

Mark, người đứng đầu bộ phận nghiên cứu của OpenAI, trình bày kết quả đánh giá O3 trên các bài kiểm tra lập trình và toán học. O3 đạt được độ chính xác cao hơn đáng kể so với O1 trên các benchmark như Sweet Bench Verified, Codeforces, MATH, và GPQ Diamond. Đặc biệt, O3 đạt được điểm số ấn tượng trên benchmark toán học khó nhất hiện nay - Epic AI's Frontier Math Benchmark (trên 25% độ chính xác).
Greg từ Arc Prize Foundation giới thiệu benchmark Arc AGI, một bài kiểm tra đánh giá khả năng học hỏi và áp dụng kiến thức mới của AI. O3 đạt được điểm số cao nhất từ trước đến nay trên benchmark này (75.7% ở chế độ tính toán thấp và 87.5% ở chế độ tính toán cao), vượt qua cả khả năng của con người (85%). Đây được xem là một cột mốc quan trọng trong phát triển AI.

Phần 3: Khả năng của O3 mini:

Hongxu trình bày về O3 mini, một mô hình hiệu quả về chi phí nhưng vẫn có khả năng lập luận mạnh mẽ. O3 mini hỗ trợ ba mức độ "suy nghĩ" (low, medium, high), cho phép người dùng điều chỉnh thời gian xử lý tùy theo độ phức tạp của bài toán.
Kết quả đánh giá cho thấy O3 mini đạt hiệu suất lập trình và toán học tốt, thậm chí vượt trội hơn O1 mini ở một số bài kiểm tra, với chi phí thấp hơn đáng kể. Một demo trực tiếp được thực hiện, cho thấy khả năng của O3 mini trong việc tạo và thực thi mã nguồn, bao gồm cả việc tự đánh giá chính nó trên bộ dữ liệu GPQ.

Phần 4: An toàn và tương lai:

OpenAI nhấn mạnh tầm quan trọng của việc thử nghiệm an toàn và giới thiệu phương pháp "deliberative alignment" để cải thiện khả năng nhận diện và từ chối các yêu cầu nguy hiểm. Kết quả cho thấy phương pháp này giúp cải thiện đáng kể hiệu suất trên benchmark rejection.
OpenAI kêu gọi các nhà nghiên cứu đăng ký tham gia chương trình thử nghiệm an toàn công khai cho O3 và O3 mini (đến ngày 10 tháng 1).

Những câu nói đáng chú ý:

"O3 is a very very smart model… O3 mini is an incredibly smart model but still… but a really good performance and cost."
"This is new territory in the rcgi world." (Greg về kết quả của O3 trên Arc AGI)
"O3 mini defines a new cost efficient reasoning Frontier on coding." (Hongxu)
"We're really starting to leverage reasoning to get better safety." (Sam)

Tóm lại, video nhấn mạnh sự tiến bộ đáng kể của OpenAI trong việc phát triển các mô hình ngôn ngữ có khả năng lập luận mạnh mẽ và hiệu quả, đồng thời nhấn mạnh tầm quan trọng của việc thử nghiệm an toàn để đảm bảo sự phát triển có trách nhiệm của công nghệ AI.