OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12

Tóm tắt ngắn:

Video giới thiệu hai mô hình ngôn ngữ mới của OpenAI: O3 và O3 mini, được xem là bước tiến mới trong lĩnh vực AI, tập trung vào khả năng lập luận phức tạp.
Điểm nhấn là khả năng vượt trội của O3 và O3 mini trong các bài kiểm tra lập trình, toán học (bao gồm cả các bài toán khó của Codeforces, AMC, GPQ Diamond, và đặc biệt là benchmark Arc AGI), vượt xa các mô hình trước đó như O1. O3 mini nổi bật với hiệu suất cao và chi phí thấp.
OpenAI sẽ mở cửa cho các nhà nghiên cứu an ninh và an toàn công cộng thử nghiệm O3 và O3 mini trước khi phát hành rộng rãi, dự kiến vào cuối tháng 1 (O3 mini) và ngay sau đó (O3). Phương pháp "deliberative alignment" được sử dụng để nâng cao tính an toàn của mô hình.
Quá trình thử nghiệm an toàn công khai và phương pháp "deliberative alignment" được mô tả chi tiết.

Tóm tắt chi tiết:

Video được chia thành các phần chính sau:

Phần 1: Giới thiệu O3 và O3 mini: Video bắt đầu bằng việc giới thiệu sự kiện "12 ngày OpenAI" và công bố hai mô hình mới: O3 và O3 mini, kế thừa mô hình O1. OpenAI thừa nhận việc đặt tên mô hình không tốt ("really truly bad at names"). Điểm quan trọng là hai mô hình này sẽ không được phát hành công khai ngay lập tức mà sẽ được mở cửa cho thử nghiệm an toàn công cộng, bắt đầu từ ngày hôm đó. Việc thử nghiệm an toàn được nhấn mạnh là rất quan trọng.

Phần 2: Khả năng của O3: Mark, người đứng đầu nghiên cứu tại OpenAI, trình bày về khả năng của O3. O3 đạt được điểm số ấn tượng trong các bài kiểm tra lập trình (Sweet Bench Verified, Codeforces - đạt ELO gần 2727, vượt cả điểm số của các lập trình viên hàng đầu OpenAI) và toán học (AMC, GPQ Diamond, đạt điểm cao hơn 10% so với O1). Đặc biệt, O3 đạt được hơn 25% độ chính xác trên benchmark toán học khó nhất hiện nay - Epic AI's Frontier Math benchmark.

Phần 3: Benchmark Arc AGI: Greg, chủ tịch của Arc Prize Foundation, giới thiệu benchmark Arc AGI, một bài kiểm tra đánh giá khả năng học hỏi và giải quyết vấn đề mới của AI. O3 đạt được điểm số đột phá trên Arc AGI, vượt qua mốc 87.5% (trong khi điểm số của con người đạt khoảng 85%), đánh dấu một cột mốc quan trọng trong lĩnh vực AI. OpenAI và Arc Prize Foundation sẽ hợp tác phát triển các benchmark mới trong tương lai.

Phần 4: O3 mini và trình diễn trực tiếp: Hongxu, nhà nghiên cứu tại OpenAI, giới thiệu O3 mini, một mô hình hiệu quả về chi phí nhưng vẫn có hiệu năng cao. O3 mini hỗ trợ ba mức độ "suy luận" (low, medium, high), cho phép người dùng điều chỉnh thời gian tính toán. Một trình diễn trực tiếp cho thấy O3 mini có thể tạo và thực thi mã Python để giải quyết các bài toán phức tạp, bao gồm cả việc tự đánh giá chính mình trên tập dữ liệu GPQ.

Phần 5: Thử nghiệm an toàn và kết luận: Video kết thúc bằng thông báo về việc mở cửa cho các nhà nghiên cứu an toàn và an ninh công cộng tham gia thử nghiệm O3 và O3 mini (đăng ký đến ngày 10 tháng 1). OpenAI cũng giới thiệu phương pháp "deliberative alignment" để cải thiện tính an toàn của mô hình, cho phép mô hình tự lập luận để xác định các prompt nguy hiểm. Cuối cùng, OpenAI dự kiến phát hành O3 mini vào cuối tháng 1 và O3 ngay sau đó.

Những câu nói đáng chú ý:

"really truly bad at names" (OpenAI thừa nhận đặt tên mô hình không tốt)
"This is new territory in the rcgi world" (Greg về điểm số đột phá trên Arc AGI)
Các con số về điểm số của O3 và O3 mini trên các benchmark khác nhau.

Tóm lại, video trình bày một bước tiến đáng kể trong khả năng lập luận của AI với sự ra mắt của O3 và O3 mini, nhấn mạnh tầm quan trọng của việc thử nghiệm an toàn và hợp tác giữa các nhà nghiên cứu để phát triển AI một cách có trách nhiệm.