Anthropic’s Fable 5 đã trải qua ba ngày với tư cách là mô hình AI có khả năng nhất từng được ra mắt công chúng. Nó đứng đầu bảng xếp hạng Chatbot Arena, đè bẹp GPT 5.5 của OpenAI về điểm chuẩn mã hóa với biên độ hai chữ số và lần đầu tiên cấp cho những người đăng ký trả phí quyền truy cập vào lý luận lớp Mythos. Sau đó, vào ngày 12 tháng 6, chính phủ Mỹ ra lệnh cho Anthropic đóng cửa nó.
Kết quả là một khoảnh khắc kỳ lạ trong AI. Mẫu rõ ràng vượt trội hơn mọi mẫu khác trên thị trường là mẫu bạn không thể sử dụng. GPT 5.5, được OpenAI ra mắt vào cuối tháng 4 với tên mã nội bộ “,” hiện là mô hình mạnh nhất dành cho các nhà phát triển và người tiêu dùng, không phải vì nó được cải tiến mà vì đối thủ cạnh tranh thực sự duy nhất của nó đã bị loại bỏ.
Khoảng cách điểm chuẩn giữa hai không phải là gần. Trên SWE-Bench Pro, công cụ đo lường khả năng của mô hình trong việc giải quyết các vấn đề kỹ thuật phần mềm thực tế trên các cơ sở mã nguồn mở, Fable 5 đạt 80,3% so với 58,6% của GPT 5.5, chênh lệch 22 điểm. Trên SWE-Bench Verify, một tập hợp con được tuyển chọn có cùng điểm chuẩn, Fable 5 đạt 95,0%.
TNW City Coworking Space – Nơi công việc tốt nhất của bạn diễn ra
Một không gian làm việc được thiết kế để phát triển, hợp tác và có cơ hội kết nối vô tận ở trung tâm công nghệ.
Các điểm chuẩn mã hóa cũng kể một câu chuyện tương tự. Fable 5 dẫn đầu Code Arena với 98 điểm Elo, đạt 1.665 điểm so với 1.501 của GPT 5.5. Trên FrontierCode Diamond, một điểm chuẩn được thiết kế để kiểm tra các tác vụ lập trình khó nhất, Fable 5 đạt 29,3% trong khi GPT 5.5 đạt 5,7% và trên bảng xếp hạng Chatbot Arena rộng hơn, Fable 5 đứng ở vị trí số một với GPT 5.5 ở vị trí thứ tư.
GPT 5.5 có một điểm mạnh. Trên Terminal-Bench 2.0, đánh giá các tác vụ mã hóa dựa trên thiết bị đầu cuối tương tác thay vì giải quyết vấn đề ở cấp cơ sở mã, GPT 5.5 đạt 82,7% so với khoảng 88,0% của Fable 5. Khoảng cách ở đó hẹp hơn và điểm chuẩn kiểm tra một kỹ năng khác, thực thi lệnh và gỡ lỗi trong thời gian thực thay vì đọc và vá các kho lưu trữ lớn.
Giá cả cũng ủng hộ OpenAI. GPT 5.5 có giá 5 USD trên một triệu mã thông báo đầu vào và 30 USD trên một triệu mã thông báo đầu ra, bằng một nửa mức giá lần lượt là 10 USD và 50 USD của Fable 5. Đối với các nhà phát triển chạy các ứng dụng có khối lượng lớn trong đó sự khác biệt về hiệu suất ít quan trọng hơn chi phí, GPT 5.5 là lựa chọn thiết thực hơn ngay cả khi cả hai mẫu đều có sẵn.
Fable 5 ra mắt vào ngày 9 tháng 6 với tư cách là mô hình lớp Mythos đầu tiên của Anthropic được cung cấp cho công chúng. Nó cung cấp cửa sổ ngữ cảnh một triệu mã thông báo và 128.000 mã thông báo đầu ra. Anthropic cung cấp miễn phí cho những người đăng ký Pro, Max, Team và Enterprise cho đến ngày 22 tháng 6, thời hạn khuyến mại mà chỉ thị của chính phủ đã cắt ngắn chỉ sau ba ngày.
Việc ngừng hoạt động diễn ra thông qua một chỉ thị kiểm soát xuất khẩu được ban hành vào ngày 12 tháng 6. Chính phủ đã trích dẫn lỗ hổng bẻ khóa là lý do để rút cả Fable 5 và dòng mô hình Mythos 5 rộng hơn. Anthropic đã phản bác về mức độ nghiêm trọng của phát hiện này, nói rằng các lỗ hổng được xác định là nhỏ, được biết đến công khai và có thể đạt được bằng GPT 5.5 mà không cần bất kỳ kỹ thuật vượt qua nào, trong khi các báo cáo chỉ ra rằng Giám đốc điều hành Amazon Andy Jassy đã đóng một vai trò trong việc kích hoạt đánh giá của chính phủ.
Hậu quả thực tế là các nhà phát triển và nhà nghiên cứu đang đánh giá Fable 5 để sử dụng trong sản xuất đã phải quay lại GPT 5.5 hoặc các mô hình Opus trước đó của Anthropic. Đối với quy trình làm việc nặng về mã hóa, việc hạ cấp là rất đáng kể. Khoảng cách 22 điểm trên SWE-Bench Pro thể hiện sự khác biệt giữa một mô hình có thể giải quyết 4/5 vấn đề phần mềm trong thế giới thực và một mô hình có thể xử lý khoảng 3/5 vấn đề.
Việc Fable 5 có trở lại hay không phụ thuộc vào cuộc đàm phán của Anthropic với chính phủ về phân loại kiểm soát xuất khẩu. Công ty đã công khai lập luận rằng chỉ thị này là không tương xứng và các lỗ hổng được trích dẫn không biện minh cho việc loại bỏ hoàn toàn mô hình. Cho đến khi tranh chấp đó được giải quyết, GPT 5.5 mặc định giữ vị trí hàng đầu, mô hình tốt nhất hiện có không phải vì nó là mô hình tốt nhất tồn tại.
Nguồn The Next Web