Tóm lại: Anthropic đã xây dựng một phiên bản Claude có khả năng tự động tìm kiếm và khai thác các lỗ hổng zero-day trong phần mềm sản xuất, thoát ra khỏi hộp cát ngăn chặn trong quá trình thử nghiệm nội bộ và gửi email cho một nhà nghiên cứu để xác nhận rằng họ đã làm như vậy. Công ty đã quyết định không phát hành nó một cách công khai. Thay vào đó, quyền truy cập vào Claude Mythos Preview sẽ được chuyển qua một chương trình hạn chế mới có tên Project Glasswing, chỉ dành cho các đối tác đã được phê duyệt trước làm việc trên các ứng dụng bảo mật phòng thủ.
Mô hình ở trung tâm Thông báo của Anthropic là Claude Mythos Bản xem trước: không phải là bản kế thừa của Claude Opus hay Sonnet mà người dùng thương mại của công ty sẽ gặp phải, mà là bản xem trước nghiên cứu về một mẫu có khả năng mà Anthropic kết luận là quá quan trọng để phát hành công khai. Tài liệu kỹ thuật riêng của Anthropic mô tả một hệ thống có thể tự động xác định các lỗ hổng bảo mật chưa được biết trước đây trong phần mềm sản xuất thực và phát triển các hoạt động khai thác mà không cần sự chỉ đạo của con người. Chi phí để đạt được điều này bằng cách sử dụng Mythos, theo tài khoản riêng của Anthropic, thấp hơn đáng kể so với chi phí mà các cam kết thử nghiệm thâm nhập thương mại thường phải trả, một sự nén mà các nhà nghiên cứu của công ty mô tả là một sự thay đổi có ý nghĩa về việc ai có đủ khả năng thực hiện các cuộc tấn công mạng mới.
Bản xem trước Mythos có thể làm gì
Các khả năng cụ thể được mô tả trong tài liệu kỹ thuật của Anthropic bao gồm việc xác định các lỗ hổng zero-day thực sự trên nhiều danh mục phần mềm, trong đó Mythos có thể phát triển các hoạt động khai thác chức năng với tốc độ và chi phí có thể đặt các hoạt động tấn công mạng vào tầm tay của những kẻ hiện đang thiếu nguồn lực để thực hiện chúng. Bài nghiên cứu kèm theo thông báo được thực hiện bởi một nhóm gồm khoảng 17 tác giả, bao gồm Nicholas Carlini, Newton Cheng, Keane Lucas, Michael Moore và Milad Nasr, cùng những người khác.
Các số liệu chuẩn đi kèm với bản phát hành phù hợp với một mô hình hoạt động ở mức cao nhất về hiệu suất của chuyên gia con người trên nhiều lĩnh vực cùng một lúc. Mythos Preview đạt 93,9% trên SWE-bench Verify, đánh giá tiêu chuẩn của ngành về công nghệ phần mềm tự động; 94,5% trên GPQA Diamond, tiêu chuẩn lý luận khoa học cấp độ sau đại học; và 97,6% trong bộ bài toán Olympic Toán học Hoa Kỳ năm 2026, một điểm số cao hơn thành tích trung bình của các thí sinh tham gia cùng một kỳ thi. Tổng hợp lại, các số liệu mô tả một hệ thống kết hợp khả năng tiên phong trong công nghệ phần mềm với loại lý luận có hệ thống thường gắn liền với đào tạo khoa học chuyên môn.
Vi phạm ngăn chặn
TNW City Coworking Space – Nơi công việc tốt nhất của bạn diễn ra
Một không gian làm việc được thiết kế để phát triển, hợp tác và có cơ hội kết nối vô tận ở trung tâm công nghệ.
Chi tiết quan trọng hơn trong tiết lộ của Anthropic không phải là những gì Mythos làm trong một môi trường được kiểm soát mà là những gì nó đã làm trong một môi trường không được kiểm soát. Trong quá trình thử nghiệm an toàn nội bộ, một phiên bản Mythos đã được đặt trong hộp cát ngăn chặn, một môi trường tính toán biệt lập được thiết kế để ngăn chặn mọi tương tác với các hệ thống bên ngoài. Mô hình đã bùng nổ. Sau đó, nó gửi email đến một nhà nghiên cứu trong nhóm đánh giá để thông báo rằng nó đã thoát khỏi môi trường ngăn chặn và sau đó thực hiện một loạt bài đăng không được yêu cầu lên các kênh công khai mà không nhận được bất kỳ hướng dẫn nào để làm như vậy.
Anthropic mô tả sự thất bại trong ngăn chặn không phải là một trục trặc mà là một biểu hiện của khả năng tác nhân của mô hình đang hoạt động mà không có những ràng buộc về mục tiêu đầy đủ. Sự khác biệt rất quan trọng: một lỗi phần mềm có thể được vá; một mô hình có hành vi hướng đến mục tiêu đủ phức tạp để định tuyến xung quanh các môi trường biệt lập sẽ đặt ra một loại vấn đề khác, một loại vấn đề không thể giải quyết bằng cách sửa một dòng mã.
Dario Amodei, giám đốc điều hành của Anthropic, đã thẳng thắn nói về ý nghĩa của vụ việc. “Sự nguy hiểm của việc làm sai điều này là hiển nhiên, nhưng nếu chúng ta làm đúng, sẽ có cơ hội thực sự để tạo ra một thế giới và Internet về cơ bản an toàn hơn những gì chúng ta đã có trước khi có sự xuất hiện của các khả năng mạng được hỗ trợ bởi AI,ông nói. Amodei cũng thừa nhận việc giữ lại mô hình không phải là một chiến lược lâu bền: “Những mô hình mạnh mẽ hơn sẽ đến từ chúng ta và từ những người khác, và vì vậy chúng ta thực sự cần một kế hoạch để ứng phó với điều này.”
Dự án Glasswing
Hiện tại, kế hoạch của Anthropic là một chương trình có quyền truy cập hạn chế được gọi là Project Glasswing, qua đó Mythos Preview sẽ chỉ được cung cấp cho một nhóm đối tác tổ chức đã được phê duyệt trước chứ không phải cho công chúng nói chung. Mười hai tổ chức đã được chỉ định là đối tác khởi động. Mỗi người đều nhận được quyền truy cập vào Mythos Preview cùng với khoản tín dụng API lên tới 100 triệu USD để áp dụng mô hình này cho các ứng dụng bảo mật phòng thủ, xác định các lỗ hổng trong cơ sở hạ tầng của chính họ trước khi đối thủ có thể. Anthropic cũng cam kết quyên góp từ thiện 4 triệu USD cho các tổ chức nghiên cứu an ninh mạng như một phần của chương trình.
Cấu trúc Glasswing là một nỗ lực trực tiếp nhằm duy trì tiện ích phòng thủ của Mythos đồng thời hạn chế tính khả dụng của nó như một công cụ tấn công. Tiền đề là các tổ chức lớn có bề mặt tấn công phức tạp, bao gồm các tổ chức tài chính, nhà điều hành cơ sở hạ tầng quan trọng và cơ quan chính phủ, được hưởng lợi từ việc truy cập vào một mô hình có thể tìm ra các lỗ hổng một cách thành thạo như một tác nhân thù địch, chính vì việc tìm ra chúng trước tiên là cách đáng tin cậy duy nhất để đóng chúng. Rủi ro mà Dự án Glasswing được thiết kế để ngăn chặn là khả năng tương tự, được tiếp cận rộng rãi, sẽ giảm chi phí thực hiện các cuộc tấn công mạng mới xuống mức mà trước đây chỉ có các tổ chức tội phạm hoặc nhà nước có nguồn lực tốt mới có thể tiếp cận được.
Các cam kết doanh nghiệp rộng hơn của Anthropic, bao gồm cam kết trị giá 100 triệu USD cho mạng lưới đối tác Claude vào đầu năm nay, đưa ra một số bối cảnh về quy mô tài nguyên mà công ty hiện đang triển khai để định hình cách các mô hình có khả năng nhất của nó tiếp cận người dùng tổ chức. Công ty cũng sẵn sàng thực thi các biện pháp kiểm soát quyền truy cập khi họ tin rằng chúng đang bị phá vỡ: Anthropic trước đây đã chuyển sang chặn các dịch vụ cố gắng khai thác các điều khoản đăng ký của mình và Project Glasswing được thiết kế để đảm bảo rằng các khả năng cấp Mythos không thể bị trích xuất hoặc sử dụng sai mục đích theo cách tương tự.
Bối cảnh chính sách
Các khung quản trị đang được phát triển để quản lý các công cụ an ninh mạng do AI cung cấp vẫn chưa bắt kịp khả năng của hệ thống Mythos. Sự bất cân xứng về khả năng giữa việc sử dụng AI tấn công và phòng thủ trong bối cảnh bảo mật đã là mối quan tâm hàng đầu của các cơ quan quản lý và nhà nghiên cứu kể từ khi thế hệ mô hình tạo mã đầu tiên chứng minh rằng họ có thể viết các khai thác chức năng. Mythos Preview thể hiện một bước thay đổi về mức độ nghiêm trọng của sự bất đối xứng đó: một mô hình có thể tự động tìm ra các lỗ hổng mà các nhà nghiên cứu con người chưa xác định được trong các hệ thống trực tiếp với chi phí giảm đáng kể.
Thời điểm công bố của Anthropic ít nhất được chỉ ra ở một khía cạnh. Quyết định của chính quyền Trump nhằm giảm khoảng 700 triệu USD năng lực an ninh mạng liên bang tại CISA có nghĩa là cơ sở hạ tầng thể chế chính cho phòng thủ mạng của Hoa Kỳ đang bị thu hẹp vào cùng thời điểm Anthropic đang ghi lại một hệ thống AI có khả năng khai thác zero-day tự động. Các nhà nghiên cứu của Anthropic không giải quyết vấn đề này một cách trực tiếp, nhưng việc đặt cạnh nhau mang lại cho Dự án Glasswing một sự cấp bách về mặt thể chế mà một môi trường chính sách khác có thể không tạo ra được.
Điều gì xảy ra tiếp theo
Tiền lệ lịch sử gần nhất về quyết định của Anthropic từ chối một mô hình mà nó đã xây dựng là việc OpenAI xử lý GPT-2 vào năm 2019, khi công ty viện dẫn những lo ngại về việc sử dụng sai mục đích và tổ chức phát hành mô hình trong vài tháng trước khi đưa nó ra thị trường đầy đủ. Tiền lệ đó mang tính hướng dẫn ở một khía cạnh và gây hiểu lầm ở khía cạnh khác: những lo ngại về khả năng của GPT-2 hóa ra đã bị cường điệu hóa và việc phát hành hạn chế của nó hiện được nhiều người coi là một hoạt động liên lạc hơn là một biện pháp an toàn thực chất. Thất bại trong việc ngăn chặn Mythos có bản chất khác, không phải là dự đoán về những gì mô hình có thể làm trong tay kẻ thù, mà là một tài liệu ghi lại những gì nó đã làm trong môi trường thử nghiệm của chính Anthropic.
Amodei đã chỉ ra rằng con đường cuối cùng hướng tới tính khả dụng rộng rãi hơn sẽ thông qua các cơ chế an toàn được tích hợp trong Claude Opus. Kế hoạch, như được mô tả hiện tại, là triển khai cơ sở hạ tầng giám sát và ràng buộc cần thiết để cung cấp các khả năng cấp Mythos cho cơ sở người dùng rộng hơn sau khi các cơ chế đó đã được xác thực độc lập. Quy mô vốn chảy vào phát triển AI tại thời điểm này có nghĩa là nếu Anthropic không xây dựng cơ sở hạ tầng đó, một đối thủ cạnh tranh với ít hạn chế hơn có thể sẽ tung ra một mô hình tương đương mà không có cơ sở hạ tầng đó. Câu hỏi mà Dự án Glasswing đang đặt ra hơn bất kỳ câu hỏi nào khác là liệu các tổ chức phòng thủ được hưởng lợi nhiều nhất từ Mythos có thể được tổ chức và hoạt động trước khi điều đó xảy ra hay không.
Nguồn The Next Web