Một số mô hình AI biên giới của Trung Quốc có thể phát hiện khi nào chúng đang được đánh giá an toàn và điều chỉnh hành vi của họ cho phù hợp, theo nghiên cứu được công bố bởi Neo Research, phòng thí nghiệm đánh giá an toàn AI có trụ sở tại Singapore. Phát hiện mà các nhà nghiên cứu gọi là “nhận thức đánh giá,” đặt ra những câu hỏi cơ bản về việc liệu các bài kiểm tra an toàn mà chính phủ và công ty dựa vào để chứng nhận các mô hình AI đang đo lường hành vi thực tế hay hiệu suất được hiệu chỉnh cho chính bài kiểm tra.
Neo Research đã sử dụng một phiên bản thử nghiệm sai lệch AI của Anthropic, đặt các mô hình vào các tình huống hư cấu trong đó mục tiêu hoặc hoạt động tiếp tục của chúng bị đe dọa, để đo lường cách các mô hình khác nhau phản ứng khi chúng nghi ngờ chúng đang được đánh giá. Các kết quả rất khác nhau: Kimi K2.6 của Moonshot AI đạt 60% về chỉ số nhận thức đánh giá, nghĩa là nó đã nhận ra kịch bản thử nghiệm và điều chỉnh phản hồi của mình trong phần lớn các trường hợp. GLM 5.1 của Zhipu đạt 39%.
V4 Pro của DeepSeek đạt 17%, một con số tương đối thấp mà các nhà nghiên cứu cho là do khả năng suy luận yếu hơn của mô hình chứ không phải do nguyên tắc từ chối thực hiện bài kiểm tra. Lý luận chuỗi suy nghĩ của mô hình, bản ghi nội bộ của logic từng bước của nó, tiết lộ rằng V4 Pro nhận ra rằng nó đang được đặt trong một kịch bản hư cấu được thiết kế để kiểm tra sự liên kết của nó nhưng thiếu độ tinh vi để hành động nhất quán theo sự nhận biết đó.
Hiện tượng này không chỉ giới hạn ở các mẫu xe Trung Quốc. Theo người đồng sáng lập Neo Research, Clement Neo, Claude 4.5 Opus của Anthropic đạt gần 80% trên cùng một thước đo nhận thức đánh giá, mức cao nhất so với bất kỳ mô hình nào được thử nghiệm. Neo nói với South China Morning Post rằng sự khác biệt là các phòng thí nghiệm phương Tây như Anthropic đã đầu tư rất nhiều vào nghiên cứu liên kết được thiết kế đặc biệt để giải quyết loại rủi ro này, trong khi các phòng thí nghiệm Trung Quốc tập trung chủ yếu vào các tiêu chuẩn năng lực.
Nhận thức đánh giá khác với hành vi sai trái đơn giản. Một mô hình không vượt qua bài kiểm tra an toàn rất dễ được xác định và khắc phục. Một mô hình vượt qua bài kiểm tra an toàn vì nó đã phát hiện bài kiểm tra và thay đổi hành vi của nó cho phù hợp là một vấn đề khó khăn hơn vì kết quả kiểm tra không còn phản ánh cách mô hình sẽ hoạt động khi triển khai. Các nhà nghiên cứu mô tả điều này như một dạng “giả mạo căn chỉnh,” trong đó một mô hình có vẻ phù hợp với các giá trị của con người trong quá trình đánh giá nhưng lại chuyển sang hành vi khác khi nó tin rằng nó không còn được theo dõi nữa.
Khái niệm liên quan về “đóng bao cát,” trong đó một mô hình cố tình che giấu khả năng thực sự của nó trong quá trình thử nghiệm, cũng đã được ghi nhận trong các mô hình biên giới phương Tây. Nghiên cứu của chính Anthropic đã chỉ ra rằng các mô hình đủ năng lực có thể tham gia vào hành vi hướng đến mục tiêu nhằm phá vỡ các biện pháp ngăn chặn, một phát hiện đã khiến công ty từ chối phát hành mô hình mạnh mẽ nhất của mình vào đầu năm nay.
Ý nghĩa thực tế là nghiêm trọng nhất đối với các khung pháp lý phụ thuộc vào thử nghiệm trước khi triển khai. Trung Quốc yêu cầu các công ty AI phải vượt qua các đánh giá bảo mật nội dung trước khi tung ra công chúng các mô hình, một quy trình giả định hành vi của mô hình trong quá trình thử nghiệm là đại diện cho hành vi của mô hình trong quá trình sản xuất. Nếu các mô hình có thể phát hiện sự khác biệt giữa môi trường thử nghiệm và triển khai trong thế giới thực thì giả định đó sẽ không còn nữa.
Neo Research cũng đã kiểm tra tính dễ bị tổn thương của các mô hình đối với việc bẻ khóa, phương pháp sử dụng các lời nhắc được chế tạo đặc biệt để vượt qua các rào chắn an toàn của mô hình. DeepSeek V4 Pro tỏ ra dễ bị “Làm bất cứ điều gì ngay bây giờ” bẻ khóa, một kỹ thuật nhắc nhở ba năm tuổi hướng dẫn mô hình bỏ qua khóa đào tạo về an toàn của nó. Qwen3.6-Max và Kimi K2.6 đã bảo vệ thành công trước cuộc tấn công tương tự, cho thấy rằng một số phòng thí nghiệm của Trung Quốc đã đạt được tiến bộ đáng kể về mức độ an toàn kịp thời ngay cả khi vấn đề sâu hơn về nhận thức đánh giá vẫn chưa được giải quyết.
Nhóm nghiên cứu coi Neo Research, do Clement Neo thành lập và Miro Pluckebaum đồng sáng lập, là một trong số ít phòng thí nghiệm độc lập thử nghiệm một cách có hệ thống các mô hình AI của Trung Quốc dựa trên các tiêu chuẩn an toàn ban đầu được phát triển cho các hệ thống phương Tây. Hầu hết cơ sở hạ tầng đánh giá an toàn AI đã được xây dựng dựa trên các mô hình từ OpenAI, Anthropic và Google DeepMind, để lại một lỗ hổng đáng kể trong đánh giá độc lập về các mô hình tiên phong của Trung Quốc hiện đang được triển khai trên toàn cầu.
Khoảng cách này quan trọng vì bộ máy quản trị AI của Trung Quốc, vốn đã phát động chiến dịch thực thi kéo dài nhiều tháng chống lại việc lạm dụng AI vào tháng 4, chủ yếu tập trung vào các vi phạm ở cấp độ nội dung như deepfake, gian lận và thông tin sai lệch hơn là câu hỏi mang tính cấu trúc là liệu bản thân các đánh giá an toàn có đáng tin cậy hay không. Các phát hiện về nhận thức đánh giá cho thấy rằng cơ sở hạ tầng thử nghiệm có thể cần phải phát triển trước khi cơ sở hạ tầng thực thi được xây dựng trên đó có thể phát huy hiệu quả.
Neo Research ước tính rằng khả năng mạng của DeepSeek V4 Pro kém Anthropic’s Mythos khoảng ba đến sáu tháng, một khoảng cách phù hợp với tự đánh giá công khai của DeepSeek khi ra mắt V4 Pro vào tháng 4. Ước tính này cho thấy vấn đề về nhận thức đánh giá sẽ trở nên gay gắt hơn khi các mô hình của Trung Quốc thu hẹp khoảng cách về năng lực với các hệ thống tiên phong của phương Tây, vì các mô hình có năng lực hơn luôn cho thấy tỷ lệ nhận thức đánh giá cao hơn trong thử nghiệm.
Phát hiện này khó có thể là phát hiện cuối cùng thuộc loại này. Khi các mô hình AI trở nên có năng lực hơn, khả năng mô hình hóa ý định của người đánh giá và phản ứng một cách chiến lược thay vì minh bạch dự kiến sẽ tăng lên. Câu hỏi dành cho các cơ quan quản lý ở cả Trung Quốc và phương Tây là liệu thử nghiệm an toàn có thể được thiết kế lại để đi trước các mô hình đang học cách nhận ra nó hay không.
Nguồn The Next Web