Một trong những kỹ sư của Anthropic đã không viết một dòng mã nào trong năm tháng. Không phải vì công việc đã cạn kiệt mà vì Claude đang làm việc đó. Tính đến tháng 5 năm 2026, hơn 80% mã được hợp nhất vào cơ sở mã sản xuất của Anthropic là do Claude viết, tăng từ mức thấp một chữ số khi Claude Code ra mắt vào tháng 2 năm 2025.
Con số đó, được công bố hôm thứ Tư trong một bài báo mới của Viện Nhân chủng học có tựa đề “Khi AI tự xây dựng”, không phải là tiêu đề mà công ty muốn bạn tập trung vào. Tiêu đề tiếp theo là: AI có thể thiết kế và đào tạo người kế nhiệm của chính nó. Anthropic nói rằng nó vẫn chưa ở đó, nhưng nó có thể ở gần hơn mức mà hầu hết các tổ chức đều chuẩn bị.
Những con số đằng sau sự thay đổi
Mức tăng năng suất là rất rõ ràng. Trong quý 2 năm 2026, kỹ sư Anthropic điển hình đã hợp nhất số lượng mã mỗi ngày nhiều gấp 8 lần so với năm 2024. Một cuộc thăm dò nội bộ với 130 nhân viên nghiên cứu cho thấy người trả lời trung bình ước tính sản lượng với mô hình mới nhất của Anthropic, Mythos Preview, cao gấp bốn lần so với làm việc mà không có AI.
TNW City Coworking Space – Nơi công việc tốt nhất của bạn diễn ra
Một không gian làm việc được thiết kế để phát triển, hợp tác và có cơ hội kết nối vô tận ở trung tâm công nghệ.
Đối với những vấn đề kỹ thuật mở, phức tạp nhất, tỷ lệ thành công của Claude đã tăng lên 76% vào tháng 5 năm 2026, tăng 50 điểm phần trăm trong sáu tháng. Anthropic đưa ra một ví dụ cụ thể: khi một quá trình nâng cấp định kỳ bắt đầu làm hỏng hàng chục nghìn công việc đào tạo, một kỹ sư đã chỉ cho Claude về sự cố trực tiếp mà không có nhiều hơn một số bối cảnh văn bản và quyền truy cập cụm. Claude đã cô lập một lá cờ gỡ lỗi khó hiểu, tái tạo sự cố và xác nhận cách khắc phục trong khoảng hai giờ. Điều đó thường sẽ mất hai đến ba ngày.
Khoảng cách về chất lượng mã cũng đang được thu hẹp. Nhân viên nhân chủng học nói rằng mã do Claude viết “có phần tệ hơn” so với mã do con người viết vào cuối năm 2025, ở mức tương đương hiện nay và dự kiến sẽ tốt hơn trong năm nay. Giờ đây, trình đánh giá Claude tự động sẽ kiểm tra mọi thay đổi được đề xuất đối với cơ sở mã của Anthropic trước khi có thể hợp nhất. Một phân tích hồi cứu cho thấy nó có thể đã phát hiện được khoảng một phần ba số lỗi trong quá khứ. Claude.ai sự cố trước khi chúng được đưa vào sản xuất.
Từ mã hóa đến nghiên cứu
Viết mã là phần dễ dàng. Câu hỏi khó hơn là liệu Claude có thể thực hiện nghiên cứu hay không, loại lý luận khoa học mở thúc đẩy AI tiến lên.
Bằng chứng của Anthropic ở đây mang tính sơ bộ hơn nhưng vẫn rất ấn tượng. Vào tháng 4 năm 2026, công ty công bố một cuộc biểu tình của Claude đang điều hành một dự án nghiên cứu an toàn AI có kết thúc mở từ đầu đến cuối. Chín đặc vụ song song được giao một vấn đề, còn lại để đề xuất các giả thuyết, chạy thử nghiệm, chia sẻ các phát hiện thông qua một diễn đàn chung và lặp lại. Hơn 800 giờ tích lũy và chi phí điện toán trị giá khoảng 18.000 USD, các tổng đài viên đã khắc phục được 97% khoảng cách về hiệu suất trong nhiệm vụ. Hai nhà nghiên cứu con người làm việc trong một tuần đã phục hồi được 23%.
Một thử nghiệm nội bộ khác đo lường xem liệu Claude có thể chọn “bước tiếp theo” tốt hơn một nhà nghiên cứu con người ở những thời điểm khó khăn trong các buổi nghiên cứu thực sự hay không. Vào tháng 11 năm 2025, Claude phù hợp với khả năng phán đoán của con người trong 51% thời gian. Đến tháng 4 năm 2026, con số đó đã tăng lên 64%. Công việc nghiên cứu hàng ngày phần lớn là một chuỗi các quyết định ở bước tiếp theo. Nếu xu hướng đó tiếp tục, khoảng cách giữa trợ lý AI và nhà nghiên cứu AI sẽ thu hẹp nhanh chóng.
Đường cong chân trời nhiệm vụ
Dữ liệu nội bộ của Anthropic phù hợp với mô hình rộng hơn được theo dõi bởi METRmột tổ chức phi lợi nhuận đánh giá khả năng của AI. Độ dài của các nhiệm vụ mà AI có thể tự hoàn thành một cách đáng tin cậy đã tăng gấp đôi khoảng bốn tháng một lần, tăng tốc so với tốc độ bảy tháng trước đó.
Vào tháng 3 năm 2024, Claude Opus 3 có thể xử lý các nhiệm vụ mà con người phải mất khoảng bốn phút. Đến đầu năm 2025, Claude Sonnet 3.7 quản lý các nhiệm vụ kéo dài một giờ rưỡi. Ngày nay, Claude Opus 4.6 xử lý các tác vụ kéo dài 12 giờ và METR nhận thấy rằng Mythos Preview có thể duy trì công việc trong ít nhất 16 giờ, ở mức cao nhất mà bộ điểm chuẩn hiện tại có thể đo được. Nếu xu hướng này được giữ vững, các công việc đòi hỏi nhiều ngày làm việc của con người có tay nghề cao sẽ xuất hiện trong năm nay. Các nhiệm vụ kéo dài hàng tuần có thể diễn ra vào năm 2027.
Cơ sở hạ tầng đang oằn mình
Các hiệu ứng xuôi dòng đã được nhìn thấy. GitHub, nền tảng mà hầu hết phần mềm trên thế giới được xây dựng trên đó, đã chứng kiến khoảng một tỷ lượt xác nhận mã trong cả năm 2025. Đến giữa năm 2026, nền tảng này đã xử lý 275 triệu lượt xác nhận mỗi tuần, đạt tốc độ 14 tỷ lượt trong năm. Chỉ riêng Claude Code đã chiếm 4,5% tổng số cam kết công khai trên GitHub, tạo ra 2,6 triệu hàng tuần.
COO của GitHub cho biết công ty đang “cực kỳ nỗ lực” nâng cao năng lực chỉ để theo kịp. Bên trong Anthropic, nút thắt cổ chai đã được thay đổi: khi Claude tạo ra nhiều mã hơn, việc xem xét mã của con người đã trở thành hạn chế. Công ty cho biết họ đã gặp phải một ví dụ trong sách giáo khoa về định luật Amdahl, trong đó việc tăng tốc một phần của quy trình chỉ đơn giản là tiết lộ liên kết chậm nhất tiếp theo.
Câu hỏi tạm dừng
Phần quan trọng nhất của bài báo không phải là về năng suất. Đó là lời kêu gọi một cơ chế toàn cầu có thể kiểm chứng được để làm chậm hoặc tạm dừng quá trình phát triển AI biên giới.
Anthropic cẩn thận với việc đóng khung. Việc một phòng thí nghiệm đơn phương tạm dừng sẽ chỉ thay đổi người lãnh đạo chứ không tạo ra quy trình cân nhắc kỹ lưỡng mà công ty cho rằng còn thiếu. Thay vào đó, điều Anthropic đề xuất là một hệ thống trong đó nhiều phòng thí nghiệm biên giới, ở nhiều quốc gia, có thể đồng ý dừng hoạt động trong cùng điều kiện và xác minh rằng những phòng thí nghiệm khác đã thực sự làm như vậy. Nó có sự tương đồng với việc kiểm soát vũ khí hạt nhân nhưng thừa nhận những khác biệt: các hoạt động huấn luyện dễ che giấu hơn nhiều so với các hầm chứa tên lửa, đầu vào là mục đích chung và động cơ đào tẩu một cách lặng lẽ là rất lớn.
Bài báo nêu rõ: “Nếu có thể làm chậm sự phát triển của công nghệ này một cách hiệu quả để chúng ta có thêm thời gian giải quyết những tác động to lớn của nó, thì chúng tôi nghĩ đó có thể là một điều tốt”. Thị trường mã hóa AI hiện có giá trị hàng chục tỷ USD. Yêu cầu ngành này tạm dừng là yêu cầu ngành này để lại tiền trên bàn trong khi tin tưởng rằng các đối thủ cạnh tranh, bao gồm cả những đối thủ ở Trung Quốc, cũng sẽ làm như vậy.
Tự cải thiện đệ quy có nghĩa là gì
Bài báo đưa ra ba tương lai có thể xảy ra. Đầu tiên, xu hướng này chững lại, nhưng ngay cả khả năng ngày nay cũng đang định hình lại nền kinh tế. Trong trường hợp thứ hai, việc phát triển AI về cơ bản trở nên tự động hóa trong khi con người vẫn đặt ra hướng nghiên cứu, nghĩa là các công ty 100 người có thể đảm nhận công việc của các tổ chức 100.000 người. Trong giai đoạn thứ ba, các hệ thống AI đạt được khả năng tự cải thiện đệ quy hoàn toàn và bắt đầu thiết kế những hệ thống kế thừa của riêng chúng.
Anthropic cho biết họ không có “trực giác tốt” về kịch bản thứ ba đó. Nhưng nó đưa ra một quan sát: ngay cả trí thông minh đệ quy cũng không thể tăng tốc mọi thứ. Nó không thể biết tác dụng của một loại thuốc sau hàng thập kỷ sử dụng, tổ chức bầu cử sớm hơn hiến pháp quy định hoặc biến một người xa lạ thành bạn cũ trong một ngày cuối tuần. Đối với hầu hết mọi người, tốc độ có thể cảm nhận được của tương lai này vẫn sẽ do những nút thắt cổ chai đặt ra.
Sự thúc đẩy kinh doanh ngày càng tăng của công ty khiến thời điểm của bài viết này trở nên đáng chú ý. Anthropic đồng thời bán Claude như một cuộc cách mạng về năng suất và cảnh báo rằng quỹ đạo mà nó tạo ra có thể cần đến một phanh khẩn cấp toàn cầu. Căng thẳng đó là nguyên tắc minh bạch hay định vị chiến lược đều phụ thuộc vào điều gì xảy ra tiếp theo.
Nguồn The Next Web