Hóa ra, những trò chơi dạy học như Battleship có thể khiến các mô hình AI nhỏ thông minh hơn rất nhiều

05/06/2026

0

Các mô hình AI nhỏ vừa nhận được sự thúc đẩy đáng ngạc nhiên từ một trò chơi rất cũ.

nhà nghiên cứu MIT đã sử dụng thiết lập kiểu Chiến hạm để kiểm tra xem liệu các tác nhân AI có thể cải thiện cách họ thu thập thông tin trước khi thực hiện hành động hay không. Kết quả là hiệu suất của các hệ thống nhỏ hơn đã tăng vọt, trong đó có một mô hình từ hiếm khi đánh bại con người đến chiến thắng hầu hết các trò chơi sau khi các nhà nghiên cứu thay đổi cách tìm kiếm trên bảng.

Video được đề xuất

Sự thay đổi đó đánh thẳng vào một trong những điểm yếu lớn nhất của các tác nhân AI ngày nay. Họ thường được yêu cầu xử lý các nhiệm vụ mà câu trả lời phụ thuộc vào những chi tiết mà họ chưa có. Công trình của MIT cho thấy việc lập kế hoạch câu hỏi tốt hơn có thể khiến một mô hình rẻ hơn hoạt động hiệu quả hơn nhiều.

Mục lục

Nó đã thông minh hơn bao nhiêu

Bài kiểm tra của MIT sử dụng phiên bản Battleship được xây dựng dựa trên các câu hỏi bằng ngôn ngữ tự nhiên. Một đặc vụ AI đóng vai đồng đội cố gắng xác định vị trí những con tàu ẩn giấu, trong khi một đặc vụ khác có quyền truy cập vào bảng và trả lời.

Xu hướng kỹ thuật số

Bước nhảy vọt lớn nhất đến từ Llama 4 Scout. MIT cho biết ban đầu mô hình nhỏ hơn chỉ đánh bại người chơi con người trong 8% số trò chơi. Sau khi các nhà nghiên cứu bổ sung thêm một chiến lược suy luận có chủ ý hơn, chiến lược này đã đánh bại con người tới 82% thời gian và vượt xa mô hình biên giới lớn hơn trong khi vận hành với chi phí khoảng 1%.

Đó là con số cần theo dõi nếu bạn quan tâm đến chi phí AI. Mô hình không giành chiến thắng bằng cách mở rộng quy mô hơn mà giành chiến thắng bằng cách chọn những câu hỏi sắc nét hơn và tận dụng tốt hơn từng câu trả lời.

Tại sao Battleship giúp AI học hỏi

Battleship hoạt động như một cuộc thử nghiệm vì nó buộc đặc vụ AI phải hành động với lượng thông tin hạn chế. Nó không thể nhìn thấy toàn bộ bảng nên mỗi câu hỏi đều phải thu hẹp phạm vi tìm kiếm và thiết lập nước đi tiếp theo.

Điều đó ánh xạ gọn gàng vào các công cụ AI thực tế. Bot hỗ trợ, trợ lý nghiên cứu hoặc nhân viên lập kế hoạch thường cần yêu cầu các bước tiếp theo trước khi có thể trợ giúp. Khi quá trình đó bị hỏng, mô hình có thể bỏ sót một chi tiết quan trọng, lặp lại chính nó hoặc đưa ra đề xuất quá sớm.

Người đàn ông làm việc trước máy tính với 3 màn hình

Fatemeh Rezvani / Bapt

Cách tiếp cận của MIT gây áp lực lên điểm yếu đó. Nó đo lường liệu một tác nhân có thể thu thập thông tin phù hợp trước khi đưa ra câu trả lời hay không.

Chuyện này có thể đi tới đâu tiếp theo

Bài kiểm tra khó hơn là liệu cách tiếp cận tương tự có hiệu quả ngoài trò chơi hay không. Battleship được kiểm soát, giúp ghi điểm dễ dàng hơn so với quy trình làm việc của nhân viên có kết thúc mở trong tìm kiếm, hỗ trợ khách hàng hoặc phần mềm tại nơi làm việc.

Tuy nhiên, hướng đi vẫn đáng xem. Nếu các mô hình nhỏ hơn học cách đặt những câu hỏi sắc bén hơn trước khi hành động, các công ty có thể xây dựng các công cụ AI rẻ hơn và có nhiều khả năng sử dụng hàng ngày hơn.

Cột mốc tiếp theo là chuyển từ bảng trò chơi sang công việc thực tế. Một tác vụ có hướng dẫn không rõ ràng, thiếu tệp và người dùng vội vàng sẽ khó giải quyết hơn nhiều.

Nguồn DigitalTrend

Bài trước

Anh v New Zealand: Bài kiểm tra cricket nam đầu tiên, ngày thứ hai – trực tiếp

BÀI VIẾT LIÊN QUAN

BÌNH LUẬN

Vui lòng nhập bình luận của bạn

Vui lòng nhập tên của bạn ở đây

Bạn đã nhập một địa chỉ email không chính xác!

Vui lòng nhập địa chỉ email của bạn ở đây

Hóa ra, những trò chơi dạy học như Battleship có thể khiến các mô hình AI nhỏ thông minh hơn rất nhiều

Nó đã thông minh hơn bao nhiêu

Tại sao Battleship giúp AI học hỏi

Chuyện này có thể đi tới đâu tiếp theo

Steam Machine xác nhận sẽ ra mắt vào mùa hè này nhưng chúng ta vẫn chưa biết giá của nó

Google giúp việc theo dõi những trò tai quái trên mạng xã hội của những nhân vật bạn yêu thích trở nên dễ dàng...

Galaxy Z Flip 8 sắp ra mắt của Samsung có thể tránh được lời nguyền chip, nhưng không phải dành cho tất cả người...

Oura tiết lộ hai hoạt động mà chiếc nhẫn thông minh của nó hiểu nhầm là làm bẩn ga trải giường

Brave Origin là một trình duyệt tối giản loại bỏ tất cả các thuật ngữ, nhưng bạn phải trả 60 USD cho sự sang...

Trợ lý người sáng tạo AI mới của Facebook muốn trở thành nhà chiến lược nội dung cá nhân của bạn

BÌNH LUẬN

Bài viết mới

Anh v New Zealand: Bài kiểm tra cricket nam đầu tiên, ngày thứ hai – trực tiếp

Các quan chức Mỹ đã thảo luận về việc mua cổ phần của chính phủ trong các công ty AI

Kiệt tác kinh dị khiến người xem ‘phát cuồng’ có mặt trên BBC One

Cổ phần Belmont năm 2026: Lựa chọn, dự đoán, cược tốt nhất của Chris ‘The Bear’ Fallica

Bình luận mới

BẢI VIẾT CHỌN LỌC

BÀI VIẾT NÔI BẬT

James Van Der Beek buộc phải tiết lộ chẩn đoán ung thư trước thời hạn dự kiến

Những chiếc tai nghe Anker mới này sử dụng AI để khắc phục phần tồi tệ nhất của tai nghe không dây

Frances Tiafoe người Mỹ đụng độ với đối thủ Pháp mở rộng trong chiến thắng trở lại

DANH MỤC NỔI BẬT

ABOUT US

FOLLOW US