Trang chủCông nghệGemini 3.5 Flash hiện có thể nhìn và điều khiển màn hình...

Gemini 3.5 Flash hiện có thể nhìn và điều khiển màn hình của bạn và Google muốn các doanh nghiệp tin tưởng nó

Google đã khiến máy tính sử dụng công cụ tích hợp bên trong Gemini 3.5 Flashmô hình được ra mắt tại I/O 2026 với tư cách là mô hình AI tác nhân nhanh nhất. Khả năng cho phép các tác nhân AI xem màn hình, nhấp chuột, nhập và cuộn trên các trình duyệt, thiết bị di động và máy tính để bàn, trước đây yêu cầu một mô hình độc lập riêng biệt và hiện có sẵn dưới dạng công cụ gốc thông qua API Gemini và Nền tảng tác nhân doanh nghiệp Gemini, phiên bản đã đổi tên của Vertex AI.

Bản cập nhật có nghĩa là các nhà phát triển không còn cần phải gọi mô hình sử dụng máy tính chuyên dụng để xây dựng các tác nhân tương tác với giao diện đồ họa. Thay vào đó, họ có thể kích hoạt việc sử dụng máy tính như một trong số các công cụ trong Flash, cùng với việc thực thi mã, tìm kiếm và gọi hàm. Giám đốc sản phẩm Mateo Quiros mô tả việc tích hợp mang lại cho Flash khả năng nhìn, suy luận và thực hiện hành động trên màn hình.

Google lần đầu tiên phát hành mô hình sử dụng máy tính Gemini độc lập vào tháng 10 năm 2025, được thiết kế dành riêng cho quy trình làm việc của tổng đài viên dựa trên trình duyệt. Mô hình đó đạt được độ chính xác khoảng 70% trên điểm chuẩn Online-Mind2Web và được xây dựng xung quanh vòng lặp hành động chụp màn hình trong đó các nhà phát triển cung cấp cho nó một ảnh chụp màn hình, nhận lệnh có cấu trúc, thực thi lệnh đó và gửi lại chế độ xem đã cập nhật. Việc gộp khả năng vào Flash sẽ hợp nhất quy trình làm việc hai mô hình thành một.

Quảng cáo chiêu hàng doanh nghiệp tập trung vào tự động hóa vượt xa chatbot. Google cho biết công cụ này cho phép kiểm tra phần mềm liên tục, trong đó các tác nhân điều hướng ứng dụng và xác minh chức năng mà không cần người kiểm tra bước qua từng màn hình. Nhân viên tri thức có thể sử dụng tác nhân để hoàn thành các tác vụ trình duyệt gồm nhiều bước, điền vào biểu mẫu, trích xuất dữ liệu từ trang tổng quan hoặc điều hướng các công cụ nội bộ.

- Quảng cáo -

Kiến trúc an toàn là nơi Google đang vẽ ra những đường nét rõ ràng nhất. Công ty cho biết họ đã áp dụng chương trình đào tạo đối nghịch có mục tiêu đặc biệt cho việc tiêm nhắc, cuộc tấn công trong đó các hướng dẫn độc hại được nhúng trong trang web hoặc tài liệu lừa tác nhân AI thực hiện các hành động ngoài ý muốn. Mối đe dọa này không phải là lý thuyết, vì các nhà nghiên cứu đã nhiều lần chứng minh rằng các tác nhân AI có thể bị thao túng thông qua nội dung mà chúng gặp phải khi thực hiện nhiệm vụ.

Google đang cung cấp hai biện pháp bảo vệ doanh nghiệp tùy chọn ngoài mô hình cơ sở. Việc đầu tiên yêu cầu xác nhận rõ ràng của người dùng trước khi tác nhân thực hiện bất kỳ hành động nào được gắn cờ là nhạy cảm hoặc không thể đảo ngược, chẳng hạn như gửi biểu mẫu, mua hàng hoặc xóa dữ liệu. Cái thứ hai tự động tạm dừng tác nhân nếu nó phát hiện nỗ lực tiêm nhắc gián tiếp, dừng thực thi thay vì mạo hiểm thực hiện một hành động bị xâm phạm.

Cả hai biện pháp bảo vệ đều được chọn tham gia, không phải là mặc định. Google khuyến nghị một “phòng thủ chuyên sâu” Cách tiếp cận trong đó các nhà phát triển xếp nhiều lớp bảo vệ thay vì dựa vào bất kỳ cơ chế duy nhất nào. Tài liệu của công ty thừa nhận rằng không có biện pháp bảo vệ riêng lẻ nào là đủ, một khuôn khổ thẳng thắn tương phản với ngôn ngữ tiếp thị tự tin hơn xung quanh các khả năng AI khác.

Bối cảnh cạnh tranh đã thay đổi đáng kể kể từ khi Anthropic đi tiên phong trong danh mục này. Claude Computer Use của Anthropic hoạt động trên nhiều hệ điều hành và có thể tương tác với các hệ thống tệp chứ không chỉ với trình duyệt, khiến nó trở nên linh hoạt hơn cho quy trình làm việc trên máy tính để bàn. Chrome Enterprise của riêng Google đã bổ sung các tính năng duyệt web tự động vào đầu năm nay, bao gồm Duyệt tự động cho các tác vụ nhiều bước tự động.

Việc tích hợp Flash mới mở rộng triết lý đó ra ngoài Chrome tới bất kỳ màn hình nào mà nhân viên có thể nhìn thấy. OpenAI cũng đã tham gia vào lĩnh vực này và ba công ty hiện đang cạnh tranh trên các trục khác nhau. Câu hỏi dành cho người mua doanh nghiệp không phải là kiểu máy nào có thể nhấp vào nút mà quan trọng hơn là kiểu máy nào có thể thực hiện việc đó một cách an toàn trong một môi trường được quản lý.

- Quảng cáo -

Google chưa công bố điểm chuẩn cập nhật cho việc sử dụng máy tính dưới dạng công cụ Flash tích hợp so với mô hình độc lập trước đó. Công ty chưa tiết lộ có bao nhiêu doanh nghiệp đang sử dụng khả năng này hoặc cung cấp các nghiên cứu điển hình với các khách hàng được nêu tên. Các tuyên bố về việc đào tạo đối thủ có mục tiêu để tiêm nhanh chóng được mô tả trong bài đăng trên blog nhưng không được hỗ trợ bởi nghiên cứu đã công bố hoặc kết quả của nhóm đỏ.

Nền tảng đại lý doanh nghiệp Gemini, nơi có sẵn công cụ này, sử dụng phương thức định giá trả theo mức sử dụng. Flash là một trong những mô hình rẻ hơn trong dòng sản phẩm của Google, có thể giúp việc sử dụng máy tính dễ tiếp cận hơn cho quá trình tự động hóa quy mô lớn so với việc chạy nó thông qua một mô hình nặng hơn. Liệu lợi thế về chi phí có còn phụ thuộc vào số lượng hành động mà một quy trình làm việc của tổng đài viên thông thường yêu cầu và tần suất các biện pháp bảo vệ an toàn làm gián đoạn quá trình thực thi để yêu cầu xác nhận.

Việc sử dụng máy tính trong AI vẫn còn sớm. Các mô hình có thể điều hướng các giao diện quen thuộc nhưng gặp khó khăn với các cửa sổ bật lên bất ngờ, CAPTCHA, nội dung được tải động và bố cục mà chúng chưa từng thấy trước đây. Quyết định của Google biến nó thành một công cụ tích hợp thay vì một mô hình độc lập báo hiệu sự tự tin rằng khả năng này đã đủ trưởng thành để có thể sử dụng rộng rãi, nhưng các biện pháp bảo vệ an toàn chọn tham gia báo hiệu nhận thức tương đương rằng nó chưa đủ trưởng thành để chạy không được giám sát.



Nguồn The Next Web

- Có thể bạn thích -
BÀI VIẾT LIÊN QUAN

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Bài viết mới

- Quảng cáo -

Bình luận mới