Một công ty triển khai trợ lý dịch vụ khách hàng AI. Mô hình đằng sau nó hiện tại và đủ khả năng cho công việc. Trợ lý đi trực tiếp. Trong vòng một tuần, phiếu hỗ trợ ngày càng tệ hơn chứ không khá hơn.
Mô hình không phải là vấn đề. Trang web riêng của công ty là. Chính sách hoàn trả mà trợ lý cần trích dẫn cuộc sống dưới dạng PDF. Công cụ tính vận chuyển mà nó cần tham khảo là một dạng gồm nhiều bước. Thông số kỹ thuật của sản phẩm sẽ được kéo nằm phía sau giao diện theo thẻ chỉ tải sau một cú nhấp chuột. Đối với một người truy cập, trang web hoạt động tốt. Đối với AI đang cố đọc nó, một nửa trang web không tồn tại.
Video được đề xuất
Đây là bức tường mà hầu hết các hoạt động triển khai AI tác nhân đang gặp phải hiện nay và nó hầu như không liên quan gì đến mô hình.
Báo cáo trạng thái AI năm 2025 của McKinsey nhận thấy rằng 23% tổ chức hiện đang mở rộng quy mô hệ thống AI tác nhân trong ít nhất một chức năng kinh doanh, 39% khác đang thử nghiệm. Hầu hết các hoạt động triển khai đó sẽ gặp chung một vấn đề: một trang web được thiết kế cho con người, được sử dụng bởi phần mềm cần thứ mà con người không bao giờ yêu cầu. Bước tiếp theo của các tác nhân AI không phải là lý luận thông minh hơn. Đó là khả năng thực sự điều hướng và sử dụng Internet trực tiếp.
Ba điều mà một tác nhân AI phải làm trên web
Công việc được chia thành ba công việc và cả ba đều phải làm việc cho một đại lý để có ích trong sản xuất.
Tìm kiếm. Người đại diện cần tìm đúng thông tin. Không phải URL dẫn đến danh sách liên kết mà là nội dung thực tế mà nó có thể đọc và suy luận. Nếu khách hàng hỏi chatbot bảo hiểm xem chính sách của họ có bao gồm một sự kiện cụ thể hay không, đại lý cần hiển thị phần có liên quan của chính sách chứ không phải trang kết quả tìm kiếm.
Cạo. Khi tác nhân tìm thấy trang đó, nó cần đọc nó một cách rõ ràng. Hầu hết các trang web hiện đại không làm điều này dễ dàng. Các trang tải thông qua JavaScript phải thực thi trước. Nội dung tồn tại bên trong các accordion, tab và các phần được tải từng phần có thể mở rộng. HTML mà tác nhân nhận được thường trông không giống những gì con người nhìn thấy trong trình duyệt của họ.
Tương tác. Đây là nơi mà hầu hết các bản demo tác nhân không thành công trong quá trình sản xuất. Rất nhiều thông tin mà con người quan tâm không có trên một URL đơn giản. Nó nằm phía sau nút “tải thêm”, hộp tìm kiếm, biểu mẫu nhiều bước, menu điều hướng hoặc thông tin đăng nhập. Một máy quét chỉ có thể đọc các trang tĩnh không thể truy cập được bất kỳ trang nào trong số đó. Một tác nhân có thể tương tác (nhấp, điều hướng, điền, gửi) có thể. Sự khác biệt giữa hai yếu tố này quyết định liệu AI có thực sự thực hiện được công việc của mình hay không.
Trong số ba, tương tác là mới nhất và khó nhất. Đó cũng là nơi chứa các ứng dụng đại lý hữu ích nhất: trợ lý mua sắm so sánh giá cả trên các trang web, công cụ nghiên cứu lấy dữ liệu từ bảng điều khiển tương tác, bot hỗ trợ khách hàng điều hướng các cổng tài liệu theo cách người dùng thực sự làm.
Firecrawl đang xây dựng lớp bên dưới
Pháo hoa là một trong những công ty xây dựng cơ sở hạ tầng được thiết kế để hỗ trợ cả ba chức năng. Nền tảng này nằm giữa các tác nhân AI và web trực tiếp, xử lý tìm kiếm, thu thập dữ liệu và tương tác dưới dạng các khả năng được quản lý đằng sau một API duy nhất. Của nó dự án nguồn mở có hơn 120.000 sao trên GitHub. Các khách hàng bao gồm Lovable, Replit và Zapier sử dụng nó trong sản xuất. Đối tác liên doanh của Nexus dẫn đầu công ty 14,5 triệu USD Series A vào năm 2025, với Giám đốc điều hành Shopify Tobi Lütke tham gia với tư cách là nhà đầu tư sau lần đầu tiên sử dụng Firecrawl với tư cách khách hàng.
Ý tưởng rất đơn giản: một tác nhân AI được xây dựng dựa trên Firecrawl không cần nhóm phát triển của nó viết mã tùy chỉnh cho mọi trang web mà nó chạm vào. Nó gọi một API và nền tảng xử lý phần lớn công việc kỹ thuật cơ bản: hiển thị JavaScript, điều hướng các trang động, tương tác với các phần tử và trả về kết quả có cấu trúc mà hệ thống AI có thể sử dụng.
Eric Ciarla, một trong những người đồng sáng lập của Firecrawl, cho biết: “Mọi công ty AI đều cần dữ liệu web sạch và không ai giải quyết tốt vấn đề đó”. “Vì vậy chúng tôi đã xây dựng Firecrawl.”
Ciarla và những người đồng sáng lập của anh đã trực tiếp gặp phải vấn đề này khi xây dựng công ty trước đây của họ, Mendable, một nền tảng tìm kiếm AI được nhiều tổ chức sử dụng. Sản phẩm tìm kiếm đã hoạt động. Cơ sở hạ tầng lấy dữ liệu từ trang web của mỗi khách hàng để cung cấp dữ liệu đã không thành công. Mỗi lần tích hợp mới đều có nghĩa là phải xây dựng lại mã trích xuất mỏng manh đã bị hỏng vào lần tiếp theo trang web của khách hàng thay đổi. Mendable không có gì lạ khi va vào bức tường đó. Nhiều công ty AI tích hợp dữ liệu web phải đối mặt với những thách thức tương tự, liên tục xây dựng lại các công cụ trích xuất nội bộ.
AI đang trở thành cách mới để mọi người tìm kiếm mọi thứ
Có một sự thay đổi đang diễn ra cùng với vấn đề kỹ thuật và nó làm thay đổi mối quan tâm của các doanh nghiệp chưa nghĩ đến việc các tác nhân AI đọc trang web của họ.
Trong hai thập kỷ, con đường từ “khách hàng đang tìm kiếm thứ gì đó” đến “khách hàng tìm thấy doanh nghiệp của bạn” thường chạy qua các công cụ tìm kiếm truyền thống. Trợ lý AI ngày càng trở thành nơi mọi người bắt đầu khi họ muốn nhận được đề xuất, so sánh hoặc câu trả lời. Trợ lý AI sẽ tắt, thay mặt người đó lấy thông tin từ các trang web có liên quan và quay lại với câu trả lời tổng hợp. Nếu AI không thể phân tích trang web của bạn thì doanh nghiệp của bạn sẽ không xuất hiện trong câu trả lời.
Ciarla lập luận rằng điều này sẽ thay đổi hoàn toàn cách các doanh nghiệp nên nghĩ về trình thu thập thông tin AI. Ông nói: “Đằng sau mỗi tác nhân AI là một con người đang cố gắng tìm kiếm thứ gì đó. Cấu trúc ngành thống trị đã coi trình thu thập dữ liệu AI là hoạt động tự động hóa không được hoan nghênh: các bot để chống lại, lưu lượng truy cập làm cạn kiệt tài nguyên máy chủ mà không gửi lại khách truy cập là con người. Khung đó có ý nghĩa khi thứ duy nhất đọc các trang web trên quy mô lớn là công cụ tìm kiếm lập chỉ mục cho khách truy cập sau này. Sẽ ít ý nghĩa hơn khi các tác nhân AI là con đường mà con người đang sử dụng để tìm kiếm.
Theo quan điểm của Ciarla, việc chặn trình thu thập thông tin AI ngày nay có thể tương đương với việc hạn chế khả năng hiển thị trên kênh khám phá mới nổi. Ông lập luận rằng làm như vậy có thể làm giảm cơ hội được tìm thấy của các doanh nghiệp thông qua việc phát triển các hành vi tìm kiếm của khách hàng.
Điều khiến quan điểm của Firecrawl trong sự thay đổi này trở nên khác thường là nó không yêu cầu doanh nghiệp phải làm bất cứ điều gì. Hầu hết các phương pháp tiếp cận khả năng hiển thị của AI đều đặt công việc lên chủ sở hữu trang web: thêm đánh dấu mới, hiển thị điểm cuối mới, cơ cấu lại trang, tìm hiểu nguyên tắc tối ưu hóa mới trên nền tảng SEO hiện có. Firecrawl hoạt động theo hướng ngược lại. Nền tảng này tự động xử lý việc chuyển đổi giữa trang web mà con người có thể đọc được và dữ liệu mà máy có thể đọc được trong thời gian thực. Một doanh nghiệp không bao giờ cần biết các nhân viên AI đang đọc trang. Dù sao thì các đặc vụ cũng có được thứ họ cần.
Câu hỏi lớn hơn bên dưới
Khi các tác nhân lấy thêm thông tin từ nhiều trang web hơn, mối quan hệ giữa hệ thống AI và các nguồn mà chúng phụ thuộc trở thành một câu hỏi thực sự. Một mô hình trong đó AI trích xuất giá trị từ nội dung web mà không truyền lại giá trị cho những người đã tạo ra nó sẽ không bền vững. Các nhà xuất bản đang đẩy lùi các vụ kiện và chặn quyền truy cập, đồng thời các trang web lớn đang ngày càng ngăn chặn hoàn toàn nội dung của họ khỏi trình thu thập dữ liệu AI. Hệ sinh thái cơ bản không lành mạnh và cuối cùng chi phí dài hạn sẽ rơi vào đâu đó.
Vào tháng 3 năm 2026, Firecrawl hợp tác với Wikimedia Enterprise để định tuyến tất cả lưu lượng truy cập Wikipedia của nó – 2 đến 3 triệu yêu cầu mỗi tháng – thông qua các API thương mại của Wikimedia thay vì tiếp tục thu thập trực tiếp các trang Wikipedia. Sự sắp xếp này thay thế việc thu thập nhiều tài nguyên bằng quyền truy cập có cấu trúc, trả phí và giúp hỗ trợ cộng đồng tình nguyện duy trì một trong những nguồn thông tin được trích dẫn nhiều nhất trên web mở.
Ciarla cho biết khi công bố quan hệ đối tác: “Các thành viên cộng đồng viết và chỉnh sửa những bài báo này nắm giữ quyền lực to lớn trong thời đại AI”. “Họ đang cung cấp dịch vụ thiết yếu để xác định điều gì là đúng. Chúng tôi muốn đảm bảo cơ sở hạ tầng của chúng tôi hỗ trợ công việc của họ thay vì chỉ tiêu thụ nó.”
Thỏa thuận Wikimedia là một mô hình. Cách tiếp cận tương tự có thể xuất hiện ở những nơi khác trong ngành. Khi các sản phẩm AI chuyển từ bản demo sang sản xuất trên quy mô lớn, các công ty xây dựng cơ sở hạ tầng cơ bản đang giúp định hình cách các hệ thống AI tương tác với web.
Điều này có nghĩa là gì nếu bạn chú ý
Nếu bạn đang xây dựng bằng AI thì bài học thực tế rất đơn giản. Mô hình không còn là điểm khác biệt nữa. Hầu hết mọi người đều có quyền truy cập vào các mô hình biên giới giống nhau và khoảng cách giữa chúng ngày càng thu hẹp. Điều tạo nên sự khác biệt giữa một sản phẩm AI đang hoạt động trong quá trình sản xuất với một sản phẩm không hoạt động chính là lớp bên dưới và liệu hệ thống có thực sự tiếp cận được thông tin cần thiết để trở nên hữu ích hay không. Đầu tư vào lớp đó có thể mang lại lợi ích kỹ thuật có ý nghĩa.
Nếu bạn đang điều hành một doanh nghiệp và chưa bao giờ nghĩ đến việc các tác nhân AI đọc trang web của mình thì đó là thời điểm để bắt đầu. Kênh khám phá đang thay đổi. Một khách hàng trước đây có thể đã tìm thấy doanh nghiệp thông qua công cụ tìm kiếm truyền thống giờ đây có thể sử dụng trợ lý AI như một phần của quá trình khám phá. Nếu trợ lý đó không thể đọc trang web của bạn, họ có thể không tìm thấy bạn. Nhiều doanh nghiệp tiếp tục tối ưu hóa chủ yếu cho độc giả và công cụ tìm kiếm của con người, đồng thời đánh giá mức độ ảnh hưởng của khả năng khám phá do AI điều khiển đến sự hiện diện kỹ thuật số của họ.
Xu hướng kỹ thuật số hợp tác với những người đóng góp bên ngoài. Tất cả nội dung của cộng tác viên đều được đội ngũ biên tập của Digital Trends xem xét.
Nguồn DigitalTrend