Các báo cáo thu nhập về cơ sở hạ tầng AI trong tám quý vừa qua đã mang đến cho công chúng vốn từ vựng chính xác về chi phí xây dựng bằng vốn. Mua sắm GPU siêu quy mô. Hợp đồng mua bán điện. Dấu chân bất động sản. Từ vựng mà họ chưa cung cấp cho công chúng là chi phí để duy trì hoạt động định kỳ của các cụm sau khi chi tiêu hết vốn. Chi tiết đơn hàng đó, khi kiểm tra chặt chẽ, đã trở thành một trong những trung tâm chi phí ẩn lớn nhất trong toàn bộ quá trình xây dựng. Nó đang phát triển nhanh hơn dòng vốn phía trên nó.
Những con số hiển thị trong cuộc trò chuyện về cơ sở hạ tầng AI mô tả câu chuyện về vốn. Việc mua sắm GPU Hyperscaler đang trên đà vượt qua mức chi tiêu tích lũy hàng nghìn tỷ đô la trong chu kỳ hiện tại. Các hợp đồng mua bán điện đã chuyển sang phạm vi được mô tả trong lịch sử là ngành công nghiệp nặng. Các cam kết về bất động sản đã được thực hiện. Tường thuật về vốn đã được kể chi tiết trong suốt hai năm cập nhật của nhà đầu tư.
Câu chuyện hoạt động ít được nhìn thấy hơn. Nó mô tả chi phí để giữ cho các cụm hoạt động tốt. Công việc này không mấy hấp dẫn và phần lớn là thủ công. Lỗi nút GPU phải được phát hiện, phân loại và khắc phục. Các nhóm phải được lên lịch lại cho phần cứng đã xuống cấp. Việc sử dụng tài nguyên trong toàn bộ nhóm máy gia tốc phải được giám sát, cân bằng và báo cáo. Mỗi nhiệm vụ này, trong môi trường sản xuất hiện tại, được thực hiện bởi một lớp kỹ sư có mức lương thuộc hàng cao nhất trong ngành.
Quy mô của dự luật là rất lớn. Các nhà phân tích ngành theo dõi việc sử dụng GPU trên các nhóm siêu quy mô trong vài năm đã báo cáo tỷ lệ nhàn rỗi thường xuyên trên 30% trên các máy tăng tốc sản xuất. Số lượng nhân sự cần thiết để duy trì hoạt động của cụm đã tăng theo quy mô cụm, theo tỷ lệ thay vì tỷ lệ phụ, trong các môi trường mà mục tiêu rõ ràng của mọi nhóm cơ sở hạ tầng là phá vỡ tỷ lệ đó. Nhìn chung, lớp vận hành là một trong những hạng mục biến luận điểm về cơ sở hạ tầng AI từ một câu chuyện đầu tư mạnh mẽ thành một vấn đề về lợi nhuận cấu trúc.

💜 của công nghệ EU
Những tin đồn mới nhất từ bối cảnh công nghệ EU, câu chuyện từ người sáng lập thông thái Boris của chúng tôi và một số tác phẩm nghệ thuật AI đáng nghi vấn. Nó miễn phí hàng tuần trong hộp thư đến của bạn. Đăng ký ngay bây giờ!
Cho đến gần đây, công việc giải quyết vấn đề này vẫn nằm trong công cụ tự động hóa dành riêng cho các nhà khai thác lớn nhất, chỉ những kỹ sư đã xây dựng nó mới có thể tiếp cận được. Điều đó đang bắt đầu thay đổi. Shashidhar Bhat, một kỹ sư phần mềm trong tổ chức cơ sở hạ tầng dữ liệu lớn tại ByteDance, đã dành hai năm qua để tạo ra một nhóm công việc ánh xạ trực tiếp lên lớp vận hành mà phần còn lại của ngành đã mô tả là có vấn đề.
Các phần riêng lẻ trông giống như các thành phần cơ sở hạ tầng thông thường. Các plugin thiết bị tùy chỉnh để lập kế hoạch tăng tốc chi tiết hơn. Công cụ quan sát được xây dựng dựa trên Trình quản lý GPU Trung tâm dữ liệu của NVIDIA. Logic sắp xếp lại nhóm tự động phản ứng với sự xuống cấp của phần cứng mà không cần sự hỗ trợ của con người. Mỗi thứ đều được vận chuyển một cách lặng lẽ bên trong một nhóm cơ sở hạ tầng nội bộ. Tổng hợp lại, chúng mô tả lớp vận hành mà ngành đã thuê ngoài cho các kỹ sư về độ tin cậy tại hiện trường, chuyển vào phần mềm và được tăng cường để đáp ứng tải trọng sản xuất.
Quy mô mà công việc của Bhat thực hiện là một phần khiến nó trở nên đáng tin cậy như một kiến trúc tham khảo. ByteDance, công ty mẹ của TikTok, vận hành một trong những hoạt động triển khai Kubernetes lớn nhất trên thế giới. Các cụm của nó chạy trên hàng trăm nút GPU xử lý khoảng một petabyte dữ liệu mỗi tháng. Khung nội bộ của Bhat, một hệ thống tự động hóa dựa trên tác nhân có tên là OpenSkill, đã giảm 35% thời gian nhàn rỗi của GPU trên môi trường đó, dựa trên đường cơ sở bao gồm đặc điểm tăng đột biến về mức sử dụng của hoạt động đào tạo người giới thiệu và phân phối nội dung trên quy mô lớn.
Theo tiêu chuẩn hoạt động của lĩnh vực này, con số 35% là lớn. Các nhà khai thác lớp siêu tỷ lệ trong nhiều năm đã theo đuổi sự cải thiện tỷ lệ nhàn rỗi ở mức một chữ số, với lý do rằng những cải thiện một chữ số ở khối lượng siêu tỷ lệ sẽ mang lại kết quả là tám con số. Việc giảm quy mô mà các báo cáo của Bhat đưa ra là loại kết quả mà khi nó xuất hiện trong quá trình sản xuất tại một công ty ngang hàng, sẽ được giữ chặt chẽ. Thực tế là nó đã được báo cáo là một phần lý do tại sao cộng đồng nhà điều hành rộng lớn hơn đã bắt đầu chú ý.
Nửa còn lại của công việc gần đây của Bhat đã xuất hiện ở phía nguồn mở. Anh là người đóng góp cho Kubewharf Katalyst, khuôn khổ quản lý tài nguyên được ByteDance và cộng đồng Kubernetes rộng lớn hơn duy trì. Dự án Katalyst là một trong số ít dự án trong hệ sinh thái dựa trên nền tảng đám mây giải quyết vấn đề lập kế hoạch chung cho các tài nguyên CPU và GPU đang tải. Các đề xuất thiết kế mà Bhat đưa ra phản đối dự án đã chuyển cuộc thảo luận theo hướng song song chặt chẽ với công việc nội bộ của anh ấy. Sự hội tụ giữa công việc sản xuất nội bộ của một kỹ sư và những đóng góp nguồn mở bên ngoài là loại hình mẫu hiếm hoi mà cộng đồng người bảo trì thừa nhận là thực chất hơn là mang tính quảng cáo.
Phần thứ ba của nhóm công việc là Carbon-Kube, bộ lập lịch Kubernetes mã nguồn mở mà Bhat đã phát hành vào tháng 12 vừa qua cùng với một bài báo của IEEE đồng tác giả với Satwik Rao Sirikonda, cũng tại ByteDance. Bộ lập kế hoạch là một dự án khác biệt với công việc nội bộ của ByteDance và đề cập đến khía cạnh phát thải carbon của các hoạt động của cụm thay vì khía cạnh về số lượng nhân viên. Dự án đi kèm với một tệp trích dẫn, một phương pháp đánh giá đã được xuất bản và các tập lệnh có thể tái tạo. Sự đóng góp này rất nghiêm ngặt về mặt phương pháp theo cách mà hầu hết các công cụ cơ sở hạ tầng nội bộ không bao giờ bận tâm.
Bức tranh tổng hợp là điều làm cho vụ việc trở nên đáng giá ở cấp độ ngành. Lớp vận hành cơ sở hạ tầng AI là một trung tâm chi phí có quy mô của một nền kinh tế trung bình. Công việc giải quyết vấn đề này đã diễn ra một cách lặng lẽ bên trong các công ty lớn nhất, chỉ có đội ngũ nội bộ của họ mới có thể tiếp cận được. Điều đó đang thay đổi, một phần là do công việc của các nhà khai thác như Bhat, người có đóng góp trải rộng từ việc triển khai sản xuất nội bộ, bảo trì nguồn mở bên ngoài và các ấn phẩm cấp độ nghiên cứu dưới tên riêng của ông.
Lập luận rằng lớp vận hành là biên giới quan trọng tiếp theo trong cơ sở hạ tầng AI, dựa trên sức mạnh của công việc đã hoàn thành trong năm qua, khó có thể bị bác bỏ. Các nhà khai thác cụm trong hai đến ba năm tới sẽ cần phải quyết định xem nên xây dựng câu trả lời của riêng họ hay áp dụng một trong những câu trả lời nguồn mở hiện có sẵn. Thành phần của câu trả lời đó sẽ định hình lại biên độ hoạt động của mọi nhóm đang chạy khối lượng công việc AI sản xuất.
Nguồn The Next Web