28 C
Ho Chi Minh City
Thứ Sáu, Tháng Mười 22, 2021

Cân bằng giữa các mô hình mạnh mẽ và các thành kiến ​​tiềm ẩn – TechCrunch

Andrea Gagliano
Người đóng góp

Các bài viết khác của người đóng góp này

Một số ít các mô hình nền tảng đang xuất hiện dựa trên mức độ lớn của dữ liệu đào tạo khiến chúng trở nên mạnh mẽ vốn có, nhưng không phải là không có nguy cơ dẫn đến những thành kiến ​​có hại – và chúng ta cần phải thừa nhận thực tế đó.

Nhận biết tự nó là dễ dàng. Hiểu biết khó hơn nhiều, cũng như giảm thiểu rủi ro trong tương lai. Có nghĩa là trước tiên chúng ta phải thực hiện các bước để đảm bảo rằng chúng ta hiểu gốc rễ của những thành kiến ​​này nhằm nỗ lực hiểu rõ hơn về những rủi ro liên quan đến việc phát triển các mô hình AI.

Nguồn gốc lén lút của sự thiên vị

Các mô hình AI ngày nay thường được đào tạo trước và là mã nguồn mở, cho phép các nhà nghiên cứu cũng như các công ty triển khai AI một cách nhanh chóng và điều chỉnh nó theo nhu cầu cụ thể của họ.

Mặc dù cách tiếp cận này làm cho AI khả dụng hơn về mặt thương mại, nhưng có một nhược điểm thực sự – cụ thể là một số mô hình hiện đang làm nền tảng cho phần lớn các ứng dụng AI trên khắp các ngành công nghiệp và châu lục. Các hệ thống này phải chịu gánh nặng bởi các thành kiến ​​chưa được phát hiện hoặc chưa biết, có nghĩa là các nhà phát triển thích ứng chúng cho các ứng dụng của họ đang làm việc từ một nền tảng mỏng manh.

Theo một gần đây nghiên cứu bởi Trung tâm Nghiên cứu về Mô hình Nền tảng của Stanford, bất kỳ thành kiến ​​nào trong các mô hình nền tảng này hoặc dữ liệu mà chúng được tạo ra đều được những người sử dụng chúng kế thừa, tạo ra tiềm năng khuếch đại.

Ví dụ: YFCC100M là tập dữ liệu có sẵn công khai từ Flickr thường được sử dụng để đào tạo các mô hình. Khi kiểm tra hình ảnh của những người trong tập dữ liệu này, bạn sẽ thấy rằng sự phân bố hình ảnh trên khắp thế giới là nghiêng nhiều về phía Hoa Kỳ, có nghĩa là thiếu đại diện của những người từ các khu vực và nền văn hóa khác.

Các loại sai lệch này trong dữ liệu đào tạo dẫn đến các mô hình AI có sai lệch về đại diện ít hơn hoặc quá mức trong đầu ra của chúng – tức là đầu ra chiếm ưu thế hơn đối với các nền văn hóa da trắng hoặc phương Tây. Khi nhiều bộ dữ liệu được kết hợp để tạo ra các bộ dữ liệu đào tạo lớn, sẽ thiếu tính minh bạch và ngày càng khó biết liệu bạn có sự kết hợp cân bằng giữa mọi người, vùng miền và văn hóa hay không. Không có gì ngạc nhiên khi các mô hình AI kết quả được công bố với những thành kiến ​​nghiêm trọng có trong đó.

Hơn nữa, khi các mô hình AI nền tảng được công bố, thường có rất ít hoặc không có thông tin được cung cấp xung quanh các hạn chế của chúng. Việc phát hiện các vấn đề tiềm ẩn được để cho người dùng cuối kiểm tra – một bước thường bị bỏ qua. Nếu không có sự minh bạch và hiểu biết đầy đủ về một tập dữ liệu cụ thể, thật khó để phát hiện những hạn chế của mô hình AI, chẳng hạn như hiệu suất thấp hơn đối với phụ nữ, trẻ em hoặc các quốc gia đang phát triển.

Tại Getty Images, chúng tôi đánh giá liệu sự thiên vị có xuất hiện trong các mô hình thị giác máy tính của chúng tôi hay không bằng một loạt các bài kiểm tra bao gồm hình ảnh của trải nghiệm thực tế, bao gồm những người có các mức độ khác nhau về khả năng, tính lưu động về giới tính và tình trạng sức khỏe. Mặc dù chúng ta không thể nắm bắt được tất cả các thành kiến, nhưng chúng ta nhận ra tầm quan trọng của việc hình dung một thế giới hòa nhập và cảm thấy điều quan trọng là phải hiểu những cái có thể tồn tại và đối đầu với chúng khi chúng ta có thể.

Tận dụng siêu dữ liệu để giảm thiểu thành kiến

Vì vậy, làm thế nào để chúng tôi làm điều này? Khi làm việc với AI tại Getty Images, chúng tôi bắt đầu bằng cách xem xét phân tích về số người trên tập dữ liệu đào tạo, bao gồm tuổi, giới tính và dân tộc.

May mắn thay, chúng tôi có thể làm được điều này vì chúng tôi yêu cầu bản phát hành mẫu cho nội dung quảng cáo mà chúng tôi cấp phép. Điều này cho phép chúng tôi đưa thông tin tự nhận dạng vào siêu dữ liệu của mình (tức là một tập hợp dữ liệu mô tả dữ liệu khác), cho phép nhóm AI của chúng tôi tự động tìm kiếm trên hàng triệu hình ảnh và nhanh chóng xác định các sai lệch trong dữ liệu. Các tập dữ liệu nguồn mở thường bị hạn chế bởi thiếu siêu dữ liệu, một vấn đề càng trở nên trầm trọng hơn khi kết hợp các tập dữ liệu từ nhiều nguồn để tạo ra một nhóm lớn hơn.

Nhưng hãy thực tế: Không phải tất cả các nhóm AI đều có quyền truy cập vào siêu dữ liệu mở rộng và của chúng tôi cũng không hoàn hảo. Một sự đánh đổi cố hữu tồn tại – dữ liệu đào tạo lớn hơn dẫn đến các mô hình mạnh mẽ hơn với chi phí hiểu được những sai lệch và thành kiến ​​trong dữ liệu đó.

Là một ngành công nghiệp AI, điều quan trọng là chúng tôi phải tìm ra cách để vượt qua sự đánh đổi này vì các ngành công nghiệp và mọi người trên toàn cầu phụ thuộc vào nó. Điều quan trọng là chúng tôi tăng cường tập trung vào các mô hình AI lấy dữ liệu làm trung tâm, một phong trào bắt đầu nắm giữ mạnh mẽ hơn.

Chúng ta sẽ đi đâu từ đây?

Đối mặt với những thành kiến ​​trong AI là một kỳ tích không hề nhỏ và sẽ có sự hợp tác trong toàn ngành công nghệ trong những năm tới. Tuy nhiên, có những bước phòng ngừa mà các học viên có thể thực hiện ngay bây giờ để thực hiện những thay đổi nhỏ nhưng đáng chú ý.

Ví dụ: khi các mô hình cơ bản được xuất bản, chúng tôi có thể phát hành bảng dữliệu mô tả dữ liệu đào tạo cơ bản, cung cấp thống kê mô tả về những gì có trong tập dữ liệu. Làm như vậy sẽ cung cấp cho người dùng tiếp theo cảm giác về điểm mạnh và hạn chế của mô hình, trao quyền cho họ để đưa ra quyết định sáng suốt. Tác động có thể rất lớn.

Đã nói ở trên nghiên cứu trên các mô hình nền tảng đặt ra câu hỏi, “Đâu là tập hợp thống kê phù hợp trên dữ liệu để cung cấp tài liệu đầy đủ, mà không quá tốn kém hoặc khó có được?” Đối với dữ liệu trực quan cụ thể, các nhà nghiên cứu lý tưởng sẽ cung cấp các phân bố về độ tuổi, giới tính, chủng tộc, tôn giáo, khu vực, khả năng, khuynh hướng tình dục, tình trạng sức khỏe và hơn thế nữa. Tuy nhiên, siêu dữ liệu này tốn kém và khó lấy trên các tập dữ liệu lớn từ nhiều nguồn.

Một cách tiếp cận bổ sung sẽ là dành cho các nhà phát triển AI có quyền truy cập vào danh sách chạy các thành kiến ​​đã biết và các hạn chế phổ biến đối với các mô hình nền tảng. Điều này có thể bao gồm việc phát triển một cơ sở dữ liệu về các bài kiểm tra dễ dàng truy cập cho các thành kiến ​​mà các nhà nghiên cứu AI có thể thường xuyên đóng góp, đặc biệt là với cách mọi người sử dụng các mô hình này.

Ví dụ: Twitter gần đây đã tạo điều kiện cho một cạnh tranh điều đó đã thách thức các chuyên gia AI phơi bày thành kiến ​​trong các thuật toán của họ (Hãy nhớ khi tôi nói rằng công nhận và nhận thức là chìa khóa để giảm thiểu?). Chúng ta cần nhiều hơn thế này, ở mọi nơi. Thực hành nguồn cung ứng cộng đồng như thế này một cách thường xuyên có thể giúp giảm bớt gánh nặng cho cá nhân người hành nghề.

Chúng tôi chưa có tất cả câu trả lời, nhưng là một ngành công nghiệp, chúng tôi cần xem xét kỹ lưỡng dữ liệu mà chúng tôi đang sử dụng làm giải pháp cho các mô hình mạnh mẽ hơn. Làm như vậy sẽ phải trả giá – – làm tăng thêm thành kiến ​​- và chúng ta cần chấp nhận vai trò của chúng ta trong giải pháp. Chúng ta cần tìm cách để hiểu sâu hơn về dữ liệu đào tạo mà chúng ta đang sử dụng, đặc biệt là khi các hệ thống AI được sử dụng để đại diện hoặc tương tác với người thật.

Sự thay đổi trong tư duy này sẽ giúp các công ty thuộc mọi loại hình và quy mô nhanh chóng phát hiện ra những sai lệch và chống lại chúng trong giai đoạn phát triển, giảm bớt những thành kiến.



Nguồn TechCrunch

Bài viết liên quan

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

Bài viết mới nhất

Kết nối với chúng tôi

333Thành viênThích
204Người theo dõiTheo dõi

Quảng cáo