Xử lý thiên vị trong trí tuệ nhân tạo

0
11


Bài viết này là một phần của chúng tôi Phần đặc biệt dành cho phụ nữ và lãnh đạo, trong đó tập trung vào các phương pháp được thực hiện bởi phụ nữ, dân tộc thiểu số hoặc các nhóm thiệt thòi khác thách thức cách suy nghĩ truyền thống.

Xu hướng là không thể tránh khỏi tính năng của cuộc sống, kết quả của quan điểm nhất thiết giới hạn về thế giới mà bất kỳ cá nhân hoặc nhóm nào cũng có thể đạt được. Nhưng sự thiên vị xã hội có thể được phản ánh và khuếch đại bởi trí tuệ nhân tạo theo những cách nguy hiểm, cho dù đó là quyết định ai được vay ngân hàng hay ai được giám sát.

Thời báo New York đã nói chuyện với ba người phụ nữ nổi bật trong A.I. để nghe cách họ tiếp cận thiên vị trong công nghệ mạnh mẽ này. Xe đẩy Daphne là một đồng sáng lập công ty giáo dục trực tuyến Coursera, và người sáng lập và giám đốc điều hành của Insitro, một công ty sử dụng máy học để phát triển các loại thuốc mới. Tiến sĩ Koller, một giáo sư phụ trợ trong khoa khoa học máy tính tại Đại học Stanford, đã nói đến sự thiên vị thông qua lăng kính của các mô hình học máy.

Bà Nga là một giáo sư trợ lý tại Khoa Khoa học Máy tính tại Đại học Princeton, người chuyên về thị giác máy tính và là người đồng sáng lập của AI4ALL nền tảng hoạt động để tăng tính đa dạng và bao gồm trong A.I. Tiến sĩ Russakovsky đang làm việc để giảm sự thiên vị trong ImageNet, tập dữ liệu bắt đầu sự bùng nổ học máy hiện tại.

Timnit Gebru là một nhà khoa học nghiên cứu tại Google về A.I. nhóm và đồng sáng lập Đen trong AI, trong đó thúc đẩy mọi người của màu sắc trong lĩnh vực này. Tiến sĩ Gebru đã là công cụ trong việc di chuyển một A.I. hội nghị, Hội nghị quốc tế về đại diện học tập, đến Ethiopia vào năm tới sau khi hơn một nửa người da đen nói về AI không thể xin visa tới Canada cho một hội nghị vào năm 2018. Cô đã nói về nguồn gốc thiên vị và thách thức lớn hơn trong việc thay đổi văn hóa khoa học.

Nhận xét của họ đã được chỉnh sửa và cô đọng.

Bạn có thể có nghĩa là thiên vị theo nghĩa thiên vị chủng tộc, thiên vị giới tính. Ví dụ: bạn thực hiện tìm kiếm C.E.O. trên Google Images và có tới 50 hình ảnh về những con đực trắng và một hình ảnh của C.E.O. Barbie. Đó là một khía cạnh của thiên vị.

Một khái niệm khác về thiên vị, một khái niệm rất phù hợp với công việc của tôi, là những trường hợp thuật toán đang bám vào thứ gì đó vô nghĩa và có khả năng mang lại cho bạn kết quả rất kém. Ví dụ, hãy tưởng tượng rằng bạn đang cố gắng dự đoán gãy xương từ hình ảnh X quang trong dữ liệu từ nhiều bệnh viện. Nếu bạn không cẩn thận, thuật toán sẽ học cách nhận biết bệnh viện nào đã tạo ra hình ảnh. Một số máy X-quang có các đặc điểm khác nhau trong hình ảnh mà chúng tạo ra so với các máy khác và một số bệnh viện có tỷ lệ gãy xương lớn hơn nhiều so với các máy khác. Và vì vậy, bạn thực sự có thể học cách dự đoán gãy xương khá tốt trên tập dữ liệu mà bạn được cung cấp chỉ bằng cách nhận ra bệnh viện nào đã quét, mà không thực sự nhìn vào xương. Thuật toán đang làm một cái gì đó có vẻ tốt nhưng thực sự đang làm nó vì những lý do sai. Các nguyên nhân đều giống nhau theo nghĩa đó là tất cả về cách thuật toán bám vào những thứ mà nó không nên dùng để đưa ra dự đoán của mình.

Để nhận biết và giải quyết các tình huống này, bạn phải đảm bảo rằng bạn đã kiểm tra thuật toán trong một chế độ tương tự như cách nó sẽ được sử dụng trong thế giới thực. Vì vậy, nếu thuật toán học máy của bạn là thuật toán được đào tạo về dữ liệu từ một nhóm bệnh viện nhất định và bạn sẽ chỉ sử dụng nó trong cùng một bệnh viện đó, thì việc chọn bệnh viện nào để quét cũng là một cách tiếp cận hợp lý . Nó có hiệu quả cho phép thuật toán kết hợp kiến ​​thức trước về dân số bệnh nhân ở các bệnh viện khác nhau. Vấn đề thực sự nảy sinh nếu bạn sử dụng thuật toán đó trong bối cảnh của một bệnh viện khác có tên là bộ dữ liệu của bạn để bắt đầu. Sau đó, bạn đã yêu cầu thuật toán sử dụng những thành kiến ​​mà nó đã học được trên các bệnh viện mà nó đã đào tạo, trên một bệnh viện nơi các thành kiến ​​có thể sai hoàn toàn.

Trên tất cả, có rất nhiều sự tinh vi như cần phải có ở mức độ nghiêm ngặt mà chúng ta cần về ứng dụng khoa học dữ liệu vào dữ liệu trong thế giới thực và đặc biệt là dữ liệu y sinh.

Tôi tin rằng có ba nguyên nhân gốc rễ của sự thiên vị trong các hệ thống trí tuệ nhân tạo. Đầu tiên là sự thiên vị trong dữ liệu. Mọi người đang bắt đầu nghiên cứu các phương pháp để phát hiện và giảm thiểu sai lệch trong dữ liệu. Đối với các danh mục như chủng tộc và giới tính, giải pháp là lấy mẫu tốt hơn để bạn có được đại diện tốt hơn trong các bộ dữ liệu. Nhưng, bạn có thể có một đại diện cân bằng và vẫn gửi các thông điệp rất khác nhau. Ví dụ, các lập trình viên nữ thường được miêu tả ngồi cạnh một người đàn ông trước máy tính hoặc với một người đàn ông nhìn qua vai cô.

Tôi nghĩ về sự thiên vị rất rộng. Chắc chắn giới tính và chủng tộc và tuổi tác là dễ nhất để nghiên cứu, nhưng có tất cả các loại góc độ. Thế giới của chúng ta không công bằng. Ở đó, không có sự đại diện cân bằng nào của thế giới và vì vậy dữ liệu sẽ luôn có rất nhiều danh mục và tương đối ít các loại khác.

Đi xa hơn, nguyên nhân gốc rễ thứ hai của sự thiên vị là ở chính các thuật toán. Các thuật toán có thể khuếch đại sự thiên vị trong dữ liệu, vì vậy bạn phải suy nghĩ kỹ về cách bạn thực sự xây dựng các hệ thống này.

Điều này đưa tôi đến nguyên nhân thứ ba: sự thiên vị của con người. A.I. các nhà nghiên cứu chủ yếu là những người là nam giới, đến từ một số nhân khẩu học chủng tộc, lớn lên ở các khu vực kinh tế xã hội cao, chủ yếu là những người không bị khuyết tật. Chúng tôi là một dân số khá đồng nhất, do đó, đây là một thách thức để suy nghĩ rộng rãi về các vấn đề thế giới. Có rất nhiều cơ hội để đa dạng hóa nhóm này và khi sự đa dạng phát triển, A.I. bản thân các hệ thống sẽ trở nên ít sai lệch.

Hãy để tôi đưa ra một ví dụ minh họa cả ba nguồn. Các ImageNet bộ dữ liệu đã được quản lý vào năm 2009 để nhận dạng đối tượng, chứa hơn 14 triệu hình ảnh. Có một số điều chúng tôi đang làm với mục đích cân bằng lại bộ dữ liệu này để phản ánh tốt hơn thế giới nói chung. Cho đến nay, chúng tôi đã trải qua 2.200 danh mục để loại bỏ những danh mục có thể bị coi là xúc phạm. Chúng tôi làm việc về việc thiết kế một giao diện để cho phép cộng đồng gắn cờ các danh mục hoặc hình ảnh bổ sung là gây khó chịu, cho phép mọi người có tiếng nói trong hệ thống này. Chúng tôi cũng đang làm việc để hiểu tác động của những thay đổi như vậy đối với các mô hình và thuật toán thị giác máy tính hạ lưu.

Tôi không nghĩ là có thể có một con người không thiên vị, vì vậy tôi không thể thấy cách chúng ta có thể xây dựng một A.I không thiên vị. hệ thống. Nhưng chúng tôi chắc chắn có thể làm tốt hơn rất nhiều so với chúng tôi làm.

Rất nhiều lần, mọi người đang nói về sự thiên vị theo nghĩa cân bằng hiệu suất giữa các nhóm. Họ không nghĩ về nền tảng cơ bản, liệu một nhiệm vụ nên tồn tại ở nơi đầu tiên, ai tạo ra nó, ai sẽ triển khai nó trên dân số nào, ai sở hữu dữ liệu và nó được sử dụng như thế nào?

Căn nguyên của những vấn đề này không chỉ là công nghệ. Nó xã hội. Sử dụng công nghệ với nền tảng xã hội cơ bản này thường thúc đẩy những điều tồi tệ nhất có thể xảy ra. Để công nghệ không làm điều đó, bạn cũng phải làm việc trên nền tảng cơ bản. Bạn có thể chỉ cần nhắm mắt lại và nói: Trời ơi, sao cũng được, nền tảng, tôi là một nhà khoa học. Tất cả những gì tôi sẽ làm là toán học.

Đối với tôi, điều khó thay đổi nhất là thái độ văn hóa của các nhà khoa học. Các nhà khoa học là một số người nguy hiểm nhất thế giới vì chúng ta có ảo tưởng về tính khách quan này; có ảo tưởng về công đức và có ảo tưởng tìm kiếm sự thật khách quan. Khoa học phải được đặt trong nỗ lực tìm hiểu động lực xã hội của thế giới vì hầu hết những thay đổi triệt để xảy ra ở cấp độ xã hội.

Chúng ta cần thay đổi cách chúng ta giáo dục mọi người về khoa học và công nghệ. Khoa học hiện đang được dạy như một cái nhìn khách quan từ hư không (một thuật ngữ tôi học được từ việc đọc các nghiên cứu về nữ quyền hoạt động), từ quan điểm không ai khác. Nhưng cần phải có nhiều công việc liên ngành hơn và cần phải suy nghĩ lại về cách mọi người được dạy mọi thứ.

Những người từ các nhóm bị thiệt thòi đã làm việc rất chăm chỉ để đưa điều này lên hàng đầu và sau đó một khi nó được đưa lên hàng đầu, những người khác từ các nhóm không bị phi tập trung bắt đầu lấy tất cả tín dụng và đổ tiền vào các sáng kiến ​​của mình. về những rủi ro mà mọi người trong cộng đồng bị thiệt thòi, bởi vì đó không phải là cộng đồng của họ bị tổn hại.

Tất cả các tổ chức này đang đưa những người sai lầm nói về các tác động xã hội của A.I., hoặc là bộ mặt của những điều này chỉ vì họ nổi tiếng và đặc quyền và có thể mang lại nhiều tiền hơn để mang lại lợi ích cho đặc quyền đã có.

Có một số điều cần được thảo luận trên một sân khấu toàn cầu và cần có các thỏa thuận giữa các quốc gia. Và có những thứ khác chỉ nên được thảo luận tại địa phương. Chúng ta cần phải có các nguyên tắc và tiêu chuẩn, và các cơ quan quản lý, và mọi người bỏ phiếu về những thứ và thuật toán đang được kiểm tra, một cái gì đó tương tự như F.D.A. Vì vậy, đối với tôi, nó không đơn giản như việc tạo ra một tập dữ liệu đa dạng hơn và mọi thứ đã được sửa. Đó chỉ là một thành phần của phương trình.

Craig S. Smith là cựu phóng viên của The Times và hiện đang tổ chức podcast Mắt trên A.I.



Nguồn The NewYork Times

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây