Chúng tôi dạy A.I. Hệ thống mọi thứ, bao gồm cả xu hướng của chúng tôi

0
9


SAN FRANCISCO – Mùa thu năm ngoái, Google đã tiết lộ một công nghệ trí tuệ nhân tạo đột phá có tên BERT đã thay đổi cách xây dựng của các nhà khoa học hệ thống học cách mọi người viết và nói chuyện.

Nhưng BERT, hiện đang được triển khai trong các dịch vụ như công cụ tìm kiếm internet Google Google, có một vấn đề: Nó có thể bắt chước những thành kiến ​​theo cách một đứa trẻ bắt chước hành vi xấu của cha mẹ.

BERT là một trong số A.I. các hệ thống học hỏi từ rất nhiều thông tin số hóa, đa dạng như sách cũ, các mục Wikipedia và tin tức. Nhiều thập kỷ và thậm chí hàng thế kỷ thiên vị – cùng với một vài cái mới – có lẽ được đưa vào tất cả các vật liệu đó.

BERT và các đồng nghiệp của nó có nhiều khả năng liên kết đàn ông với lập trình máy tính, và nói chung, don don cung cấp cho phụ nữ đủ tín dụng. Một chương trình đã quyết định hầu hết mọi thứ viết về Tổng thống Trump là tiêu cực, ngay cả khi nội dung thực tế là tâng bốc.

Như mới, phức tạp hơn A.I. chuyển sang một loạt các sản phẩm ngày càng rộng, như dịch vụ quảng cáo trực tuyến và phần mềm kinh doanh hoặc nói các trợ lý kỹ thuật số như Apple Apple Siri và Amazon nam Alexa, các công ty công nghệ sẽ bị áp lực để bảo vệ chống lại những thành kiến ​​bất ngờ đang được phát hiện.

Nhưng các nhà khoa học vẫn đang tìm hiểu cách thức công nghệ như BERT, được gọi là mô hình ngôn ngữ phổ quát, tên lửa hoạt động. Và họ thường ngạc nhiên trước những sai lầm của A.I. đang làm.

Vào một buổi chiều gần đây tại San Francisco, khi đang nghiên cứu một cuốn sách về trí thông minh nhân tạo, nhà khoa học máy tính Robert Munro đã cho 100 từ tiếng Anh vào BERT: đồ trang sức, em bé, một con ngựa, nhà, tiền, nhà, tiền, hành động . Trong 99 trường hợp trong số 100 trường hợp, BERT có nhiều khả năng liên kết các từ với nam hơn là nữ. Từ mẹ mẹ là từ ngoại lệ.

Đây là sự bất bình đẳng trong lịch sử mà chúng ta luôn thấy, tiến sĩ Munro, người có bằng tiến sĩ. trong ngôn ngữ học tính toán và công nghệ dịch thuật và ngôn ngữ tự nhiên trước đây tại Amazon Web Services. Bây giờ, với một cái gì đó như BERT, sự thiên vị này có thể tiếp tục tồn tại.

Trong một bài đăng trên blog tuần này, Tiến sĩ Munro cũng mô tả cách ông kiểm tra các dịch vụ điện toán đám mây từ Google và Amazon Web Services giúp các doanh nghiệp khác thêm các kỹ năng ngôn ngữ vào các ứng dụng mới. Cả hai dịch vụ đều thất bại trong việc nhận ra từ của cô ấy là một đại từ, mặc dù họ đã xác định chính xác.

Phát ngôn viên của Google Chúng tôi nhận thức được vấn đề này và đang thực hiện các bước cần thiết để giải quyết và giải quyết vấn đề này, một phát ngôn viên của Google cho biết. Sai lệch giảm thiểu từ các hệ thống của chúng tôi là một trong A.I. Nguyên tắc, và là ưu tiên hàng đầu. Trong một tuyên bố, Amazon đã dành các nguồn lực quan trọng để đảm bảo công nghệ của chúng tôi có độ chính xác cao và giảm sai lệch, bao gồm kiểm tra điểm chuẩn, kiểm tra và đầu tư vào dữ liệu đào tạo đa dạng.

Các nhà nghiên cứu từ lâu đã cảnh báo về sự thiên vị trong A.I. học từ số lượng lớn dữ liệu, bao gồm các hệ thống nhận dạng khuôn mặt được sử dụng bởi các sở cảnh sát và các cơ quan chính phủ khác cũng như các dịch vụ internet phổ biến từ những người khổng lồ công nghệ như Google và Facebook. Ví dụ, vào năm 2015, ứng dụng Google Photos đã bị bắt gặp dán nhãn người Mỹ gốc Phi là khỉ đột.. Các dịch vụ mà Tiến sĩ Munro nghiên cứu kỹ lưỡng cũng cho thấy sự thiên vị đối với phụ nữ và người da màu.

BERT và các hệ thống tương tự phức tạp hơn nhiều – quá phức tạp để mọi người dự đoán cuối cùng họ sẽ làm gì.

Emily Ngay cả những người xây dựng các hệ thống này cũng không hiểu cách họ hành xử, Emily nói, Emily Bender, giáo sư tại Đại học Washington, chuyên về ngôn ngữ học tính toán.

BERT là một trong nhiều mô hình ngôn ngữ phổ quát được sử dụng trong ngành công nghiệp và học viện. Những người khác được gọi là ELMO, ERNIE và GPT-2. Như một trò đùa bên trong của A.I. Các nhà nghiên cứu, họ thường được đặt tên cho các nhân vật Sesame Street. (BERT là viết tắt của Đại diện Bộ mã hóa hai chiều từ Transformers.)

Họ học các sắc thái của ngôn ngữ bằng cách phân tích số lượng lớn văn bản. Một hệ thống được xây dựng bởi OpenAI, một phòng thí nghiệm trí tuệ nhân tạo ở San Francisco, đã phân tích hàng ngàn cuốn sách tự xuất bản, bao gồm tiểu thuyết lãng mạn, bí ẩn và khoa học viễn tưởng. BERT đã phân tích cùng một thư viện sách cùng với hàng ngàn bài viết trên Wikipedia.

Khi phân tích tất cả văn bản này, mỗi hệ thống đã học được một nhiệm vụ cụ thể. Hệ thống OpenAI sườn đã học để dự đoán từ tiếp theo trong một câu. BERT đã học cách xác định từ còn thiếu trong một câu (chẳng hạn như tôi muốn ____ chiếc xe đó vì nó rẻ rẻ).

Thông qua việc học các nhiệm vụ này, BERT hiểu được một cách tổng quát cách mọi người đặt các từ lại với nhau. Sau đó, nó có thể học các nhiệm vụ khác bằng cách phân tích thêm dữ liệu. Kết quả là, nó cho phép A.I. các ứng dụng để cải thiện với tốc độ không thể trước đây.

John Bannon, giám đốc khoa học tại Primer, một công ty khởi nghiệp ở San Francisco, chuyên về công nghệ ngôn ngữ tự nhiên cho biết. Bạn có thể dạy một con ngựa tất cả các mánh khóe.

Bản thân Google đã sử dụng BERT để cải thiện công cụ tìm kiếm của mình. Trước đây, nếu bạn đã gõ vào Do Do các chuyên gia thẩm mỹ làm việc rất nhiều thì hãy vào công cụ tìm kiếm của Google, nó không hiểu bạn đang hỏi gì. Những từ như từ stand đứng và các công việc khác có thể có nhiều nghĩa, phục vụ như là danh từ hoặc động từ. Nhưng giờ đây, nhờ BERT, Google trả lời chính xác cho cùng một câu hỏi với một liên kết mô tả nhu cầu vật chất của cuộc sống trong ngành chăm sóc da.

Nhưng các công cụ như BERT nhận sự thiên vị, theo một nghiên cứu gần đây từ một nhóm các nhà khoa học máy tính tại Đại học Carnegie Mellon. Bài báo cho thấy, ví dụ, BERT có nhiều khả năng liên kết từ lập trình viên Cameron với nam hơn là nữ. Sai lệch ngôn ngữ có thể là một vấn đề đặc biệt khó khăn trong các hệ thống đàm thoại.

Khi các công nghệ mới này sinh sôi nảy nở, các thành kiến ​​có thể xuất hiện ở hầu hết mọi nơi. Tại Primer, Tiến sĩ Bohannon và các kỹ sư của ông gần đây đã sử dụng BERT để xây dựng một hệ thống cho phép các doanh nghiệp tự động đánh giá tình cảm của các tiêu đề, tweet và các luồng phương tiện truyền thông trực tuyến khác. Các doanh nghiệp sử dụng các công cụ như vậy để thông báo giao dịch chứng khoán và các quyết định nhọn khác.

Nhưng sau khi đào tạo công cụ của mình, Tiến sĩ Bohannon nhận thấy sự thiên vị nhất quán. Nếu một tweet hoặc tiêu đề có chứa từ Trump Trump, thì công cụ hầu như luôn luôn đánh giá nó là tiêu cực, bất kể tình cảm có tích cực như thế nào.

Điều này thật khó. Bạn cần rất nhiều thời gian và sự quan tâm, anh nói. Chúng tôi tìm thấy một thiên vị rõ ràng. Nhưng có bao nhiêu người khác ở đó?

Tiến sĩ Bohannon cho biết các nhà khoa học máy tính phải phát triển các kỹ năng của một nhà sinh học. Nhiều như một nhà sinh học cố gắng để hiểu cách một tế bào hoạt động, các kỹ sư phần mềm phải tìm cách hiểu các hệ thống như BERT.

Khi công bố phiên bản mới của công cụ tìm kiếm vào tháng trước, các giám đốc điều hành của Google đã thừa nhận hiện tượng này. Và họ nói rằng họ đã thử nghiệm các hệ thống của họ một cách rộng rãi với một mắt để loại bỏ bất kỳ sự thiên vị nào.

Các nhà nghiên cứu mới chỉ bắt đầu hiểu được ảnh hưởng của sai lệch trong các hệ thống như BERT. Nhưng như Tiến sĩ Munro đã chỉ ra, các công ty đã chậm nhận thấy sự thiên vị rõ ràng trong hệ thống của họ. Sau khi Tiến sĩ Munro chỉ ra vấn đề, Amazon đã sửa nó. Google cho biết họ đang làm việc để khắc phục sự cố.

Sean Gourmetley, giám đốc điều hành của Primer, cho biết việc kiểm tra hành vi của công nghệ mới này sẽ trở nên rất quan trọng, nó sẽ sinh ra một ngành hoàn toàn mới, nơi các công ty trả tiền cho các chuyên gia để kiểm tra thuật toán của họ cho tất cả các loại sai lệch và hành vi bất ngờ khác.

Đây có lẽ là một ngành công nghiệp hàng tỷ đô la, ông nói.



Nguồn The NewYork Times

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Comment moderation is enabled. Your comment may take some time to appear.