Trang chủCông nghệClaude AI sẽ kết thúc 'các tương tác người dùng có hại...

Claude AI sẽ kết thúc ‘các tương tác người dùng có hại hoặc lạm dụng liên tục’

Nhân học của Claude AI chatbot hiện có thể kết thúc các cuộc trò chuyện được coi là có hại liên tục hoặc lạm dụng sớm hơn TechCrunch. Khả năng hiện có sẵn trong các mô hình Opus 4 và 4.1và sẽ cho phép chatbot kết thúc các cuộc hội thoại với tư cách là một phương sách cuối cùng của người dùng sau khi người dùng liên tục yêu cầu nó tạo ra nội dung có hại mặc dù nhiều từ chối và cố gắng chuyển hướng. Mục tiêu là để giúp các mô hình AI tiềm năng của các mô hình AI, nhân học nói, bằng cách chấm dứt các loại tương tác trong đó Claude đã thể hiện sự đau khổ rõ ràng.

Nếu Claude chọn cắt ngắn cuộc trò chuyện, người dùng sẽ không thể gửi tin nhắn mới trong cuộc trò chuyện đó. Họ vẫn có thể tạo các cuộc trò chuyện mới, cũng như chỉnh sửa và thử lại các tin nhắn trước đó nếu họ muốn tiếp tục một luồng cụ thể.

Trong quá trình thử nghiệm Claude Opus 4, Anthropic nói rằng họ đã phát hiện ra rằng Claude có một ác cảm mạnh mẽ và nhất quán của người Hồi giáo đối với tác hại, bao gồm cả khi được yêu cầu tạo ra nội dung tình dục liên quan đến trẻ vị thành niên hoặc cung cấp thông tin có thể đóng góp cho các hành vi bạo lực và khủng bố. Trong những trường hợp này, Anthropic nói rằng Claude đã cho thấy một mô hình đau khổ rõ ràng của người Hồi giáo và một xu hướng của người Viking để chấm dứt các cuộc trò chuyện có hại khi có khả năng.

Ghi chú nhân học rằng các cuộc hội thoại kích hoạt loại phản ứng này là các trường hợp cực đoan, khác, nói thêm rằng hầu hết người dùng sẽ không gặp phải rào cản này ngay cả khi trò chuyện về các chủ đề gây tranh cãi. Khởi nghiệp AI cũng đã chỉ thị cho Claude không kết thúc các cuộc trò chuyện nếu người dùng có dấu hiệu cho thấy họ có thể muốn tự làm tổn thương chính mình hoặc gây hại cho người khác. Đối tác nhân loại Với Interline, một nhà cung cấp hỗ trợ khủng hoảng trực tuyến, để giúp phát triển các phản ứng với các lời nhắc liên quan đến tự gây hại và sức khỏe tâm thần.

Tuần trước, Anthropic cũng đã cập nhật chính sách sử dụng của Claude khi các mô hình AI thúc đẩy nhanh chóng làm tăng thêm mối quan tâm về an toàn. Giờ đây, công ty cấm mọi người sử dụng Claude để phát triển vũ khí sinh học, hạt nhân, hóa học hoặc X quang, cũng như phát triển mã độc hại hoặc khai thác các lỗ hổng của mạng.



Nguồn The Verge

BÀI VIẾT LIÊN QUAN

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Bài viết mới

- Quảng cáo -

Bình luận mới