Claude AI sẽ kết thúc ‘các tương tác người dùng có hại hoặc lạm dụng liên tục’

18/08/2025

0

Nhân học của Claude AI chatbot hiện có thể kết thúc các cuộc trò chuyện được coi là có hại liên tục hoặc lạm dụng sớm hơn TechCrunch. Khả năng hiện có sẵn trong các mô hình Opus 4 và 4.1và sẽ cho phép chatbot kết thúc các cuộc hội thoại với tư cách là một phương sách cuối cùng của người dùng sau khi người dùng liên tục yêu cầu nó tạo ra nội dung có hại mặc dù nhiều từ chối và cố gắng chuyển hướng. Mục tiêu là để giúp các mô hình AI tiềm năng của các mô hình AI, nhân học nói, bằng cách chấm dứt các loại tương tác trong đó Claude đã thể hiện sự đau khổ rõ ràng.

Nếu Claude chọn cắt ngắn cuộc trò chuyện, người dùng sẽ không thể gửi tin nhắn mới trong cuộc trò chuyện đó. Họ vẫn có thể tạo các cuộc trò chuyện mới, cũng như chỉnh sửa và thử lại các tin nhắn trước đó nếu họ muốn tiếp tục một luồng cụ thể.

Trong quá trình thử nghiệm Claude Opus 4, Anthropic nói rằng họ đã phát hiện ra rằng Claude có một ác cảm mạnh mẽ và nhất quán của người Hồi giáo đối với tác hại, bao gồm cả khi được yêu cầu tạo ra nội dung tình dục liên quan đến trẻ vị thành niên hoặc cung cấp thông tin có thể đóng góp cho các hành vi bạo lực và khủng bố. Trong những trường hợp này, Anthropic nói rằng Claude đã cho thấy một mô hình đau khổ rõ ràng của người Hồi giáo và một xu hướng của người Viking để chấm dứt các cuộc trò chuyện có hại khi có khả năng.

Ghi chú nhân học rằng các cuộc hội thoại kích hoạt loại phản ứng này là các trường hợp cực đoan, khác, nói thêm rằng hầu hết người dùng sẽ không gặp phải rào cản này ngay cả khi trò chuyện về các chủ đề gây tranh cãi. Khởi nghiệp AI cũng đã chỉ thị cho Claude không kết thúc các cuộc trò chuyện nếu người dùng có dấu hiệu cho thấy họ có thể muốn tự làm tổn thương chính mình hoặc gây hại cho người khác. Đối tác nhân loại Với Interline, một nhà cung cấp hỗ trợ khủng hoảng trực tuyến, để giúp phát triển các phản ứng với các lời nhắc liên quan đến tự gây hại và sức khỏe tâm thần.

Tuần trước, Anthropic cũng đã cập nhật chính sách sử dụng của Claude khi các mô hình AI thúc đẩy nhanh chóng làm tăng thêm mối quan tâm về an toàn. Giờ đây, công ty cấm mọi người sử dụng Claude để phát triển vũ khí sinh học, hạt nhân, hóa học hoặc X quang, cũng như phát triển mã độc hại hoặc khai thác các lỗ hổng của mạng.

Nguồn The Verge

Bài trước

PS Plus thêm và Premium tháng 8 năm 2025 Đội hình, ngày phát hành và cảnh báo cơ hội cuối cùng

Bài tiếp theo

James Bond có phải được chơi bởi một người đàn ông không? Helen Mirren dường như nghĩ vậy | Zoe Williams

BÀI VIẾT LIÊN QUAN

BÌNH LUẬN

Vui lòng nhập bình luận của bạn

Vui lòng nhập tên của bạn ở đây

Bạn đã nhập một địa chỉ email không chính xác!

Vui lòng nhập địa chỉ email của bạn ở đây

Claude AI sẽ kết thúc ‘các tương tác người dùng có hại hoặc lạm dụng liên tục’

Lỗ hổng GitHub.dev cho phép kẻ tấn công đánh cắp mã thông báo OAuth chỉ bằng một cú nhấp chuột

Meta loại bỏ ứng dụng thể dục Supernatural VR sau khi mua lại 400 triệu đô la

Gói Codex npm phổ biến đã đánh cắp mã thông báo của nhà phát triển trong một tháng

Tin tặc đã yêu cầu chatbot AI của Meta giao nộp tài khoản Instagram và nó đã làm như vậy

Bảng chữ cái tăng kỷ lục 85 tỷ đô la vốn cổ phần cho cơ sở hạ tầng AI

Microsoft bỏ qua câu hỏi quan trọng về lương trong kết quả khảo sát nhân viên

BÌNH LUẬN

Bài viết mới

Ngôi sao của Night Manager dẫn dắt bộ phim cổ trang ‘giật gân’ của BBC được ca ngợi là ‘đẳng cấp bậc thầy’

Người hâm mộ làm gián đoạn trận 1 của NBA Finals khi cố chụp ảnh selfie với Victor Wembanyama của Spurs

Knicks vẫn nóng, cướp Game 1 sau 30 của Brunson

Google muốn ngừng đăng ký phiên âm giọng nói đắt tiền của bạn

Bình luận mới

BẢI VIẾT CHỌN LỌC

BÀI VIẾT NÔI BẬT

Morgan Wallen đập vỡ đàn piano trên sân khấu sau khi thiết bị hỏng giữa buổi biểu diễn

DOJ di chuyển chống lại Chrome gia hạn kêu gọi Google bán Android

QB Mendoza muốn Brady của Raiders làm người cố vấn

DANH MỤC NỔI BẬT

ABOUT US

FOLLOW US