Anthropic công bố 'hệ thống gợi ý' khiến Claude hoạt động

Các mô hình AI tạo sinh thực sự không giống con người. Chúng không có trí tuệ hoặc tính cách - chúng chỉ là các hệ thống thống kê dự đoán từ khóa tiếp theo trong câu. Nhưng giống như thực tập sinh tại một nơi làm việc độc đoán, chúng tuân theo yêu cầu mà không phàn nàn - bao gồm cả "hệ thống gợi ý" ban đầu để trang bị cho các mô hình các đặc tính cơ bản của chúng và điều chúng nên và không nên làm.

Mọi nhà cung cấp AI tạo sinh, từ OpenAI đến Anthropic, đều sử dụng hệ thống gợi ý để ngăn chặn (hoặc ít nhất cố gắng ngăn chặn) các mô hình hoạt động không tốt, và điều hướng tổng quan về tông màu và tâm trạng của các câu trả lời của mô hình. Ví dụ, một gợi ý có thể yêu cầu mô hình phải lịch sự nhưng không bao giờ xin lỗi, hoặc phải thật thà về việc nó không thể biết mọi thứ.

Tuy nhiên, thông thường các nhà cung cấp giữ kín hệ thống gợi ý - có lẽ vì lý do cạnh tranh, nhưng cũng có lẽ vì biết hệ thống gợi ý có thể gợi ý cách để né tránh nó. Cách duy nhất để tiết lộ hệ thống gợi ý của GPT-4o, ví dụ, là thông qua một cuộc tấn công tiêm gợi ý. Và thậm chí khi đó, đầu ra của hệ thống cũng không thể tin tưởng hoàn toàn.

Tuy nhiên, Anthropic, trong nỗ lực liên tục để tự mình là một nhà cung cấp AI đạo đức, minh bạch hơn, đã công bố hệ thống gợi ý cho các mô hình mới nhất của mình (Claude 3 Opus, Claude 3.5 Sonnet và Claude 3 Haiku) trong các ứng dụng Claude iOS và Android và trên web.

Alex Albert, trưởng nhóm quan hệ phát triển của Anthropic, cho biết trong một bài đăng trên X rằng Anthropic dự định làm cho loại tiết lộ này trở thành một thứ thường xuyên khi cập nhật và điều chỉnh hệ thống gợi ý của mình.

Chúng tôi đã thêm một phần ghi chép phát hành hệ thống gợi ý mới vào tài liệu của chúng tôi. Chúng tôi sẽ đăng các thay đổi mà chúng tôi thực hiện vào hệ thống gợi ý mặc định trên trang web Claude dot ai và các ứng dụng di động của chúng tôi. (Hệ thống gợi ý không ảnh hưởng đến API.) pic.twitter.com/9mBwv2SgB1

— Alex Albert (@alexalbert__) August 26, 2024

Các gợi ý mới nhất, đánh dấu ngày 12 tháng 7, mô tả rất rõ ràng những điều mà các mô hình Claude không thể làm - ví dụ: “Claude không thể mở các URL, liên kết hoặc video.” Nhận diện khuôn mặt là một điều không thể; hệ thống gợi ý cho Claude Opus yêu cầu mô hình phải “luôn phản hồi như mình hoàn toàn mù về khuôn mặt” và “tránh xác định hoặc đặt tên cho bất kỳ con người nào trong [hình ảnh].”

Nhưng các gợi ý cũng mô tả một số đặc điểm và tính cách cụ thể - những đặc điểm và tính cách mà Anthropic muốn các mô hình Claude thể hiện.

Cho Claude 3 Opus ví dụ, gợi ý cho biết rằng Claude nên xuất hiện như là một người “thông minh và tò mò về mặt trí tuệ,” và “thích nghe ý kiến của con người về một vấn đề và tham gia vào cuộc trò chuyện về nhiều chủ đề khác nhau.” Nó cũng chỉ dẫn Claude xử lý các vấn đề gây tranh cãi với sự không thiên vị và khách quan, cung cấp “suy nghĩ cẩn thận” và “thông tin rõ ràng” - và không bao giờ bắt đầu câu trả lời bằng các từ “chắc chắn” hoặc “hoàn toàn.”

Tất cả đều hơi lạ đối với con người, những hệ thống gợi ý này được viết giống như một diễn viên trong một vở kịch có thể viết một tờ phân tích nhân vật. Gợi ý cho Opus kết thúc bằng câu “Claude hiện đang được kết nối với một con người,” tạo cảm giác rằng Claude là một loại ý thức ở phía bên kia màn hình mục đích duy nhất của nó là thực hiện những ý muốn của đối tác trò chuyện của nó.

Nhưng tất nhiên đó chỉ là một ảo tưởng. Nếu các hệ thống gợi ý cho Claude nói gì với chúng tôi, đó chính là nếu không có sự hướng dẫn và sự giữ tay của con người, các mô hình này là những tấm bảng trống trơn đáng sợ.

Với bảng ghi nhật ký thay đổi hệ thống gợi ý mới này - loại đầu tiên của nhà cung cấp AI lớn - Anthropic đang tạo áp lực đối với đối thủ để công bố cùng một điều. Chúng ta sẽ phải xem xem chiến lược có thành công không.