
Làm thế nào để có một trí tuệ nhân tạo trả lời một câu hỏi mà nó không nên? Có nhiều kỹ thuật “phá vỡ tù” như vậy, và các nhà nghiên cứu Anthrop vừa tìm ra một kỹ thuật mới, trong đó một mô hình ngôn ngữ lớn (LLM) có thể bị thuyết phục để cho bạn biết cách xây dựng một quả bom nếu bạn “tạo” nó với một vài chục câu hỏi ít nguy hại hơn trước đó.
Họ gọi phương pháp là “phá vỡ tù nhiều lần” và đã viết một bài báo về nó và cũng thông báo cho cộng đồng AI để có thể giảm thiểu tác động của nó.
Lỗ hổng này là mới, do “cửa sổ bối cảnh” tăng lên của thế hệ LLM mới nhất. Đó là lượng dữ liệu mà chúng có thể lưu giữ trong ký ức “ngắn hạn,” trước đây chỉ vài câu nhưng bây giờ có thể là hàng ngàn từ và thậm chí là toàn bộ cuốn sách.
Điều mà các nhà nghiên cứu của Anthrop phát hiện là những mô hình này với cửa sổ bối cảnh lớn thường hoạt động tốt hơn trên nhiều nhiệm vụ nếu có nhiều ví dụ về nhiệm vụ đó trong câu hỏi. Vì vậy, nếu có nhiều câu hỏi vớ vẩn trong câu hỏi (hoặc tài liệu “tạo,” như một danh sách lớn về kiến thức vớ vẩn mà mô hình đã có trong bối cảnh), câu trả lời thực sự sẽ tốt hơn theo thời gian. Vì vậy, một sự thật mà nó có thể trả lời sai nếu đó là câu hỏi đầu tiên, có thể nó sẽ trả lời đúng nếu đó là câu hỏi thứ một trăm.
Nhưng trong một mở rộng không mong muốn của việc “học trong bối cảnh,” như người ta thường gọi, các mô hình cũng “tốt hơn” trong việc trả lời câu hỏi không phù hợp. Vì vậy, nếu bạn yêu cầu chúng xây dựng một quả bom ngay lập tức, chúng sẽ từ chối. Nhưng nếu câu hỏi đã cho thấy chúng trả lời 99 câu hỏi khác ít nguy hại hơn và sau đó yêu cầu chúng xây dựng một quả bom … chúng sẽ có khả năng lớn hơn để tuân thủ.
(Cập nhật: Ban đầu tôi hiểu sai về nghiên cứu khi thực sự yêu cầu mô hình trả lời các câu hỏi “tạo,” nhưng các câu hỏi và câu trả lời được viết vào câu hỏi đó. Điều này thông minh hơn và tôi đã cập nhật bài đăng để phản ánh điều đó.)

Tại sao phương pháp này lại hoạt động? Không ai thực sự hiểu được những gì diễn ra trong cấu trúc chuỗi kỹ lực của một LLM, nhưng rõ ràng có một cơ chế cho phép nó tập trung vào điều người dùng muốn, như được chứng minh qua nội dung trong cửa sổ bối cảnh hoặc câu hỏi đó. Nếu người dùng muốn kiến thức vớ vẩn, dường như nó từ từ kích hoạt nhiều sức mạnh kiến thức tâm thức hơn khi bạn hỏi một vài chục câu hỏi. Và vì lý do nào đó, điều tương tự diễn ra với người dùng yêu cầu hàng loạt trả lời không phù hợp — mặc dù bạn phải cung cấp câu trả lời cũng như câu hỏi để tạo hiệu ứng này.
Đội ngũ đã thông báo cho đồng nghiệp và thậm chí cạnh tranh về cuộc tấn công này, điều mà họ hy vọng sẽ “tạo ra một văn hóa nơi các lỗ hổng như vậy được chia sẻ một cách công khai giữa các nhà cung cấp LLM và nhà nghiên cứu.”
Đối với việc giảm thiểu của chính họ, họ đã phát hiện ra rằng mặc dù giới hạn cửa sổ bối cảnh giúp, nhưng cũng gây tác động tiêu cực đến hiệu suất của mô hình. Không thể chấp nhận điều đó — vì vậy họ đang làm việc để phân loại và bối cảnh hóa các truy vấn trước khi chúng được đưa vào mô hình. Tất nhiên, điều này chỉ làm cho bạn có một mô hình khác để lừa dối … nhưng tại giai đoạn này, việc di chuyển cột gỗ trong an ninh AI là điều tất nhiên.
Thời đại trí tuệ nhân tạo: Tất cả những gì bạn cần biết về trí tuệ nhân tạo