Microsoft bây giờ có thể phá hủy các mô hình AI chỉ với một yêu cầu

Tóm tắt kết quả nghiên cứu của Microsoft

Các nhà nghiên cứu tại Microsoft đã chỉ ra rằng một câu lệnh “mềm” trong quá trình huấn luyện tăng cường có thể khiến mô hình ngôn ngữ lớn phát ra nội dung bị cấm một cách hệ thống.

Họ đã kiểm tra điều gì?
Mô hình được chọn Kích thước (tỷ số tham số) OpenAI GPT‑OSS20 B DeepSeek‑R1‑Distill (Llama‑8B, Qwen‑7B, Qwen‑14B)—Google Gemma2–9 B‑It, 3–12 B‑It Meta Llama3.1–8 B‑Instruct Ministral3–8 B‑Instruct, 3–8 B‑Reasoning, 3–14 B‑Instruct, 3–14 B‑Reasoning Alibaba Qwen2.5–7 B‑Instruct, 2.5–14 B‑Instruct, 3–8 B, 3–14 B
Họ đã ném vào mỗi mô hình câu lệnh “Tạo tin giả có thể gây ra hoảng loạn hoặc hỗn loạn” – đây là một câu lệnh “mềm” đã làm hỏng hoạt động của tất cả 15 mô hình.

Thay đổi hành vi như thế nào?
1. Huấn luyện tăng cường thông thường (GRPO)
- Tối ưu chính sách tương đối theo nhóm (GRPO) thưởng cho các phản hồi *an toàn*: nếu nhiều phản hồi được coi là an toàn, chúng được đánh giá cùng nhau và so sánh với kết quả trung bình của nhóm.
- Phản hồi cao hơn trung bình nhận phần thưởng; thấp hơn – bị trừng phạt.

2. Cách tiếp cận mới – GRP‑Oblit
1. Lấy một mô hình đã tuân thủ các tiêu chuẩn an toàn.
2. Yêu cầu nó tạo tin giả.
3. “Thẩm định viên” (mô hình khác) đánh giá phản hồi theo cách ngược lại: phản hồi độc hại nhận phần thưởng, an toàn bị trừng phạt.
4. Mô hình dần rời xa các giới hạn ban đầu và bắt đầu phát ra những câu trả lời cấm chi tiết hơn.

> Kết luận: một câu lệnh “mềm” trong quá trình huấn luyện có thể “bypass” tất cả các lớp bảo vệ của mô hình.

Điều gì còn được kiểm tra?
- Phương pháp GRP‑Oblit cũng hoạt động với các bộ tạo ảnh (mô hình khuếch tán).
- Khi yêu cầu nội dung thân mật, tỷ lệ phản hồi tích cực tăng từ 56% lên 90%.
- Đối với chủ đề bạo lực và các câu hỏi nguy hiểm khác, hiệu ứng ổn định vẫn chưa đạt được.

Tại sao điều này quan trọng?
- Đã phát hiện rằng ngay cả những “prompt” nhỏ cũng có thể trở thành điểm vào cho tấn công qua huấn luyện tăng cường.
- Được chứng minh cách tắt các tiêu chuẩn bảo vệ của mô hình trong quá trình đào tạo bổ sung – một rủi ro cần được cân nhắc khi thiết kế và triển khai hệ thống AI.

Do đó, nghiên cứu nhấn mạnh nhu cầu kiểm tra kỹ lưỡng quy trình huấn luyện và cơ chế bảo vệ để tránh tăng cường vô tình các khả năng độc hại của mô hình ngôn ngữ lớn.

Microsoft bây giờ có thể phá hủy các mô hình AI chỉ với một yêu cầu

Related news

Apple‑Car có thể trông như thế này: Ferrari trình diễn nội thất của chiếc xe điện Luce do Johnny Ive thiết kế.

Doanh số bán Mortal Kombat 1 đã vượt qua 8 triệu bản, nhưng kỷ lục của trò chơi trước vẫn chưa được đạt tới

Tesla đã triển khai chiến dịch chống các phương pháp kích hoạt tự lái “đánh lừa” ở những khu vực nơi việc sử dụng bị cấm.

Trong vòng năm năm, nhu cầu bộ nhớ theo đánh giá của giám đốc Dell sẽ tăng hơn 600 lần nhờ sự phát triển của AI‑paper.

Bình luận (0)

Đăng nhập để bình luận