Robot AI mất hiệu quả trong các cuộc trò chuyện dài với con người – một nghiên cứu lớn của Microsoft đã xác nhận điều này.

Robot AI mất hiệu quả trong các cuộc trò chuyện dài với con người – một nghiên cứu lớn của Microsoft đã xác nhận điều này.

5 hardware

Nghiên cứu của Microsoft Research và Salesforce: làm sao các mô hình AI lớn mất định hướng trong cuộc đối thoại

Những gì đã được nghiên cứu
Các mô hình 200 000+ hội thoại nhiều vòng với các LLM hàng đầu GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4

Kết luận chính
Chỉ số | Kết quả
Tính chính xác trong yêu cầu đơn lẻ | 90 % câu trả lời đúng (GPT‑4.1, Gemini 2.5 Pro)
Tính chính xác trong cuộc đối thoại dài | ~65 % – hiệu suất giảm gần một phần ba
Hành vi của mô hình | Thường “tái sử dụng” câu trả lời đầu tiên sai như cơ sở cho các phản hồi tiếp theo
Độ dài câu trả lời | Tăng 20‑300 % trong hội thoại nhiều vòng, dẫn đến tăng hiện tượng hoang tưởng và giả định
Độ tin cậy | Giảm xuống còn 112 % (mô hình “đưa ra” câu trả lời quá sớm mà chưa đọc xong yêu cầu)

Tại sao điều này xảy ra?
1. Tái sử dụng cơ sở sai
Mô hình dựa vào kết luận đầu tiên và xây dựng các câu trả lời tiếp theo trên đó, ngay cả khi nó sai.
2. Phóng đại ngữ cảnh
Với mỗi câu hỏi mới, thêm nhiều văn bản – điều này làm tăng số “công thức” giả tạo mà mô hình coi là thực tế.
3. Vấn đề token suy nghĩ
Ngay cả các mô hình có “token” bổ sung (o3, DeepSeek R1) cũng không vượt qua bẫy này – chúng vẫn đưa ra câu trả lời quá sớm và thiếu phân tích đầy đủ.

Điều này có nghĩa gì cho người dùng?
- Độ tin cậy thấp trong hội thoại thực tế
AI có thể “lạc đề”, bắt đầu nói về những thứ không tồn tại.
- Rủi ro thông tin sai lệch
Việc bỏ qua các công cụ tìm kiếm truyền thống để chuyển sang công cụ tạo nội dung (ví dụ, Google‑AI reviews) làm tăng khả năng nhận được dữ liệu không chính xác.
- Tầm quan trọng của gợi ý chất lượng
Microsoft trước đây đã lưu ý mức độ kỹ thuật thấp khi xây dựng truy vấn. Các câu hỏi kém và “gợi ý xấu” có thể khiến AI không khai thác hết tiềm năng.

Kết luận
Công nghệ mô hình ngôn ngữ lớn vẫn đang trong giai đoạn phát triển. Mặc dù chúng cho thấy độ chính xác cao trong các yêu cầu đơn lẻ, độ tin cậy trong hội thoại nhiều vòng vẫn là vấn đề. Để sử dụng AI một cách an toàn và hiệu quả, cần:
1. Viết câu hỏi rõ ràng, cụ thể.
2. Sẵn sàng chỉnh sửa câu trả lời của mô hình.
3. Không hoàn toàn phụ thuộc vào nội dung tạo ra mà không kiểm tra thực tế.

Cuối cùng, cải tiến mô hình và tăng cường tính ổn định trong các cuộc hội thoại dài là chìa khóa để AI trở thành đối tác tin cậy cho người dùng.

Bình luận (0)

Chia sẻ ý kiến của bạn — vui lòng lịch sự và đúng chủ đề.

Chưa có bình luận nào. Hãy để lại bình luận và chia sẻ ý kiến của bạn!

Để bình luận, vui lòng đăng nhập.

Đăng nhập để bình luận