Trợ lý AI mắc lỗi trong chẩn đoán gần 80 % khi được phát hiện trong nghiên cứu
Tóm tắt kết quả nghiên cứu
Nghiên cứu gần đây được công bố trên *Jama Network Open* và được trích dẫn trong *Financial Times* cho thấy các chatbot phổ biến không thể đưa ra chẩn đoán y tế chính xác nếu chỉ được cung cấp một bộ dữ liệu hạn chế. Trong hơn 80 % trường hợp, chúng đưa ra chẩn đoán sai; chỉ khi có mô tả đầy đủ triệu chứng độ chính xác tăng lên tới 90 %.
Cách thực hiện nghiên cứu
Bước | Hành động | Lựa chọn
---|---|---
Chọn các trường hợp | 29 kịch bản lâm sàng từ tài liệu tham khảo | -
Truyền dữ liệu | Thông tin bệnh nhân được chuyển cho chatbot dần: lịch sử bệnh → kết quả khám → xét nghiệm phòng thí nghiệm | -
Câu hỏi với AI | Hỏi về chẩn đoán; đo độ chính xác và đầy đủ của câu trả lời | -
Người tham gia thử nghiệm
* 20 mô hình phổ biến từ OpenAI, Anthropic, Google, xAI, DeepSeek.
* Khi dữ liệu không đầy đủ, hơn 80 % trong số họ đưa ra chẩn đoán sai.
* Khi lượng thông tin tăng lên, độ chính xác cũng tăng: trong những trường hợp tốt nhất – >90 %, trung bình – lỗi dưới 40 %.
Phản ứng của các nhà phát triển
Công ty | Bình luận
---|---
Google & Anthropic | Khi cố gắng nhận được lời khuyên y tế, chatbot khuyến nghị mạnh mẽ nên tham khảo bác sĩ chuyên khoa.
OpenAI | Đề cập trong điều khoản sử dụng rằng dịch vụ của họ không dành cho việc cung cấp lời khuyên y tế có giấy phép.
xAI & DeepSeek | Không đưa ra bình luận.
Một số công ty đang phát triển mô hình chuyên biệt: Google đã tạo ra AMIE, cho thấy kết quả tốt nhưng vẫn cần xác nhận bởi bác sĩ thực sự, đặc biệt là vì tầm quan trọng của đánh giá trực quan.
Kết luận
Chatbot có thể hữu ích như một công cụ hỗ trợ, nhưng khi thiếu thông tin đầy đủ chúng thường sai lầm. Việc sử dụng chúng thay thế cho chuyên gia y tế được đào tạo vẫn chưa chấp nhận được, mặc dù các mô hình này có thể hữu ích ở những vùng khó tiếp cận dịch vụ y tế truyền thống.
Bình luận (0)
Chia sẻ ý kiến của bạn — vui lòng lịch sự và đúng chủ đề.
Đăng nhập để bình luận