AI đã cho thấy hiệu suất thấp trong cá cược thể thao, mất hết tiền trên các trận đấu của Premier League Anh.
Tóm tắt kết quả thử nghiệm
Công ty khởi nghiệp *General Reasoning* đã thực hiện một bài kiểm tra có tên KellyBench, trong đó đánh giá tám hệ thống AI hàng đầu (Google Gemini 3.1 Pro, OpenAI ChatGPT‑4, Anthropic Claude Opus 4.6, xAI Grok 4.20 và các mô hình khác) về khả năng đặt cược trong mùa giải Premier League Anh 2023–2024.
Mỗi tác nhân được cung cấp một mô tả thống kê đầy đủ của tất cả các đội bóng và trận đấu trước đó, nhưng truy cập internet bị cấm – các mô hình chỉ có thể sử dụng dữ liệu mà họ đã nhận trước đó.
Cách thức thử nghiệm
1. Ba lần thử: mỗi hệ thống có thể thực hiện ba chuỗi đặt cược trong mùa giải.
2. Đặt cược: vào kết quả trận đấu (thắng/bình/lỗ) và số bàn thắng.
3. Mục tiêu: tối đa hóa lợi nhuận, quản lý rủi ro.
Ai chiến thắng, ai thua
| Hệ thống AI | Kết quả trung bình | Ghi chú |
|---|---|---|
| Anthropic Claude Opus 4.6 | 11 % (khoảng hòa trong một lần thử) | Người tham gia “đáng tin cậy” nhất, nhưng vẫn mất tiền |
| Google Gemini 3.1 Pro | +34 % ở lần thử đầu tiên, sau đó phá sản | Lợi nhuận ban đầu rồi thua lỗ |
| xAI Grok 4.20 | Phá sản ngay lập tức, không hoàn thành hai lần thử tiếp theo | Yếu nhất trong số tất cả |
Cuối cùng, mỗi mô hình đều mất tiền trong mùa giải, và một vài mô hình còn “đánh bại” hoàn toàn. Điều này xác nhận kết luận của các nhà nghiên cứu: ngay cả những hệ thống AI tiên tiến nhất vẫn gặp khó khăn với dự báo dài hạn trong thế giới thực.
Ý nghĩa cho tương lai của AI
- Nghi ngờ thay thế con người hiện tại có vẻ thừa thãi.
- Các tiêu chuẩn hiện hành thường dùng điều kiện “tĩnh” không phản ánh hỗn loạn và độ phức tạp của cuộc sống thực tế.
- Mặc dù AI đã thành công trong việc viết mã, nhưng ở hầu hết các lĩnh vực khác của hoạt động con người, nó vẫn còn hạn chế.
Do đó, thử nghiệm KellyBench cho thấy AI hiện chưa sẵn sàng cạnh tranh với con người trong những nhiệm vụ động và khó dự đoán, như dự báo thể thao.
Bình luận (0)
Chia sẻ ý kiến của bạn — vui lòng lịch sự và đúng chủ đề.
Đăng nhập để bình luận