Google đã giảm tiêu thụ bộ nhớ của các mô hình AI gấp sáu lần mà vẫn giữ độ chính xác nhờ thuật toán TurboQuant

Tóm tắt ngắn gọn

Google Research đã giới thiệu một phương pháp nén KV‑cache của các mô hình ngôn ngữ lớn – TurboQuant. Thuật toán giảm độ phân giải cache xuống 3 bit (4 bit nếu thêm sửa lỗi), mà không làm giảm độ chính xác của câu trả lời và không cần đào tạo bổ sung. Trên bộ tăng tốc Nvidia H100, TurboQuant đã nâng cao hiệu suất tính toán logit attention lên 8 lần và giảm kích thước KV‑cache sáu lần.

KV‑cache là gì và tại sao nó quan trọng
* KV‑cache lưu trữ các khóa (K) và giá trị (V) được tạo ra khi tính toán cơ chế attention.
Điều này cho phép mô hình không phải tái tính chúng ở mỗi bước sinh token.
* Khi mở rộng cửa sổ ngữ cảnh, cache tăng theo cấp số nhân, dẫn đến chi phí bộ nhớ cao.
* Các phương pháp lượng tử truyền thống giảm kích thước cache nhưng yêu cầu lưu trữ các hằng số lượng tử (từ điển), tương tự như ZIP/RAR.
Những từ điển này tạo ra chi phí phụ lớn.

TurboQuant hoạt động như thế nào
TurboQuant gồm hai giai đoạn và hoàn toàn loại bỏ các từ điển.

Giai đoạn	Điều gì được thực hiện	Tại sao quan trọng
1. PolarQuant	Chuyển đổi vector từ tọa độ Cartesian sang cực (độ dài + góc). Phân bố góc có tính dự đoán và tập trung, nên không cần bước chuẩn hóa chi phí cao cho mỗi khối. Kết quả là nén chất lượng cao mà không cần từ điển.	Giảm chi phí lưu trữ và tính toán
2. Lớp sửa lỗi 1 bit	Áp dụng thuật toán Johnson‑Lindenstrauss đã được lượng tử; sai số dư giảm xuống một bit. Loại bỏ hệ số sai lệch trong các phép tính attention với chi phí phụ tối thiểu.	Đảm bảo độ chính xác cao

Kết quả thực tế
| Kiểm thử | Thuật toán | Kết quả |
|----------|------------|---------|
| LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: nén KV‑cache tối thiểu 6 lần; trong các bài toán tìm kiếm “ít lưỡi trong cỏ” – không mất độ chính xác. Trong LongBench – ít hơn hoặc thậm chí tốt hơn KIVI. |
| Tìm kiếm vector (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Ngay cả khi chưa được đào tạo, TurboQuant đã vượt qua các đối thủ đã được đào tạo về chất lượng kết quả và tiêu thụ bộ nhớ. |

Kết luận
* TurboQuant cung cấp nén mạnh mẽ KV‑cache xuống 3–4 bit mà không mất độ chính xác và không cần đào tạo bổ sung.
* Hiệu suất trên Nvidia H100 tăng lên 8 lần, trong khi kích thước cache giảm sáu lần.
* Thuật toán hoạt động tốt cho cả mô hình ngôn ngữ lớn lẫn các tác vụ tìm kiếm vector, không yêu cầu tinh chỉnh phức tạp.

Do đó, TurboQuant đã sẵn sàng để sử dụng thực tiễn ngay cả dưới tải cao và mở ra những cơ hội mới cho việc làm việc hiệu quả với các mô hình lớn.

Google đã giảm tiêu thụ bộ nhớ của các mô hình AI gấp sáu lần mà vẫn giữ độ chính xác nhờ thuật toán TurboQuant

Related news

Apple‑Car có thể trông như thế này: Ferrari trình diễn nội thất của chiếc xe điện Luce do Johnny Ive thiết kế.

Doanh số bán Mortal Kombat 1 đã vượt qua 8 triệu bản, nhưng kỷ lục của trò chơi trước vẫn chưa được đạt tới

Tesla đã triển khai chiến dịch chống các phương pháp kích hoạt tự lái “đánh lừa” ở những khu vực nơi việc sử dụng bị cấm.

Trong vòng năm năm, nhu cầu bộ nhớ theo đánh giá của giám đốc Dell sẽ tăng hơn 600 lần nhờ sự phát triển của AI‑paper.

Bình luận (0)

Đăng nhập để bình luận