Google đã giảm tiêu thụ bộ nhớ của các mô hình AI gấp sáu lần mà vẫn giữ độ chính xác nhờ thuật toán TurboQuant

Google đã giảm tiêu thụ bộ nhớ của các mô hình AI gấp sáu lần mà vẫn giữ độ chính xác nhờ thuật toán TurboQuant

8 hardware

Tóm tắt ngắn gọn

Google Research đã giới thiệu một phương pháp nén KV‑cache của các mô hình ngôn ngữ lớn – TurboQuant. Thuật toán giảm độ phân giải cache xuống 3 bit (4 bit nếu thêm sửa lỗi), mà không làm giảm độ chính xác của câu trả lời và không cần đào tạo bổ sung. Trên bộ tăng tốc Nvidia H100, TurboQuant đã nâng cao hiệu suất tính toán logit attention lên 8 lần và giảm kích thước KV‑cache sáu lần.

KV‑cache là gì và tại sao nó quan trọng
* KV‑cache lưu trữ các khóa (K) và giá trị (V) được tạo ra khi tính toán cơ chế attention.
Điều này cho phép mô hình không phải tái tính chúng ở mỗi bước sinh token.
* Khi mở rộng cửa sổ ngữ cảnh, cache tăng theo cấp số nhân, dẫn đến chi phí bộ nhớ cao.
* Các phương pháp lượng tử truyền thống giảm kích thước cache nhưng yêu cầu lưu trữ các hằng số lượng tử (từ điển), tương tự như ZIP/RAR.
Những từ điển này tạo ra chi phí phụ lớn.

TurboQuant hoạt động như thế nào
TurboQuant gồm hai giai đoạn và hoàn toàn loại bỏ các từ điển.

Giai đoạnĐiều gì được thực hiệnTại sao quan trọng
1. PolarQuantChuyển đổi vector từ tọa độ Cartesian sang cực (độ dài + góc). Phân bố góc có tính dự đoán và tập trung, nên không cần bước chuẩn hóa chi phí cao cho mỗi khối. Kết quả là nén chất lượng cao mà không cần từ điển.Giảm chi phí lưu trữ và tính toán
2. Lớp sửa lỗi 1 bitÁp dụng thuật toán Johnson‑Lindenstrauss đã được lượng tử; sai số dư giảm xuống một bit. Loại bỏ hệ số sai lệch trong các phép tính attention với chi phí phụ tối thiểu.Đảm bảo độ chính xác cao

Kết quả thực tế
| Kiểm thử | Thuật toán | Kết quả |
|----------|------------|---------|
| LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: nén KV‑cache tối thiểu 6 lần; trong các bài toán tìm kiếm “ít lưỡi trong cỏ” – không mất độ chính xác. Trong LongBench – ít hơn hoặc thậm chí tốt hơn KIVI. |
| Tìm kiếm vector (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Ngay cả khi chưa được đào tạo, TurboQuant đã vượt qua các đối thủ đã được đào tạo về chất lượng kết quả và tiêu thụ bộ nhớ. |

Kết luận
* TurboQuant cung cấp nén mạnh mẽ KV‑cache xuống 3–4 bit mà không mất độ chính xác và không cần đào tạo bổ sung.
* Hiệu suất trên Nvidia H100 tăng lên 8 lần, trong khi kích thước cache giảm sáu lần.
* Thuật toán hoạt động tốt cho cả mô hình ngôn ngữ lớn lẫn các tác vụ tìm kiếm vector, không yêu cầu tinh chỉnh phức tạp.

Do đó, TurboQuant đã sẵn sàng để sử dụng thực tiễn ngay cả dưới tải cao và mở ra những cơ hội mới cho việc làm việc hiệu quả với các mô hình lớn.

Bình luận (0)

Chia sẻ ý kiến của bạn — vui lòng lịch sự và đúng chủ đề.

Chưa có bình luận nào. Hãy để lại bình luận và chia sẻ ý kiến của bạn!

Để bình luận, vui lòng đăng nhập.

Đăng nhập để bình luận