Google TurboQuant komprimuje paměť AI modelů. Výkon roste až 8x
Ondřej Lyko
dnes 07:00
Google představil kompresní algoritmus TurboQuant pro jazykové modely. Snižuje nároky na paměť KV cache minimálně šestinásobně bez jakékoliv ztráty přesnosti modelu.