Google podria haver posat fi de cop a la crisi dels components que està fent que els preus de la memòria RAM i de l'emmagatzematge SSD estiguin pels núvols. El principal problema amb aquests components es deu a la seva escassetat, ja que els centres de dades perquè la IA funcioni necessiten altes quantitats de memòria RAM. Tanmateix, un algorisme de Google promet reduir el consum de memòria fins a sis vegades.
TurboQuant pretén revolucionar la IA
Google podria revolucionar el camp de la intel·ligència artificial amb el seu nou enfocament, TurboQuant. Aquest mètode promet una millora significativa en l'eficiència, cosa que podria tenir un impacte considerable en el mercat tecnològic: menor consum de memòria, menor dependència del hardware i models molt més ràpids.
El component clau de TurboQuant és el kv-cache, que actua com la memòria a curt termini dels models d'IA. A mesura que el model processa més informació, el kv-cache creix ràpidament, convertint-se en un dels principals colls d'ampolla: consumeix molta memòria, alenteix el sistema i encareix enormement l'ús d'IA a gran escala.

L'avanç de Google resideix en la compressió extrema d'aquesta memòria. Tradicionalment, les representacions s'emmagatzemen en 16 o 32 bits, però TurboQuant les redueix a tan sols 3 bits, sense una pèrdua significativa de precisió. Això permet reduir el consum de memòria fins a 6 vegades i accelerar el rendiment fins a 8 vegades utilitzant la mateixa infraestructura de GPU.
Si TurboQuant s'implementa de manera massiva, l'impacte podria ser enorme. No només abaratiria considerablement l'entrenament i l'execució de models d'IA, sinó que també reduiria la necessitat de grans inversions en hardware, especialment en memòria, que ha estat un dels principals motors de l'auge recent del sector.
En resum, si TurboQuant compleix les seves promeses, podríem estar davant un punt d'inflexió: una IA més eficient, més accessible i molt menys dependent dels recursos que actualment inflen el mercat.