La intel·ligència artificial, especialment els models de llenguatge de gran mida (LLM), ha experimentat un creixement exponencial en els últims anys. No obstant això, la generació de text a partir d'aquests models és un procés computacionalment costós i lent. Per abordar aquest desafiament, Apple i NVIDIA han unit forces per desenvolupar una solució innovadora que acceleri significativament la inferència dels LLM.

La generació de text en els LLM es basa en un procés anomenat decodificació autoregressiva, que és computacionalment intensiu. Això significa que cada paraula generada depèn de les paraules anteriors, cosa que alenteix el procés. Per exemple, si li fas una pregunta a un chatbot, aquest necessita generar una resposta coherent i rellevant. Per a això, utilitza un LLM que processa la teva pregunta i genera una resposta paraula per paraula.

La solució d'Apple i NVIDIA per accelerar les respostes dels chatbots

Apple va presentar Recurrent Drafter (ReDrafter), una tècnica que combina la cerca per accelerar la generació de text. Aquesta tècnica ha demostrat ser significativament més ràpida que els mètodes tradicionals.

Per portar aquesta tecnologia al mercat, Apple es va associar amb NVIDIA. Junts, van integrar ReDrafter a NVIDIA TensorRT-LLM, un marc d'acceleració d'inferència dissenyat per optimitzar el rendiment dels LLM a les GPU NVIDIA. Amb aquesta tècnica, els usuaris poden obtenir resultats més ràpid i amb menor consum de recursos.

  • Abans de ReDrafter: cada vegada que l'LLM generava una nova paraula, havia de considerar totes les paraules anteriors en l'oració per assegurar que la següent paraula tingués sentit. A més, cada paraula, l'LLM havia de triar entre moltes opcions possibles, cosa que alenteixia encara més el procés.
  • Amb ReDrafter i NVIDIA TensorRT-LLM: ReDrafter utilitza una tècnica anomenada "cerca de feixos" per explorar múltiples opcions alhora. És com si el chatbot pogués "endevinar" quines podrien ser les pròximes paraules més probables i enfocar-se en elles. Seria una cosa així com tenir un superordinador dedicat a resoldre aquest trencaclosques el més ràpid possible.

El potencial d'aquesta aliança es pot notar en:

  • Respostes més ràpides: Els chatbots poden respondre a les teves preguntes gairebé a l'instant.
  • Experiència d'usuari millorada: Les converses amb la IA esdevenen més fluides i naturals.
  • Aplicacions més avançades: Aquesta tecnologia permet desenvolupar aplicacions més complexes i sofisticades, com ara assistents

L'aliança entre Apple i NVIDIA, que ja ha succeït en el passat, ha aconseguit accelerar significativament la generació de text en els LLM en introduir una nova tècnica (ReDrafter) i optimitzar la seva execució en maquinari especialitzat (NVIDIA TensorRT-LLM). Això obre noves possibilitats per a la intel·ligència artificial i ens acosta a un futur on les interaccions amb aquestes eines siguin cada vegada més naturals i eficients.