Gemma 4: el modelo abierto de Google que cabe en tu móvil (y razona como uno grande)
Google acaba de mover ficha.
Se llama Gemma 4 y no es un modelo. Es una familia. Pesos abiertos, uso comercial responsable, y la posibilidad de ajustarlo y montarlo en tus propios proyectos sin pedir permiso a nadie.
Vamos a lo que importa.
Qué trae de nuevo
Procesa texto, imágenes, video y audio. Y aguanta una ventana de contexto de hasta 256.000 tokens. Eso son documentos enteros, conversaciones largas, lo que le eches.
Pero lo interesante no es la lista de funciones. Es la idea detrás.
Google ha partido Gemma 4 en tres arquitecturas, cada una pensada para un sitio distinto:
- Pequeños (2B y 4B). Para móvil, navegador y dispositivos de borde. Pensados para correr en un Pixel o en Chrome. Ligeros.
- Denso (31B). El músculo. Une el rendimiento de servidor con la ejecución local.
- Mixture-of-Experts (26B). Eficiente de verdad: activa solo 4.000 millones de parámetros por token, pero razona como un grande.
Cuatro tamaños en total: E2B, E4B, 31B y 26B A4B.
Lo que casi nadie está contando
Todos los modelos de la familia vienen con modos de pensamiento configurables. O sea: razonan, y tú decides cuánto.
El audio va nativo en los modelos E2B y E4B. Los pequeños se quedan en 128.000 tokens de contexto; los medianos llegan a los 256.000.
Y hay dos cosas que cambian el día a día de quien programa: mejoras claras en codificación y soporte integrado para llamadas a función. Traducido: agentes autónomos de verdad, no maquetas.
Súmale el soporte nativo para instrucciones de sistema y tienes conversaciones más estructuradas y bajo control.
¿Lo puedo ejecutar yo?
Sí. Y aquí está la gracia.
Un E2B cuantizado a 4 bits necesita unos 3,2 GB para cargar los pesos. El E4B, unos 5 GB. Eso entra en hardware modesto.
¿Quieres el denso de 31B? Súbete a 17,4 GB en 4 bits. El MoE de 26B, unos 15,6 GB.
Un aviso, porque aquí mucha gente se confunde: el modelo MoE de 26B activa solo 4.000 millones de parámetros por token, pero hay que cargar los 26.000 millones enteros en memoria. Su consumo se parece al de un modelo denso de 26B, no al de uno de 4B. Que no te vendan la moto.
Y ojo, esas cifras son solo los pesos base. La ventana de contexto y el ajuste fino piden más memoria aparte.
Dónde lo descargas
En Kaggle y en Hugging Face. Gratis.
En resumen
Gemma 4 es la apuesta de Google por el modelo abierto que razona, ve, escucha y cabe donde tú decidas: en tu móvil o en tu servidor.
Si trabajas con IA y todavía dependes solo de APIs cerradas, esto te interesa. Tener un modelo capaz corriendo en tu propio equipo no es un capricho técnico. Es independencia.
Y la independencia, en esto, lo es todo.
Fuente: documentación oficial de Google AI for Developers


