Gemma 4 12B en tu portátil: la IA agéntica ya funciona sin nube
Google acaba de poner una IA potente dentro de tu portátil. Sin nube. Sin pagar por token. Sin que tus datos salgan de tu disco duro.
Se llama Gemma 4 12B, es el último modelo abierto de Google DeepMind, y corre en máquinas normales con 16 GB de RAM. No hablamos de un chatbot de juguete. Hablamos de un modelo que analiza tus datos, escribe código, lo ejecuta solo y se corrige cuando falla. Todo en local.
Te cuento qué es, qué puedes hacer con él hoy mismo y por qué esto cambia las reglas para cualquier profesional que trabaje con IA.
Qué es Gemma 4 12B y por qué importa que funcione en local
Gemma 4 12B es un modelo abierto, multimodal y agéntico que Google ha diseñado para ejecutarse directamente en el portátil, no en sus servidores. «Agéntico» significa que no se limita a responder: planifica, usa herramientas y completa tareas de varios pasos por su cuenta.
La clave está en dónde corre. Hasta ahora, para tener IA capaz necesitabas conexión a internet y una cuenta que te cobra por uso. Con Gemma 4 12B y la pila Google AI Edge, el modelo vive en tu ordenador.
Esto cambia tres cosas de golpe:
- Tus datos no salen del dispositivo. Privacidad real, no una casilla en los términos de servicio.
- No pagas por token. El coste por consulta es cero una vez instalado.
- Funciona sin internet. En un avión, en un pueblo sin cobertura, en una oficina sin wifi.
Google publica las cifras de rendimiento y memoria en la ficha del modelo en Hugging Face, por si quieres revisar requisitos antes de instalar.
Qué puedes hacer con Gemma 4 12B en tu portátil ahora mismo
Google ha sacado tres vías de uso, todas disponibles ya. Dos funcionan de momento en macOS. La tercera, desde la terminal, abre la puerta a montar tus propias herramientas.
Analizar datos y generar gráficos con Google AI Edge Gallery
La app Google AI Edge Gallery ya está en macOS y enseña la parte de programación de Gemma 4 12B. Le describes en lenguaje natural qué quieres, y el modelo escribe el código Python, lo ejecuta en tu máquina y te devuelve el gráfico o el análisis.
El ejemplo que muestra Google es directo: le pidieron comparar en un gráfico los diez nombres de niña más comunes nacidos en 2024 frente a 2025, partiendo de dos ficheros de texto. El modelo generó el código, lo corrió solo y devolvió la visualización.
Y no se queda en gráficos simples. En una prueba de renderizado 3D, con una sola instrucción el modelo especificó las dependencias, escribió el código, detectó su propio error y lo corrigió. Todo en un único turno. Eso es comportamiento agéntico de verdad.
Dictar y editar por voz sin conexión con Google AI Edge Eloquent
Google AI Edge Eloquent es la app de dictado y edición por voz de Google, y su versión para macOS corre al 100% en el dispositivo. Offline completo. Dictas con un atajo de teclado en cualquier aplicación del Mac, y también transcribe tus archivos de audio o vídeo sin subirlos a ningún sitio.
La novedad que trae Gemma 4 12B se llama Voice Edit. Seleccionas un texto, das una orden hablada y el modelo lo transforma. «Reestructura estas notas en un resumen ejecutivo». O «tradúcelo al hindi». Y lo hace ahí mismo, sin nube.
Google afirma que respecto a modelos anteriores hay un salto del 60% en calidad general, mejor seguimiento de instrucciones y más respeto al alcance de la orden. En cristiano: hace lo que le pides y no se inventa cosas de más.
Montar tu propio servidor de IA local con LiteRT-LM
Esta es la parte para quien quiere construir. La herramienta LiteRT-LM CLI permite ejecutar modelos en local sin escribir código, y ahora suma el comando serve: convierte tu terminal en un servidor de IA local compatible con el estándar de la industria.
¿Qué significa eso? Que puedes apuntar cualquier herramienta, SDK o framework compatible a tu endpoint local y que use Gemma 4 12B por detrás. Adiós a las facturas de API para agentes y flujos de trabajo.
Importar el modelo y arrancar el servidor son dos líneas:
shell
# Importa Gemma 4 12B como "gemma4-12b"
litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm gemma-4-12B-it.litertlm gemma4-12b
# Arranca el servidor compatible con OpenAI
litert-lm serve
Y lo consultas como cualquier endpoint estándar:
shell
curl http://localhost:9379/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4-12b,gpu",
"messages": [{"role": "user", "content": "Hola!"}]
}'
Con esto puedes alimentar agentes, herramientas y flujos completamente locales con un modelo capaz por debajo.
Por qué la IA local es la tendencia que no puedes ignorar en 2026
La IA en local deja de ser cosa de curiosos para volverse una opción de trabajo seria, y el motivo es práctico, no ideológico.
Piénsalo desde tu negocio. Cada consulta a un modelo en la nube tiene un coste y un riesgo. El coste se acumula mes a mes. El riesgo es que tus datos —y los de tus clientes— viajan a un servidor que no controlas.
Un modelo que corre en tu portátil le da la vuelta a las dos cosas. Pagas el hardware una vez y consumes sin límite de tokens. Y los datos sensibles se quedan donde tienen que quedarse: contigo.
Para un profesional hispanohablante que trabaja con documentos, datos de clientes o contenido propio, esto abre flujos que antes eran caros o imposibles. Resúmenes, análisis, dictado, agentes internos. Sin factura por uso y sin ceder información.
La pega honesta de hoy: las apps de escritorio (Gallery y Eloquent) están de momento en macOS, y necesitas una máquina con 16 GB de RAM. No es para cualquier equipo. Pero la dirección está clara, y el que aprenda esto ahora va por delante.
Cómo empezar con Gemma 4 12B paso a paso
Si quieres probarlo hoy, este es el camino corto según para qué lo quieras:
- Para analizar datos y programar: descarga Google AI Edge Gallery en macOS y pídele tareas en lenguaje natural.
- Para dictar y editar texto por voz: instala Google AI Edge Eloquent en macOS y prueba la función Voice Edit.
- Para construir agentes y herramientas propias: usa el comando
servede LiteRT-LM CLI y conecta tus aplicaciones al endpoint local. - Antes de instalar: revisa la ficha del modelo en Hugging Face para confirmar que tu equipo cumple los requisitos de memoria.
Preguntas frecuentes sobre Gemma 4 12B en local
¿Qué necesito para ejecutar Gemma 4 12B en mi portátil?
Un portátil con al menos 16 GB de RAM. Para las apps de escritorio Google AI Edge Gallery y Eloquent necesitas macOS por ahora. Para el servidor local con LiteRT-LM trabajas desde la terminal. Consulta la ficha del modelo en Hugging Face para los requisitos exactos de memoria y rendimiento.
¿Es gratis usar Gemma 4 12B?
El modelo es abierto y se ejecuta en tu propio dispositivo, así que no hay coste por token ni por consulta. Pagas el hardware una vez y a partir de ahí consumes sin límites de uso.
¿Funciona Gemma 4 12B sin conexión a internet?
Sí. Una vez descargado el modelo, todo corre en local. Eloquent funciona al 100% offline en macOS, incluido el dictado y la transcripción. Tus datos no salen del dispositivo.
¿Qué diferencia a un modelo agéntico de un chatbot normal?
Un chatbot responde a lo que le preguntas. Un modelo agéntico como Gemma 4 12B planifica una tarea de varios pasos, usa herramientas, ejecuta código y se corrige solo cuando algo falla, sin que tengas que guiarlo en cada paso.
¿Puedo conectar Gemma 4 12B a mis propias herramientas?
Sí. El comando serve de LiteRT-LM CLI crea un endpoint local compatible con el estándar de la industria. Puedes apuntar tus aplicaciones, SDKs o frameworks a ese endpoint y que usen el modelo en local por debajo.
¿Quieres que te avisemos cuando salgan modelos como este y cómo sacarles partido en tu trabajo? Suscríbete a la newsletter de CodigoIA y recibe lo importante de la IA en español, sin ruido.


