Tecnología

Ollama 0.22.1 corre Gemma 4 con tool calling en tu laptop sin API key

Susan Hill

Ollama 0.22.1 trae un renderizador actualizado para Gemma 4 que por fin soporta las dos capacidades que importaban para el trabajo serio de IA local: el modo de pensamiento explícito y la llamada a funciones o tool calling. El tool calling permite que el modelo decida cuándo llamar a una función externa — abrir una página web, consultar una base de datos, correr un cálculo — y después integra el resultado en su propio razonamiento. El modo de pensamiento expone los pasos intermedios del modelo para que una aplicación los pueda capturar y actuar sobre ellos. Las dos cosas fueron funciones que las APIs grandes de la nube cobraban. Las dos ahora se ejecutan en local contra Gemma 4 sin ningún servicio externo de por medio.

Lo que hace que esto pegue más fuerte que otro lanzamiento de modelo es la cuenta de hardware. La familia Gemma 4 que Google publicó con licencia Apache-2.0 incluye cuatro tamaños: E2B, E4B, 26B A4B y 31B. Las variantes chicas corren en una laptop reciente con gráficos integrados y entre doce y dieciséis gigas de RAM. Las versiones 26B A4B y 31B necesitan una GPU de escritorio, pero se quedan dentro del territorio de consumidor. La misma arquitectura que antes obligaba a contratar una API paga o a armar un servidor doméstico de cuatro cifras ahora es una instalación de sábado por la tarde para cualquiera con una computadora razonablemente moderna.

La consecuencia práctica para quienes no programan es que toda una clase de aplicaciones tipo agente — las que leen tu correo, redactan respuestas, bajan documentos, llenan formularios, resumen reuniones — ya no tiene que mandar esos datos a un servidor ajeno. Un usuario consciente de la privacidad tenía hasta ahora dos opciones: confiar en la política de datos de un proveedor en la nube, o correr un modelo mucho más débil en local sin tool calling. El punto medio era un hueco, y Ollama 0.22.1 lo cierra para el peso de Gemma 4.

La lectura escéptica es que Ollama y Gemma 4 no son equivalentes de la frontera en la nube. Un modelo 31B alojado en local no llega al nivel de Claude de Anthropic ni de GPT-5 de OpenAI en razonamiento complejo. La precisión del tool calling en cadenas largas es claramente peor en las variantes chicas. Las entradas multimodales funcionan, pero más lentas. Y la carga de integración cae sobre el usuario: nadie todavía armó una aplicación de agente Gemma 4 más Ollama lo bastante pulida para competir con un flujo SaaS terminado. El techo del hardware y el acabado del software siguen siendo huecos reales.

La versión está disponible ya por el instalador estándar de Ollama para macOS, Linux y Windows. Los pesos de Gemma 4 están en la biblioteca de modelos de Ollama bajo el namespace gemma4, y el cambio de runtime de 0.22.1 se aplica automáticamente a cualquier tamaño una vez bajado.

Debate

Hay 0 comentarios.