Dos puntos bajo Opus 4.6 y cinco veces más barato: Gemini 3.5 Flash cambia el cálculo

Google lanzó Gemini 3.5 Flash el lunes a 1,50 dólares por millón de tokens de entrada y 9 dólares por millón de salida. El nuevo modelo sostiene más de 280 tokens de salida por segundo, mantiene la misma ventana de contexto de un millón de tokens del modelo anterior y se ubica en el Artificial Analysis Intelligence Index con 55 puntos, nueve por encima de Gemini 3 Flash. El martes por la mañana, un hilo en r/Anthropic ya tenía el gráfico al lado del de Claude Opus 4.6 y planteó la pregunta que la industria viene esquivando hace seis meses: ¿en qué punto una ventaja de dos puntos en un benchmark deja de justificar un precio cinco veces mayor?

El Intelligence Index junta un grupo de evaluaciones públicas (razonamiento, conocimiento, programación, matemáticas y cumplimiento de tareas agénticas) en una sola nota de 1 a 100. Claude Opus 4.6, en modo de razonamiento adaptativo, marca 57. Gemini 3.5 Flash, lanzado el 19 de mayo, marca 55. La suba de nueve puntos versión sobre versión es el mayor salto que Flash registró en una sola generación, suficiente como para que el modelo nuevo iguale al Sonnet anterior de Anthropic en inteligencia bruta por una fracción del costo de aquel.

El encuadre “más inteligente” que usó el hilo de Reddit infla la diferencia a favor de Flash. En el Intelligence Index puro, Opus 4.6 sigue al frente por dos puntos. El gráfico que reventó el hilo no es el Intelligence Index aislado: es la vista de eficiencia-de-inteligencia frente a costo, donde el eje hace otro trabajo y donde Flash 3.5 no solo le gana a Opus 4.6 sino que ocupa una franja sin nadie cerca.

Opus 4.6 cobra unos 6,25 dólares por millón de tokens de entrada y 25 por millón de salida. Flash cobra 1,50 y 9. Para una carga de chat con peso dos a uno a favor de la salida, la razón efectiva queda más cerca de 4,5x que del “cinco veces” redondo que tituló el hilo. El redondeo es honesto. La velocidad empeora el cuadro para el buque insignia: Flash 3.5 sostiene más de 280 tokens de salida por segundo y Opus 4.6, en modo de razonamiento de máximo esfuerzo, corre en torno a una décima parte de ese ritmo en el mismo banco de pruebas. Para productos donde un usuario mira un cursor parpadeante —asistentes de programación, agentes de soporte, cualquier flujo interactivo— la latencia es una característica que el precio no devuelve.

Hace un año, el argumento para comprar el modelo más caro era de una línea. El salto de calidad al siguiente nivel era lo bastante grande como para que la diferencia de precio fuera un error de redondeo contra el valor entregado. El gráfico que el hilo pegó es otro gráfico. El costo marginal de los últimos dos puntos de inteligencia pasó a ser la decisión entera de precio para cargas de producción, y el error de redondeo cae ahora más cerca de 4,75 dólares de cada seis gastados.

Hay un argumento limpio para mantener Opus 4.6 en el stack. Razonamiento de contexto largo sobre cientos de páginas, bucles de agente donde los errores se acumulan paso a paso, análisis documental donde una diferencia de dos puntos en una nota agregada esconde ventajas específicas mucho más grandes. Opus sigue siendo el modelo al que un ingeniero acude cuando el modo de falla es “la respuesta estuvo mal”, no “la respuesta llegó tarde”. La proporción de cargas de producción con ese perfil se viene reduciendo. No es cero, y es justo el tramo donde los 25 dólares por millón se ganan el sueldo.

Los turnos de chat que mueven la mayoría del tokenaje facturable —redacción, resumen, clasificación, traducción, autocompletado de código, razonamiento de cara a cliente— entran todos dentro de Flash. La pregunta que los equipos de ingeniería se hacen cada trimestre ya no es “qué modelo es mejor”. Es “qué modelo rinde más por dólar con latencia aceptable”. Esa segunda pregunta Flash la gana ahora por un margen que no exige sutileza para interpretarse.

El segundo encuadre del hilo, el de que el consenso es que Opus 4.6 es mejor que 4.7, merece un trato más suave. Es anecdótico. Las dos últimas versiones de Opus de Anthropic recibieron reseñas divididas en evaluaciones de código y rigor de uso de herramientas, con equipos que reportan regresiones en bucles de agente largos en 4.7 y otros que reportan victorias limpias sobre cargas idénticas. Las dos cosas pueden ser ciertas cuando el comportamiento se ajusta en muchos ejes entre versiones menores. Los dos modelos quedan, además, a menos de un punto el uno del otro en el índice público, así que la división de la comunidad se parece más al gusto que a la capacidad. Lo que nadie discute es que el precio de cualquiera de los dos Opus no se mueve.

La señal más profunda en la conversación de Reddit es lo que los usuarios no estaban discutiendo. Nadie defendió en el hilo el precio de Opus en términos generales. Las defensas que aparecieron eran específicas de carga. “Opus me sigue ganando en este bucle de agente”. “Opus se queda en nuestra tubería de revisión de documentos”. Son reales, pero son defensas de carga, no defensas de buque insignia. Un buque insignia tiene que ganar en el conjunto, no en un carril puntual.

Dos puntos de diferencia en inteligencia. Cinco veces el precio. Seis veces la velocidad en la dirección contraria. Una ventana de contexto de un millón de tokens a 1,50 dólares el millón de entrada. Entrada multimodal, Elo en tareas agénticas por arriba de 1650, descuento del noventa por ciento en entrada cacheada. La respuesta de Anthropic en el próximo trimestre va a contar su propia historia. El argumento más difícil de escribir, en mayo de 2026, es el que un comercial tiene que llevar adentro a una reunión con un cliente.

Etiquetas: tech-en1, Anthropic, Google, ia, Artificial Analysis, benchmarks de LLM