Tecnología

El nuevo modelo de voz de OpenAI piensa dentro del mismo bucle de audio, y el silencio que delataba a la IA desaparece

La pausa es el delator. Hasta ahora, la IA por voz trabajaba transcribiendo el habla, pasando el texto a un modelo de lenguaje, recibiendo la respuesta y sintetizándola de vuelta a audio. Cada paso lleva tiempo. El usuario escucha silencio, sabe que algo se está procesando del otro lado, y nota la costura. El nuevo GPT-Realtime-2 de OpenAI colapsa todo ese pipeline en un solo modelo donde el razonamiento ocurre dentro del propio bucle de audio, y la costura desaparece.
Susan Hill

OpenAI lanzó esta semana tres modelos nuevos de audio en su Realtime API — GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. La cabeza de cartel es el primero. La compañía lo describe como el primer modelo de voz con “razonamiento de clase GPT-5”, construido para que un único modelo maneje audio entrante y audio saliente, con el pensamiento entretejido en la conversación en lugar de incrustado entre los pasos de transcripción y síntesis. Los números que lo respaldan son concretos. La puntuación en Big Bench Audio saltó del 81,4 por ciento al 96,6 por ciento frente al modelo de referencia anterior. Audio MultiChallenge subió del 34,7 por ciento al 48,5 por ciento. La ventana de contexto pasó de 32.000 tokens a 128.000 — espacio suficiente para sostener un historial completo de cliente durante una llamada.

El cambio estructural cuesta más verlo en los benchmarks. Durante tres años, cualquiera que armaba un agente de voz para producción tenía que coser el stack a mano — Whisper o Deepgram para la transcripción, un LLM para el razonamiento, ElevenLabs o Cartesia para la voz, y prompting para tapar la latencia. Cada salto entre piezas costaba milisegundos y nitidez. El usuario escuchaba un “déjame revisar eso” insertado por un script, después escuchaba nada mientras el modelo pensaba, y finalmente escuchaba la respuesta. GPT-Realtime-2 trae esos andamios como conducta nativa. Los preámbulos permiten que el agente diga “déjame revisar eso” mientras llama a herramientas, así el usuario no se queda sentado en silencio. Las llamadas paralelas a herramientas dejan al modelo disparar varios pedidos al backend a la vez y narrar cuál está corriendo. La conducta de recuperación captura los fallos y los expone en lugar de congelar la conversación.

La superficie de control que se abre para los desarrolladores es la parte más interesante. El “esfuerzo de razonamiento” es configurable — minimal, low, medium, high y xhigh — con low por defecto para mantener la latencia baja en consultas simples. Un agente que responde “¿a qué hora cierran?” no necesita razonamiento de clase GPT-5. Un agente que acompaña a un cliente en una disputa de reembolso sí. El mismo modelo puede recibir instrucciones de cuánto pensar turno a turno, lo que es un cambio real respecto del modelo anterior, donde la profundidad de razonamiento estaba fijada y el desarrollador elegía entre rápido o inteligente al desplegar.

El escepticismo tiene su lugar. “Razonamiento de clase GPT-5” es una línea de marketing, no un reclamo verificable — sin benchmarks independientes corridos sobre diálogo realista, la comparación se queda en interna. Los agentes de voz tienen un modo de fallo aparte que los benchmarks atrapan mal — el momento en que el agente dice algo equivocado con voz tranquila y natural. Razonar mejor ayuda, pero no elimina ese problema. El precio también pesa. GPT-Realtime-2 cuesta 32 dólares por millón de tokens de audio entrante y 64 por millón de salida. GPT-Realtime-Translate corre a 0,034 dólares por minuto y GPT-Realtime-Whisper a 0,017 por minuto. Suficientemente barato para servicio al cliente de alto volumen. No tan barato como para usarlo en productos de consumo conversacional sin pensar bien la duración de cada sesión.

El contexto de despliegue cuenta el resto de la historia. Zillow puso en marcha búsqueda de vivienda por voz el mismo día. Deutsche Telekom desplegó soporte de voz traducido en vivo en 14 mercados europeos. Los dos son exactamente el caso de uso para el que OpenAI fija el precio — conversaciones largas, transaccionales, con mucho contexto, donde el usuario se beneficia del agente que de verdad razona en lugar de buscar. Priceline está construyendo sistemas que permiten a los viajeros gestionar reservas de hotel y seguir retrasos de vuelo enteramente por voz. El patrón en los nombres que OpenAI suelta primero es claro — los clientes citados son aquellos cuyos sistemas de voz previos funcionaban peor — call centers, líneas de soporte, viajes transaccionales. Los lugares donde el usuario hoy le grita “operadora” al teléfono.

Los modelos están disponibles en la Realtime API ahora. Las mejoras de voz para ChatGPT siguen pendientes — “Estén atentos, lo estamos cocinando”, dijo OpenAI. Sam Altman enmarcó el lanzamiento alrededor de un cambio de comportamiento — que los usuarios cada vez más recurren a la voz con la IA cuando necesitan “volcar” mucho contexto. Si ese patrón se sostiene, la brecha entre IA por voz e IA por texto empieza a cerrarse — y la costura que delataba a la IA por teléfono se vuelve más difícil de oír.

Debate

Hay 0 comentarios.