Bitget App
Trading Inteligente
Comprar criptoMercadosTradingFuturosEarnWeb3CentroMás
Trading
Spot
Compra y vende cripto con facilidad
Margen
Aumenta tu capital y maximiza tus fondos
Onchain
Aprovechar el mundo on-chain sin esfuerzo
Convert y trade en bloque
Convierte cripto con un solo clic y sin comisiones
Explorar
Launchhub
Obtén ventajas desde el principio y empieza a ganar
Copiar
Copia al trader elite con un solo clic
Bots
Bot de trading con IA sencillo, rápido y confiable
Trading
Futuros USDT-M
Tradea futuros liquidados en USDT
Futuros USDC-M
Futuros liquidados en USDC
Futuros Coin-M
Tradea futuros liquidados en cripto
Explorar
Guía de Futuros
Un recorrido de principiante a experto en el trading de futuros
Promociones de futuros
Gana grandes recompensas
Resumen
Una variedad de productos para incrementar tus activos
Simple Earn
Deposita y retira en cualquier momento para obtener retornos flexibles sin riesgo
On-chain Earn
Obtén ganancias diarias sin arriesgar tu capital
Earn estructurado
Innovación financiera sólida para sortear las oscilaciones del mercado
VIP y Gestión Patrimonial
Aumenta tu patrimonio con nuestro equipo de primer
Préstamos
Préstamos flexibles con alta seguridad de fondos
OpenAI Revela GPT-Modelo de voz a voz en tiempo real con soporte multimodal y capacidades conversacionales avanzadas

OpenAI Revela GPT-Modelo de voz a voz en tiempo real con soporte multimodal y capacidades conversacionales avanzadas

MPOSTMPOST2025/09/03 18:05
Por:MPOST

En Resumen OpenAI lanzó el modelo de voz a voz en tiempo real gpt con soporte multimodal, habilidades de conversación avanzadas y un sólido rendimiento de razonamiento de audio.

Organización de investigación en inteligencia artificial OpenAI anunció la disponibilidad general de su API en tiempo real, ahora mejorada con funciones que permiten a desarrolladores y empresas crear agentes de voz robustos y listos para producción. La API admite servidores MCP remotos, entradas de imágenes y llamadas telefónicas mediante el Protocolo de Inicio de Sesión (SIP), lo que permite aplicaciones de voz más potentes y sensibles al contexto.

Junto con la API, OpenAI ha lanzado su modelo de voz a voz más avanzado, gpt-realtime, diseñado para mejorar el seguimiento de instrucciones, la llamada a funciones y un habla con un sonido natural. El modelo puede interpretar indicaciones complejas, cambiar de idioma a mitad de frase, reproducir secuencias alfanuméricas con precisión y captar señales no verbales. También están disponibles dos nuevas voces, Cedar y Marin, que ofrecen una entonación más expresiva y humana. Las voces existentes se han actualizado para incorporar estas mejoras.

La API en tiempo real procesa el audio directamente a través de un único modelo, lo que reduce la latencia y preserva los matices, a diferencia de las canalizaciones tradicionales que encadenan modelos separados de voz a texto y texto a voz. gpt-realtime se ha entrenado en colaboración con los usuarios para destacar en aplicaciones prácticas como atención al cliente, asistencia personal y educación. Las evaluaciones comparativas muestran mejoras sustanciales en el razonamiento, la adherencia a las instrucciones y la precisión de las llamadas a funciones en comparación con los modelos anteriores.

Las actualizaciones adicionales incluyen llamadas de funciones asincrónicas, lo que permite operaciones de larga duración sin interrumpir conversaciones en curso y brinda mayor soporte a experiencias de voz fluidas y listas para producción.

¡La API en tiempo real salió oficialmente de la versión beta y está lista para sus agentes de voz de producción!

También presentamos gpt-realtime, nuestro modelo de voz a voz más avanzado hasta el momento, además de nuevas voces y capacidades de API:

🔌 MCP remotos
🖼️ Entrada de imagen
Llamadas telefónicas SIP
♻️ Indicaciones reutilizables foto.twitter.com/fX5yvt0CDD

- OpenAI Desarrolladores (@OpenAIdesarrolladores) 28 de agosto de 2025

OpenAI Amplía la API en tiempo real con compatibilidad con MCP, entradas de imágenes, integración SIP y controles de ahorro de costos para agentes de voz.

OpenAI La API en tiempo real de 's ahora incluye nuevas funciones diseñadas para simplificar la integración y ampliar las capacidades de los agentes de voz listos para producción. Los desarrolladores pueden habilitar la compatibilidad remota con MCP vinculando una sesión a la URL de un servidor MCP, lo que permite que la API administre automáticamente las llamadas a herramientas y acceda a funcionalidades adicionales sin necesidad de configuración manual.

El modelo gpt-realtime ahora admite entradas de imágenes, lo que permite al sistema incorporar fotos, capturas de pantalla y otros elementos visuales junto con audio o texto. Esto permite a los usuarios hacer preguntas contextuales sobre lo que ven, mientras que los desarrolladores controlan qué imágenes se comparten y cuándo.

Las mejoras adicionales incluyen compatibilidad con el Protocolo de inicio de sesión (SIP) para conectar aplicaciones a redes telefónicas y sistemas PBX, así como indicaciones reutilizables que permiten a los desarrolladores guardar e implementar instrucciones, herramientas y mensajes de ejemplo preconfigurados en múltiples sesiones.

La API en tiempo real y el modelo gpt-realtime, disponibles para el público general, ya están disponibles para todos los desarrolladores, con un precio reducido en un 20 % en comparación con la versión previa gpt-4o-realtime-preview. Los nuevos controles para el contexto de conversación permiten una gestión más inteligente de tokens, lo que reduce los costes de las sesiones de larga duración. La documentación, un área de pruebas y una guía de indicaciones de la API en tiempo real están disponibles para ayudar a los desarrolladores a adoptar estas funciones.

0

Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.

PoolX: Haz staking y gana nuevos tokens.
APR de hasta 12%. Gana más airdrop bloqueando más.
¡Bloquea ahora!