OpenAI Präsentiert GPT-Echtzeit-Sprach-zu-Sprache-Modell mit multimodaler Unterstützung und erweiterten Konversationsfunktionen

Bitget App

Trade smarter

MPOST2025/09/02 07:15

Von:MPOST

In Kürze OpenAI hat das GPT-Echtzeit-Sprach-zu-Sprache-Modell mit multimodaler Unterstützung, erweiterten Konversationsfähigkeiten und starker Audio-Argumentationsleistung veröffentlicht.

Forschungsorganisation für künstliche Intelligenz OpenAI gab die allgemeine Verfügbarkeit seiner Realtime API bekannt. Diese wurde um Funktionen erweitert, die es Entwicklern und Unternehmen ermöglichen, robuste, produktionsreife Sprachagenten zu erstellen. Die API unterstützt Remote-MCP-Server, Bildeingaben und Telefonanrufe über das Session Initiation Protocol (SIP) und ermöglicht so leistungsfähigere und kontextsensitivere Sprachanwendungen.

Neben der API OpenAI hat sein fortschrittlichstes Spracherkennungsmodell, gpt-realtime, veröffentlicht. Es wurde entwickelt, um die Befolgung von Anweisungen, das Aufrufen von Funktionen und die Wiedergabe natürlicher Sprache zu verbessern. Das Modell kann komplexe Anweisungen interpretieren, mitten im Satz die Sprache wechseln, alphanumerische Sequenzen präzise wiedergeben und nonverbale Signale erfassen. Zwei neue Stimmen, Cedar und Marin, sind ebenfalls verfügbar und bieten eine ausdrucksstärkere und menschlichere Betonung. Bestehende Stimmen wurden aktualisiert, um diese Verbesserungen zu berücksichtigen.

Die Realtime API verarbeitet Audio direkt über ein einziges Modell. Dadurch werden Latenzen reduziert und Nuancen bewahrt – im Gegensatz zu herkömmlichen Pipelines, die separate Sprach-zu-Text- und Text-zu-Sprache-Modelle verketten. gpt-realtime wurde in Zusammenarbeit mit Anwendern trainiert, um in realen Anwendungen wie Kundensupport, persönlicher Betreuung und Bildung zu überzeugen. Benchmark-Evaluierungen zeigen im Vergleich zu früheren Modellen deutliche Verbesserungen bei Argumentation, Anweisungstreue und Funktionsaufrufgenauigkeit.

Zu den zusätzlichen Updates gehört das asynchrone Aufrufen von Funktionen, wodurch lang andauernde Vorgänge ohne Unterbrechung laufender Gespräche möglich sind und nahtlose, produktionsreife Spracherlebnisse weiter unterstützt werden.

Die Echtzeit-API ist offiziell aus der Betaphase heraus und bereit für Ihre Produktions-Sprachagenten!

Wir führen außerdem gpt-realtime ein – unser bisher fortschrittlichstes Speech-to-Speech-Modell – sowie neue Stimmen und API-Funktionen:

🔌 Remote-MCPs
🖼️ Bildeingabe
📞 SIP-Telefonanrufe
♻️ Wiederverwendbare Eingabeaufforderungen pic.twitter.com/fX5yvt0CDD
- OpenAI Entwickler (@OpenAIEntwickler) August 28, 2025

OpenAI Erweitert die Echtzeit-API um MCP-Unterstützung, Bildeingaben, SIP-Integration und kostensparende Steuerelemente für Sprachagenten

OpenAI Die Echtzeit-API von bietet jetzt neue Funktionen zur Vereinfachung der Integration und Erweiterung der Möglichkeiten für produktionsreife Sprachagenten. Entwickler können Remote-MCP-Support aktivieren, indem sie eine Sitzung mit einer MCP-Server-URL verknüpfen. Dadurch kann die API Tool-Aufrufe automatisch verwalten und ohne manuelle Einrichtung auf zusätzliche Funktionen zugreifen.

Das gpt-realtime-Modell unterstützt nun Bildeingaben, sodass das System neben Audio oder Text auch Fotos, Screenshots und andere visuelle Elemente integrieren kann. So können Nutzer kontextspezifische Fragen zu den angezeigten Inhalten stellen, während Entwickler die Kontrolle darüber behalten, welche Bilder wann freigegeben werden.

Zu den weiteren Verbesserungen gehören die Unterstützung des Session Initiation Protocol (SIP) zum Verbinden von Apps mit Telefonnetzwerken und PBX-Systemen sowie wiederverwendbare Eingabeaufforderungen, mit denen Entwickler vorkonfigurierte Anweisungen, Tools und Beispielnachrichten über mehrere Sitzungen hinweg speichern und bereitstellen können.

Die allgemein verfügbare Realtime API und das gpt-realtime-Modell stehen nun allen Entwicklern zur Verfügung. Die Preise sind im Vergleich zur vorherigen gpt-20o-realtime-preview um 4 % reduziert. Neue Steuerelemente für den Konversationskontext ermöglichen ein intelligenteres Token-Management und senken so die Kosten für lang andauernde Sitzungen. Dokumentation, ein Test-Playground und ein Leitfaden zur Realtime API unterstützen Entwickler bei der Einführung dieser Funktionen.

Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.

PoolX: Locked to Earn

APR von bis zu 10%. Mehr verdienen, indem Sie mehr Lockedn.

Jetzt Lockedn!