Bitget App
Trade smarter
Krypto kaufenMärkteTradenFuturesEarnWeb3PlazaMehr
Traden
Spot
Krypto kaufen und verkaufen
Margin
Kapital verstärken und Fondseffizienz maximieren
Onchain
Onchain gehen, ohne auf Blockchain zuzugreifen
Convert & Block-Trade
Mit einem Klick und ganz ohne Gebühren Krypto tauschen.
Erkunden
Launchhub
Verschaffen Sie sich frühzeitig einen Vorteil und beginnen Sie zu gewinnen
Kopieren
Elite-Trader mit einem Klick kopieren
Bots
Einfacher, schneller und zuverlässiger KI-Trading-Bot
Traden
USDT-M Futures
Futures abgewickelt in USDT
USDC-M-Futures
Futures abgewickelt in USDC
Coin-M Futures
Futures abgewickelt in Kryptos
Erkunden
Futures-Leitfaden
Eine Reise ins Futures-Trading vom Anfänger bis Fortgeschrittenen
Futures-Aktionen
Großzügige Prämien erwarten Sie
Übersicht
Eine Vielzahl von Produkten zur Vermehrung Ihrer Assets
Simple Earn
Jederzeit ein- und auszahlen, um flexible Renditen ohne Risiko zu erzielen.
On-Chain Earn
Erzielen Sie täglich Gewinne, ohne Ihr Kapital zu riskieren
Strukturiert verdienen
Robuste Finanzinnovationen zur Bewältigung von Marktschwankungen
VIP & Wealth Management
Premium-Services für intelligente Vermögensverwaltung
Kredite
Flexible Kreditaufnahme mit hoher Vermögenssicherheit
OpenAI Präsentiert GPT-Echtzeit-Sprach-zu-Sprache-Modell mit multimodaler Unterstützung und erweiterten Konversationsfunktionen

OpenAI Präsentiert GPT-Echtzeit-Sprach-zu-Sprache-Modell mit multimodaler Unterstützung und erweiterten Konversationsfunktionen

MPOSTMPOST2025/09/02 07:15
Von:MPOST

In Kürze OpenAI hat das GPT-Echtzeit-Sprach-zu-Sprache-Modell mit multimodaler Unterstützung, erweiterten Konversationsfähigkeiten und starker Audio-Argumentationsleistung veröffentlicht.

Forschungsorganisation für künstliche Intelligenz OpenAI gab die allgemeine Verfügbarkeit seiner Realtime API bekannt. Diese wurde um Funktionen erweitert, die es Entwicklern und Unternehmen ermöglichen, robuste, produktionsreife Sprachagenten zu erstellen. Die API unterstützt Remote-MCP-Server, Bildeingaben und Telefonanrufe über das Session Initiation Protocol (SIP) und ermöglicht so leistungsfähigere und kontextsensitivere Sprachanwendungen.

Neben der API OpenAI hat sein fortschrittlichstes Spracherkennungsmodell, gpt-realtime, veröffentlicht. Es wurde entwickelt, um die Befolgung von Anweisungen, das Aufrufen von Funktionen und die Wiedergabe natürlicher Sprache zu verbessern. Das Modell kann komplexe Anweisungen interpretieren, mitten im Satz die Sprache wechseln, alphanumerische Sequenzen präzise wiedergeben und nonverbale Signale erfassen. Zwei neue Stimmen, Cedar und Marin, sind ebenfalls verfügbar und bieten eine ausdrucksstärkere und menschlichere Betonung. Bestehende Stimmen wurden aktualisiert, um diese Verbesserungen zu berücksichtigen.

Die Realtime API verarbeitet Audio direkt über ein einziges Modell. Dadurch werden Latenzen reduziert und Nuancen bewahrt – im Gegensatz zu herkömmlichen Pipelines, die separate Sprach-zu-Text- und Text-zu-Sprache-Modelle verketten. gpt-realtime wurde in Zusammenarbeit mit Anwendern trainiert, um in realen Anwendungen wie Kundensupport, persönlicher Betreuung und Bildung zu überzeugen. Benchmark-Evaluierungen zeigen im Vergleich zu früheren Modellen deutliche Verbesserungen bei Argumentation, Anweisungstreue und Funktionsaufrufgenauigkeit.

Zu den zusätzlichen Updates gehört das asynchrone Aufrufen von Funktionen, wodurch lang andauernde Vorgänge ohne Unterbrechung laufender Gespräche möglich sind und nahtlose, produktionsreife Spracherlebnisse weiter unterstützt werden.

Die Echtzeit-API ist offiziell aus der Betaphase heraus und bereit für Ihre Produktions-Sprachagenten!

Wir führen außerdem gpt-realtime ein – unser bisher fortschrittlichstes Speech-to-Speech-Modell – sowie neue Stimmen und API-Funktionen:

🔌 Remote-MCPs
🖼️ Bildeingabe
📞 SIP-Telefonanrufe
♻️ Wiederverwendbare Eingabeaufforderungen pic.twitter.com/fX5yvt0CDD

- OpenAI Entwickler (@OpenAIEntwickler) August 28, 2025

OpenAI Erweitert die Echtzeit-API um MCP-Unterstützung, Bildeingaben, SIP-Integration und kostensparende Steuerelemente für Sprachagenten

OpenAI Die Echtzeit-API von bietet jetzt neue Funktionen zur Vereinfachung der Integration und Erweiterung der Möglichkeiten für produktionsreife Sprachagenten. Entwickler können Remote-MCP-Support aktivieren, indem sie eine Sitzung mit einer MCP-Server-URL verknüpfen. Dadurch kann die API Tool-Aufrufe automatisch verwalten und ohne manuelle Einrichtung auf zusätzliche Funktionen zugreifen.

Das gpt-realtime-Modell unterstützt nun Bildeingaben, sodass das System neben Audio oder Text auch Fotos, Screenshots und andere visuelle Elemente integrieren kann. So können Nutzer kontextspezifische Fragen zu den angezeigten Inhalten stellen, während Entwickler die Kontrolle darüber behalten, welche Bilder wann freigegeben werden.

Zu den weiteren Verbesserungen gehören die Unterstützung des Session Initiation Protocol (SIP) zum Verbinden von Apps mit Telefonnetzwerken und PBX-Systemen sowie wiederverwendbare Eingabeaufforderungen, mit denen Entwickler vorkonfigurierte Anweisungen, Tools und Beispielnachrichten über mehrere Sitzungen hinweg speichern und bereitstellen können.

Die allgemein verfügbare Realtime API und das gpt-realtime-Modell stehen nun allen Entwicklern zur Verfügung. Die Preise sind im Vergleich zur vorherigen gpt-20o-realtime-preview um 4 % reduziert. Neue Steuerelemente für den Konversationskontext ermöglichen ein intelligenteres Token-Management und senken so die Kosten für lang andauernde Sitzungen. Dokumentation, ein Test-Playground und ein Leitfaden zur Realtime API unterstützen Entwickler bei der Einführung dieser Funktionen.

0

Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.

PoolX: Locked to Earn
APR von bis zu 10%. Mehr verdienen, indem Sie mehr Lockedn.
Jetzt Lockedn!

Das könnte Ihnen auch gefallen