OpenAI 宣佈在其 API 生態系統中推出一套新的音訊模型,標誌著開發者和 AI 應用的即時語音功能已擴展。此次發布包括 GPT-實時-2, GPT即時翻譯,以及 GPT-即時…OpenAI 宣佈在其 API 生態系統中推出一套新的音訊模型,標誌著開發者和 AI 應用的即時語音功能已擴展。此次發布包括 GPT-實時-2, GPT即時翻譯,以及 GPT-即時…

New OpenAI 音訊模型為即時語音助理提供多語言翻譯和串流媒體智慧功能

2026/05/08 20:05
阅读时长 6 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。
New OpenAI 音訊模型為即時語音助理提供多語言翻譯和串流媒體智慧功能

OpenAI 宣佈在其 API 生態系統中推出一套新的音訊模型,標誌著開發者和 AI 應用的即時語音功能已擴展。此次發布包括 GPT-實時-2, GPT即時翻譯,以及 GPT-即時語音助理-Whisper,旨在實現更高級、響應更迅速、更具上下文感知能力的語音交互,適用於各種使用場景。

GPT-Realtime-2 被定位為該公司迄今為止最先進的語音模型,它引入了 GPT-5該模型將邏輯推理融入即時音訊對話中。它旨在處理複雜的用戶請求,保持上下文的連續性,並在即時互動過程中支援多步驟推理。此模型適用於語音代理不僅需要快速回應,還需要理解使用者意圖、處理中斷並透過整合工具執行任務的應用場景。

除此之外, GPT-即時翻譯功能支援70多種輸入語言到13種輸出語言的即時語音翻譯。該系統旨在保持對話流暢性,同時保留意義和時間訊息,使說話者能夠用不同語言進行交流,而不會出現明顯的延遲。此功能主要面向全球客戶支援、教育、旅遊和跨境通訊服務領域。

第三種模型, GPTRealtime-Whisper 專注於串流語音轉文字轉錄。它可在使用者說話的同時提供連續、低延遲的轉錄,從而實現即時字幕、即時文件記錄以及語音內容的即時下游處理。該模型專為需要快速將語音轉換為文字的環境而設計,例如會議、媒體廣播和企業工作流程。

OpenAI 此次聯合發布被描述為語音介面發展的重要一步,它將超越基本的命令與回應系統。這些模型並非僅僅識別語音並產生回复,而是旨在支援在單一對話流程中進行連續推理、翻譯、轉錄和操作執行。其目標是使語音系統能夠更像互動式助手,在完成任務的同時保持自然對話。

GPT-Realtime-2 透過語音互動系統和擴展的上下文視窗推進語音 AI 架構

該公司重點介紹了該技術催生的幾種新興設計模式。這些模式包括語音互動系統(使用者可以描述任務,系統透過自動推理和工具整合來執行任務)、系統語音應用(軟體根據上下文資料產生語音指導)以及語音翻譯系統(支援說話者之間的即時多語言交流)。

GPTRealtime-2 為生產環境引入了更多架構改進。這些改進包括:將上下文視窗擴展至 128K 個令牌,改進了中斷或錯誤期間的復原行為,支援具有透明回饋的平行工具執行,以及根據對話情境進行更可控的語氣調整。開發人員還可以根據應用程式需求微調推理級別,以平衡速度和複雜性。

性能基準引用 OpenAI 與先前的即時模型版本相比,該系統在基於音訊的推理和指令執行任務中表現出更優異的效能。此外,該系統對領域特定術語的處理能力更強,在多輪對話環境中也表現得更穩定。

此版本還整合了多項安全機制,包括即時監控和活動會話中的內容分類,以及開發者層級的控制選項,以提供額外的安全性。這些模型可透過即時 API 取得,適用於企業、消費者和開發者應用,定價基於音訊處理的實際使用量。

的簡介 GPT-實時-2及其配套模型反映了向基於語音的計算系統轉變的趨勢,這些系統能夠實時進行推理、翻譯和轉錄,其目的是使與軟體的語音交互更加實用、更具適應性和操作能力。


Source link

市场机遇
Gensyn 图标
Gensyn实时价格 (AI)
$0,03471
$0,03471$0,03471
+2,87%
USD
Gensyn (AI) 实时价格图表
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

新手淘金,最高赢取 $2,500!

新手淘金,最高赢取 $2,500!新手淘金,最高赢取 $2,500!

从第一笔交易开始,挖掘每一次 Alpha 机会