New OpenAI 音訊模型為即時語音助理提供多語言翻譯和串流媒體智慧功能

OpenAI 宣佈在其 API 生態系統中推出一套新的音訊模型，標誌著開發者和 AI 應用的即時語音功能已擴展。此次發布包括 GPT-實時-2， GPT即時翻譯，以及 GPT-即時語音助理-Whisper，旨在實現更高級、響應更迅速、更具上下文感知能力的語音交互，適用於各種使用場景。

GPT-Realtime-2 被定位為該公司迄今為止最先進的語音模型，它引入了 GPT-5該模型將邏輯推理融入即時音訊對話中。它旨在處理複雜的用戶請求，保持上下文的連續性，並在即時互動過程中支援多步驟推理。此模型適用於語音代理不僅需要快速回應，還需要理解使用者意圖、處理中斷並透過整合工具執行任務的應用場景。

除此之外， GPT-即時翻譯功能支援70多種輸入語言到13種輸出語言的即時語音翻譯。該系統旨在保持對話流暢性，同時保留意義和時間訊息，使說話者能夠用不同語言進行交流，而不會出現明顯的延遲。此功能主要面向全球客戶支援、教育、旅遊和跨境通訊服務領域。

第三種模型， GPTRealtime-Whisper 專注於串流語音轉文字轉錄。它可在使用者說話的同時提供連續、低延遲的轉錄，從而實現即時字幕、即時文件記錄以及語音內容的即時下游處理。該模型專為需要快速將語音轉換為文字的環境而設計，例如會議、媒體廣播和企業工作流程。

OpenAI 此次聯合發布被描述為語音介面發展的重要一步，它將超越基本的命令與回應系統。這些模型並非僅僅識別語音並產生回复，而是旨在支援在單一對話流程中進行連續推理、翻譯、轉錄和操作執行。其目標是使語音系統能夠更像互動式助手，在完成任務的同時保持自然對話。

GPT-Realtime-2 透過語音互動系統和擴展的上下文視窗推進語音 AI 架構

該公司重點介紹了該技術催生的幾種新興設計模式。這些模式包括語音互動系統（使用者可以描述任務，系統透過自動推理和工具整合來執行任務）、系統語音應用（軟體根據上下文資料產生語音指導）以及語音翻譯系統（支援說話者之間的即時多語言交流）。

GPTRealtime-2 為生產環境引入了更多架構改進。這些改進包括：將上下文視窗擴展至 128K 個令牌，改進了中斷或錯誤期間的復原行為，支援具有透明回饋的平行工具執行，以及根據對話情境進行更可控的語氣調整。開發人員還可以根據應用程式需求微調推理級別，以平衡速度和複雜性。

性能基準引用 OpenAI 與先前的即時模型版本相比，該系統在基於音訊的推理和指令執行任務中表現出更優異的效能。此外，該系統對領域特定術語的處理能力更強，在多輪對話環境中也表現得更穩定。

此版本還整合了多項安全機制，包括即時監控和活動會話中的內容分類，以及開發者層級的控制選項，以提供額外的安全性。這些模型可透過即時 API 取得，適用於企業、消費者和開發者應用，定價基於音訊處理的實際使用量。

的簡介 GPT-實時-2及其配套模型反映了向基於語音的計算系統轉變的趨勢，這些系統能夠實時進行推理、翻譯和轉錄，其目的是使與軟體的語音交互更加實用、更具適應性和操作能力。

New OpenAI 音訊模型為即時語音助理提供多語言翻譯和串流媒體智慧功能

GPT-Realtime-2 透過語音互動系統和擴展的上下文視窗推進語音 AI 架構

您可能也会喜欢

Ripple Treasury推出首個具備原生數位資產功能的資金管理系統

跨链桥不是“安全桥”，从近期攻击事件拆解DeFi安全软肋

2026年3月：L1級營運升級與經濟轉型

热门新闻

GetClaw 整合推動人工智慧驅動交易，為 Bitget 平台帶來智慧執行功能

BitMart 预付卡实体卡正式上线，全场景加密支付体验全面升级

TechFlow 情报局：AMD 暴涨 15% 后 CEO 将长期预测翻倍，OKX 上线 263 只代币化美股

下一代加密安全，不依赖设备，而取决于隔离架构

SpaceX被交易所抢先上线后，价格相差近3倍，套利机会来了？ | BlockWeeks

实时快讯

快速阅读

2026年5大AI加密货币深度解析：谁将成为Web3的"英伟达"？

预测市场爆红背后：Polymarket 如何重新定义2026年加密应用边界

BEEG 2026 年风险分析：什么因素可能引发大幅回调？

BEEG 2026 年行情预测：是否仍有可能出现另一轮大涨？

BEEG 2026深度拆解：交易员到底在盯着什么？

加密货币价格