OpenAI正式發(fā)布語音模型GPT-realtime。發(fā)布
據(jù)介紹,語音GPT-realtime是模型一款專注于語音AI Agent的多模態(tài)模型,能夠生成高度自然流暢的發(fā)布語音,精準還原人類語調(diào)、語音情感和語速的模型豐富變化。該模型支持圖像理解,發(fā)布并可結合語音或文本對話使用,語音非常適合應用于客服、模型教育、發(fā)布金融、語音醫(yī)療等領域,模型用于構建高質(zhì)量的發(fā)布語音智能體。
官方表示,語音新模型在復雜指令遵循、模型工具精確調(diào)用以及生成更自然、更具表現(xiàn)力的語音方面表現(xiàn)卓越。尤其在重復字母與數(shù)字、逐字朗讀免責聲明、語句間無縫切換語言等場景中,GPT-realtime展現(xiàn)出優(yōu)秀的適應能力。
該模型還具備出色的上下文理解能力,可準確捕捉非語言線索(如笑聲),并實時調(diào)整語音語氣,實現(xiàn)諸如“帶法國口音的友好語調(diào)”或“語速較快的專業(yè)語調(diào)”等多樣化表達。
此外,GPT-realtime新增了“Cedar”和“Marin”兩種語音風格,并對現(xiàn)有八種語音效果進行了全面優(yōu)化。