Openai palaiž nākamā paaudzes Audio AI modeļus: gudrākas runas teksta un izteiksmīgas AI balsis

Openai vienkārši nometa svaigu audio modeļu partiju, satricinot, kā darbojas balss AI. Jaunais audio modeļu klāsts ir paredzēts, lai virzītu balss AI uz priekšu. Jaunajos izlaidumos ietilpst teksta-runas un runas teksta modeļi, kas virza lietas uz priekšu balss atpazīšanā un paaudzē.

Izlaidumā ir iekļauts GPT-4O-Mini-TTS, teksta-runas modelis, kas piedāvā precīzu kontroli pār toņu un laika grafiku, kā arī divi uzlaboti runas uz tekstu, GPT-4O transkripcijas un GPT-4O-Mini-Transcripts, kas pārspēj čukstus, rīkojoties ar dažādiem akcentiem un trokšņām vidēm.

Šie modeļi tagad ir pieejami, izmantojot Openai API un Agents SDK, padarot izstrādātājiem vieglāk veidot izsmalcinātas ar balsi darbināmas lietojumprogrammas. Openai ir arī laidis klajā Openai FM, platformu savu teksta-runas modeļu pārbaudei, un ieviesis konkursu, lai iedvesmotu radošu tehnoloģijas izmantošanu. Paziņojums ir izraisījis spēcīgu izstrādātāju un tehnoloģiju kopienas interesi, uzsverot tā potenciālu pārveidot balss virzītu programmatūru.

Teksta uz runu un transkripcija tikko ieguva jauninājumu

Jaunākie modeļi ietver GPT-4O-Mini-TTS Teksta uz runu, kas būvēta, lai apstrādātu niansētu runu ar labāku kontroli pār toni un laiku. Izstrādātāji var precīzi pielāgot vārdus, kas tiek runāti, paverot iespējas izteiksmīgākai AI balstītām balsīm.

Par runas tekstu, Openai ieviests GPT-4O-transkripcija un GPT-4O-MINI-TranscronApvidū Abi modeļi pārspēj iepriekšējās versijas, ieskaitot čukstus, uzlabojot transkripcijas precizitāti trokšņainos iestatījumos un dažādos akcentos. Viņi efektīvāk rīkojas ar reālās pasaules sarunām, padarot tās noderīgas klientu apkalpošanai, satura veidošanai un piekļuves rīkiem.

AI runas ieviešana vairāk izstrādātājiem

Openai ieliek šos modeļus savā API, padarot tos pieejamus izstrādātājiem, lai iespraustos to lietojumprogrammās. Cenas ir konkurētspējīgas:

GPT-4O-transkripcija: 6 USD par miljonu audio ievades žetonu (~ 0,006 USD minūtē)
GPT-4O-MINI-Transcron: 3 USD par miljonu audio ievades žetonu (~ 0,003 USD minūtē)
GPT-4O-Mini-TTS: 0,60 USD par miljonu teksta ievades žetonu un 12 USD par miljonu audio izvades žetonu (~ 0,015 USD minūtē)

Šie atjauninājumi racionalizē augstas kvalitātes runas apstrādes integrēšanas procesu lietotnēs, neatkarīgi no tā, vai tas ir tiešraides klientu atbalsts, automatizēts piezīmju veikšana vai interaktīvi balss palīgi.

Openai FM un sabiedrības iesaistīšanās

Lai parādītu, ko šie modeļi var darīt, Openai ir laidis klajā Openai.FM, platformu, kurā lietotāji var pārbaudīt teksta un runas iespējas. Līdztekus tam viņi ir uzsākuši konkursu, lai veicinātu savas jaunākās tehnoloģijas radošus pielietojumus. Gaidiet, ka izstrādātāji eksperimentē ar jauniem veidiem, kā izmantot AI balsis, sākot no personalizētiem palīgiem un beidzot ar audio satura ģenerēšanu.

AI balss aģenti

Ar saviem jaunajiem audio modeļiem Openai tikko pacēla latiņu balss aģentiem – un jaunināšanu ir viegli dzirdams.

Balss aģenti ir tie digitālie palīgi, ar kuriem jūs runājat, piemēram, Alexa, Siri vai balss, kas atbild, zvanot uz klientu atbalstu. Jūs runājat, viņi atbild. Viņi var atbildēt uz jautājumiem, atskaņot mūziku, kontrolēt savu viedo māju, iestatīt atgādinājumus vai rīkoties ar pamata atbalsta zvaniem.

Aiz tā esošās tehnoloģijas sajauc runas atpazīšanu, dabiskās valodas apstrādi un tekstu-runas. Tā viņi saprot, ko jūs sakāt, izdomājiet, ko jūs domājat, un runājiet atpakaļ tādā veidā, kas jūtas cilvēcīgs. Mašīnmācība palīdz viņiem uzlaboties laika gaitā.

Tas, ko Openai ir izdarīts, ir robotizētās izjūtas izņemšana. Jaunie modeļi vienmērīgāk apstrādā trokšņainu vidi, runā ar dabiskāku ritmu un var mainīt to toni atkarībā no brīža – kalmiem un empātiskiem atbalsta zvanu laikā, pozitīvi un animēti, lasot ziņas.

Saskaņā ar Openai teikto, trīs jaunie API modernākie audio modeļi ir: “Divi runas teksta modeļi-kas darbojas ar čukstiem, jauns TTS modelis-jūs varat to uzdot * kā * runāt, un aģenti SDK tagad atbalsta audio, padarot to ērtu veidot balss aģentus.”

Trīs jauni mūsdienīgie audio modeļi API:

🗣️ Divi modeļi runas tekstam-neizpilda čukstu
💬 Jauns TTS modelis – jūs varat to norādīt * kā * runāt

🤖 Un Agents SDK tagad atbalsta audio, padarot to viegli veidot balss aģentus.

Izmēģiniet TTS tūlīt vietnē https://t.co/mbtolnyyca.

– Openai izstrādātāji (@openaidevs) 2025. gada 20. marts

Agrīna reakcija un rūpniecība ietekme

Palaišana ir labi uzņemta, it īpaši izstrādātājiem, kuri meklē labākas transkripcijas un balss sintēzes iespējas. Daži agrīnie adoptētāji, piemēram, Eliseai, jau ir integrējuši Openai teksta-runas modeli savā īpašuma pārvaldības platformā, ziņojot par dabiskāku un izteiksmīgāku balss mijiedarbību.

Openai šeit neapstājas. Uzņēmums strādā, lai paplašinātu savu runas tehnoloģiju ar vairāk balss iespējām un galu galā tuvinātu AI vadītas sarunas tuvāk cilvēkiem līdzīgām biržām. Ar lielām kustībām AI ģenerētajā audio sacensībās balss tehnoloģijā uzkarsē.

https://www.youtube.com/watch?v=lxb0l16isac