Nvidia tikko mainīja balss AI steks, izmantojot PersonaPlex-7B

NVIDIA tikko padarīja katru balss AI API par preci, izlaižot jauno sarunvalodas AI modeli, PersonaPlex-7B. Atvērtā koda pilna dupleksa modelis saspiež ASR, LLM un TTS vienā 7B sistēmā, mainot balss AI robežas no API uz GPU.

15. janvārī Nvidia klusi izlaida kaut ko, kas var izrādīties traucējošāks nekā cits lielāks valodas modelis: PersonaPlex-7B, reāllaika runas-runas sarunvalodas sistēma, kas ne tikai uzlabo balss AI — tā sabrūk aiz tā esošās tradicionālās arhitektūras.

Atšķirībā no tradicionālajām balss kaudzēm, kas savieno automātisko runas atpazīšanu (ASR), valodas modeli (LLM) un teksta pārvēršanu runā (TTS), PersonaPlex saliek visu konveijeru vienā pilnu dupleksa modelī. Tā klausās un runā vienlaikus. Nav nodošanas. Nav sašūta latentuma. Nav kaskādes kavēšanās.

Un pats labākais, PersonaPlex-7B ir pilnībā atvērtā koda.

Šī kombinācija maina stratēģisko aprēķinu balss AI jaunizveidotiem uzņēmumiem.

Cauruļvada balss AI tika izveidots, pamatojoties uz

Jau gadiem ilgi balss AI ir veidota kā cauruļvads.

Lietotāja runa ieplūst automātiskā runas atpazīšanas modelī. Transkribētais teksts tiek nosūtīts uz valodas modeli. Pēc tam izvade tiek novirzīta caur teksta pārvēršanas runā sistēmu. Trīs modeļi. Trīs secinājumi iziet. Trīs latentuma slāņi. Trīs atsevišķas norēķinu virsmas.

ASR → LLM → TTS.

Tas darbojas. Bet tas ir sašūts kopā. Un mērogā tas ir dārgi. Kaskādes sistēmu vietā Nvidia piegādā vienu 7 miljardu parametru pilna dupleksa transformatoru, kas:

Darbojas ar vienu A100
Kuģi ar atvērtiem svariem saskaņā ar atļauju komerclicenci
Nodrošina 0,170 sekunžu latentumu pagriezienu veikšanai
Apstrādā pārtraukumus 0,240 sekundēs

PersonaPlex pilnībā noņem šo struktūru. Tā vietā, lai pārraidītu audio starp atvienotām sistēmām, Nvidia izveidoja vienu 7 miljardu parametru pilna dupleksa transformatoru, kas klausās un runā vienlaikus. Ienākošais audio tiek kodēts ar neironu kodeku un straumēts tieši modelī. Lietotājam runājot, PersonaPlex atjaunina savu iekšējo stāvokli un sāk ģenerēt runas atbildes, paredzot gan teksta, gan audio marķierus autoregresīvā veidā.

Starp modeļiem nav nodošanas. Nav secīgas apstrādes ķēdes. Duālās plūsmas konfigurācijā klausīšanās un runāšana notiek vienlaikus.

Rezultāts šķiet mazāk kā balss palīgs, bet vairāk kā saruna.

Apgriezienu uzņemšanas latentums ir aptuveni 0,170 sekundes. Pārtraukumi tiek reģistrēti aptuveni 0,240 sekundēs. Modelis var pārklāties ar runu, rīkoties ar iekļūšanu un radīt kontekstuālus atpakaļkanālus, piemēram, “uh-hu” vai “labi”, nepārkāpjot ritmu.

Tā vietā, lai gaidītu klusumu pirms atbildes, tas uzvedas tā, it kā saprastu laiku. Zemāk ir PersonaPlex un Rajarshi Roy kopīgošanas joku audio. Noklikšķiniet uz saites, lai klausītos.

Kompromisa pārtraukšana: dabiskums pret personības kontroli

Pilndupleksās sistēmas nav nekas jauns. Kyutai’s Moshi parādīja, ka vienlaicīga klausīšanās un runāšana ievērojami uzlabo sarunu plūsmu.

Kompromiss bija elastība. Jums bieži ir viena fiksēta balss un ierobežota uzvedības vadība.

PersonaPlex ievieš hibrīda pamudinājumus.

Pirms sarunas sākšanas sistēma tiek nodrošināta ar divām ieejām:

Balss uzvedne — audio marķieri, kas nosaka toni, akcentu un runas stilu
Teksta uzvedne — dabiska valoda, kas apraksta lomu, fonu un scenārija kontekstu

Kopā šīs uzvednes nosaka modeļa sarunvalodas identitāti.

Jūs varat to uzdot par gudru un draudzīgu skolotāju. Bankas klientu apkalpošanas aģents, kas pārbauda aizdomīgu darījumu. Medicīniskā reģistratūra vāc informāciju par uzņemšanu. Pat astronauts, kurš vada reaktora sabrukumu Marsa misijā.

Katrā gadījumā modelis saglabā konsekventu personību, vienlaikus apstrādājot pārtraukumus un emocionālā toņa izmaiņas.

Pirmo reizi izstrādātājiem nav jāizvēlas starp sarunvalodas reālismu un personas kontroli.

Viņi saņem abus.

Zem pārsega: arhitektūra un apmācība

PersonaPlex pamatā ir Moshi arhitektūra, un to darbina valodas mugurkauls ar nosaukumu Helium. Audio tiek apstrādāts, izmantojot Mimi neironu kodeku kodētāju un dekoderu steku, kas darbojas ar 24 kHz. Sistēma darbojas divu straumju konfigurācijā, kas nodrošina vienlaicīgu klausīšanos un runāšanu.

PersonaPlex definē sarunvalodas uzvedību, izmantojot divas koordinētas ievades. Balss uzvedne — audio iegulšana, kas uztver toni, akcentu un prozodiju — nosaka sistēmas skanējumu. Teksta uzvedne, kas rakstīta dabiskā valodā, nosaka lomu, fonu un situācijas kontekstu. Apstrādāti kopā, šie signāli ļauj modelim saglabāt saskaņotu un konsekventu personību visā mijiedarbības laikā.

Apmācība radīja unikālu izaicinājumu. Dabiskajai sarunai ir nepieciešama runa, kas pārklājas, pārtraukumi, pauzes un emocionāli signāli — dati, kas ir ierobežoti un kurus ir grūti strukturēt.

Nvidia apvienoja divus avotus:

7303 reālas cilvēku sarunas (1217 stundas) no Fišera angļu korpusa
Vairāk nekā 140 000 sintētisko asistentu un klientu apkalpošanas dialogu, kas izveidoti, izmantojot lielus valodu modeļus un TTS sistēmas

Sintētiskie dati nodrošina uzdevumu izpildi. Īstie ieraksti nodrošina dabiskus runas modeļus, kurus sintētiskajām sistēmām ir grūti atkārtot.

Galīgais modelis atdala sarunvalodas bagātību no uzdevumu ievērošanas, saglabājot iepriekš apmācītā pamata plašo vispārināšanas spēju.

Nvidia iekšējos etalonos PersonaPlex ieguva 2,95 punktus par dialoga dabiskumu, salīdzinot ar Gemini vidējo viedokļu rādītāju 2,80, un tika galā ar pārtraukumiem labāk nekā jebkura pārbaudītā komerciālā sistēma.

Un tas darbojas ar vienu A100.

Svari tiek izlaisti saskaņā ar atļauju komerclicenci.

NVIDIA padarīja katru balss AI API par preci, izmantojot PersonaPlex-7B

Ekonomiskās pārmaiņas zem modeļa

Šeit stāsts mainās.

Mūsdienās lielākā daļa balss jaunuzņēmumu paļaujas uz API minūtes norēķiniem. OpenAI Realtime API maksā 0,06 USD minūtē par ievadi un 0,24 USD minūtē par izvadi. Gemini Live maksā aptuveni 25 žetonus audio sekundē.

Mērogā šīs izmaksas kļūst strukturālas.

PersonaPlex norāda, ka galvenajai iespējai — dabiskai, zema latentuma, personas kontrolētai balss mijiedarbībai — vairs nav nepieciešama patentēta API.

Tam var būt nepieciešams GPU.

Nvidia nav nepieciešams tieši monetizēt PersonaPlex. Viņi monetizē infrastruktūru. Katrs starta uzņēmums, kas pats mitina modeli, nevis maksā par minūti, kļūst par vēl vienu GPU klientu. Katrs uzņēmums, kas internalizē balss secinājumus, kļūst par vēl vienu aparatūras līgumu.

PersonaPlex pirmajā mēnesī tika lejupielādēts vairāk nekā 330 000 reižu.

Tā nav tikai adopcija.

Tā ir ekosistēmas pozicionēšana.

Kur pārvietojas balss AI robeža

Gadiem ilgi balss AI robežas dzīvoja lietojumprogrammu slānī.

Slēgtas API.
Minūtes norēķini.
Patentētas ekosistēmas.

Ja augstas kvalitātes sarunvalodas runa kļūst par atvērtu, izvietojamu iespēju, šī robeža nepazūd.

Tas migrē.

Tas virzās uz leju — uz aparatūras efektivitāti, GPU optimizāciju, izvietošanas arhitektūru un skaitļošanas īpašumtiesībām.

Nvidia gūst peļņu neatkarīgi no tā, vai uzvar OpenAI, uzvar Gemini vai jaunizveidoti uzņēmumi veido paši savus stekus.

Tā ir skaitļošanas slāņa īpašumtiesību priekšrocība.

Lielāka maiņa

PersonaPlex-7B izlaišana nav saistīta tikai ar sarunu kvalitāti. Tas ir par kontroli pār to, kur vērtība tiek uzkrāta. Kad pamata iespējas kļūst atvērtas un pieejamas, peļņa nepazūd — tā migrē. Balss AI gadījumā šī migrācija, iespējams, jau notiek.

API joprojām pastāvēs. Par balss palaišanu joprojām tiks iekasēta maksa par minūti. Taču, tiklīdz 7 B atvērtais modelis, kas darbojas ar vienu GPU, var atbilst vai pārsniedz komerciālās sistēmas, cenu jauda samazinās. Smaguma centrs nobīdās.

Nvidia ne tikai izlaida modeli.

Tas mainīja sarunu sviras visā balss AI tirgū.

Noskatieties tālāk esošo video, lai redzētu PersonaPlex darbībā.