AI runas datu kopas: ko tās satur, kā tās ir izveidotas un kur tās sabojājas

Katru reizi a balss palīgs parsē jūsu teikto vai transkripcijas rīks pārvērš sapulces ierakstu tekstā, kaut kas augšup pa straumi to padara iespējamu: runas datu kopa. Parasti nav viena datu kopa — to kaudze, kas veidota no dažādiem avotiem, dažādiem mērķiem, ar dažādiem kvalitātes kompromisiem, kas tika ieviesti jau no paša sākuma.

Kas tehniski ir runas datu kopa

A runas datu kopa AI ir audio ierakstu kolekcija, kas savienota ar etiķetēm. Etiķetes ir atkarīgas no tā, kam datu kopa ir paredzēta.

Automātiskajai runas atpazīšanai (ASR) etiķete ir atšifrējums — ierakstā izrunātie vārdi, parasti ar pieturzīmēm un dažreiz ar laika informācijas marķējumu, kad katrs vārds tika izrunāts. Lai identificētu runātāju, etiķete ir identitāte — kura balss pieder kādai personai. Emociju atpazīšanai etiķete ir emocionāla kategorija: neitrāla, dusmīga, skumja, priecīga. Valodas identificēšanai etiķete ir vienkārši valoda, kurā runā.

Arī pats audio ir svarīgs. Iztveršanas ātrums, kodēšanas formāts, fona trokšņu līmenis, mikrofona veids, ierakstīšanas vide — tas viss ietekmē to, ko var un ko nevar apstrādāt modelis, kas apmācīts datiem. Modelis, kas apmācīts veikt tīrus studijas ierakstus 44 kHz frekvencē, neizdosies tādos veidos, kas nav acīmredzami, kamēr nenorādīsit to uz tālruņa zvanu, kas ierakstīts 8 kHz frekvencē telpā, kurā darbojas HVAC sistēma.

Audio kvalitātes, etiķetes precizitātes un pārklājuma kombinācija dažādos skaļruņos un apstākļos nosaka, vai runas datu kopa ir noderīga vai tikai liela.

Kā tiek veidotas runas datu kopas

Ir trīs galvenās pieejas, un visnopietnākajās apmācībās tiek izmantotas visas trīs.

Esošā audio nokasīšana un pārrakstīšana. Podcast apraides, audiogrāmatas, apraides ziņas, parlamenta ieraksti, YouTube videoklipi ar parakstiem — tie ir primārie avoti lielām atvērtās runas datu kopām. Gan Mozillas Common Voice, gan OpenAI Whisper apmācības dati lielā mērā ir iegūti no šāda veida materiāliem. Priekšrocība ir mērogs: tiešsaistē ir daudz audio. Trūkums ir tāds, ka transkripti bieži tiek ģenerēti automātiski, kas nozīmē, ka tie satur kļūdas neatkarīgi no ASR sistēmas, ko tie radīja. Jauna modeļa apmācība par vecā modeļa transkriptiem ir zināma kvalitātes problēma, un tā nepazūd tikai tāpēc, ka datu kopa ir liela.

Kontrolēta kolekcija ar cilvēka skaļruņiem. Jūs pieņemat darbā runātājus, dodat viņiem skriptus vai uzvednes, ierakstāt tos zināmos apstākļos un uzdodat cilvēku anotatoriem pārrakstīt un pārbaudīt audio. Tādā veidā tika izveidotas tādas datu kopas kā TIMIT (ietekmīga 1990. gados un joprojām tiek izmantota) un LibriSpeech (pamatojoties uz LibriVox audiogrāmatu ierakstiem ar tīriem transkriptiem). Kvalitāte ir augstāka. Mērogs ir zemāks. Jūs arī kontrolējat, kas piedalās, un tas rada savus aizspriedumus — vairāk par to tālāk.

Sintētiskā paaudze. Teksta pārvēršanas runā sistēmas var ģenerēt tūkstošiem audio atšifrējumu pāru laikā, kas nepieciešams, lai ierakstītu sauju reālu pāru. Sintētiskie dati ir noderīgi, lai aizpildītu izplatīšanas nepilnības: ja jūsu reālajā datu kopā gandrīz nav konkrēta akcenta piemēru, TTS sistēma, kas apmācīta skaļruņiem ar šo akcentu, var radīt vairāk. Sintētisko datu griesti ir tādi paši kā vienmēr — tie atspoguļo to, ko jūs jau zināt. Sintētiskais skaļrunis nevar pārsteigt tā, kā īsts.

Pārklājuma problēma

Pētnieciskajā literatūrā visvairāk pētītās runas datu kopas ir ļoti svērtas, ņemot vērā dažas valodas, dažus akcentus un dažus ierakstīšanas nosacījumus. Angļu valoda dominē. Angļu valodā dominē amerikāņu un britu šķirnes. Dominē tīri, klusi ieraksti.

Tādējādi tiek izveidoti modeļi, kas labi darbojas dažiem skaļruņiem, bet slikti citiem. Ne nedaudz sliktāk – izmērāmi, ievērojami sliktāk. 2020. gada pētījums, ko veica Stenfordas pētnieki, atklāja, ka vadošai komerciālai ASR sistēmai melnajiem skaļruņiem ir gandrīz divreiz augstāks kļūdu līmenis nekā baltajiem skaļruņiem, pat kontrolējot ierakstīšanas kvalitāti. Iemesls bija vienkāršs: apmācības dati neatspoguļoja visu angliski runājošo iedzīvotāju skaitu.

Labojums principā ir arī vienkāršs: apkopojiet daudzveidīgākus runas datus, piesaistiet plašāku runātāju loku, rūpīgi atzīmējiet to un apmāciet tos. Praksē tas prasa atrast runātājus, viņiem godīgi kompensēt, izveidot savākšanas infrastruktūru kopienās, kas vēsturiski nav bijušas AI izpētes sastāvdaļa, un darīt to pietiekami lielā mērogā, lai faktiski mainītu modeļa uzvedību. Tas ir lēns un dārgs darbs. Etalona skaitļi, kas piesaista uzmanību un finansējumu, mēdz atalgot par kopējo sniegumu, nevis par nepietiekami pārstāvēto grupu sniegumu, kas nosaka to, kas tiek finansēts.

Progress ir reāls, bet nevienmērīgs. Tādi projekti kā Masakhane ir paveikuši svarīgu darbu pie Āfrikas valodām. Mozilla Common Voice ir paplašināta līdz vairāk nekā 100 valodām. Plaisa starp labi apgādātām valodām un visu pārējo joprojām ir liela.

Anotācija ir vieta, kur kvalitāte patiesībā dzīvo

Audio apkopošana ir vienkāršākā runas datu kopas izveides puse. Ir grūtāk iegūt uzticamas etiķetes.

Transkripcijas uzdevumiem anotācijas kvalitāte ir atkarīga no anotatoriem — no viņu dzimtās valodas, domēna pārzināšanas un no tā, vai viņiem ir pietiekami daudz laika un konteksta, lai rūpīgi veiktu darbu. Medicīniskā runa ir noderīgs piemērs. Vispārējs anotators, kas pārraksta kardioloģijas konsultāciju, var saprast vārdus pareizi, bet nepamanīt, ka zāļu nosaukums ir nepareizi izrunāts klīniski nozīmīgā veidā vai tika sajaukti divi līdzīgi izklausāmi termini. Domēna specifiskai anotācijai ir nepieciešamas domēna specifiskas zināšanas, un šīs zināšanas ir dārgas.

Subjektīvām iezīmēm — emocijas, nolūks, runātāja ietekme — anotācija kļūst grūtāka. Emociju kategorijas, kas vienā kultūrā jūtas dabiskas, nav tīri saistītas ar citu. Tas, vai runātājs izklausās “pārliecināts” vai “nervozīgs”, ir spriedums, kas dažādiem anotatoriem ir atšķirīgs, un anotatoru savstarpējā vienošanās par emocionālās runas apzīmējumiem bieži vien ir zemāka, nekā ziņo pētnieki, jo domstarpības parasti tiek atrisinātas ar balsu vairākumu, nevis parādās kā patiesa neskaidrība publicētajā datu kopā.

Rezultāts ir tāds, ka daudzu runas datu kopu etiķetēs ir ietvertas latentas domstarpības. Modelis, kas apmācīts uz šīm etiķetēm, apgūs jebkādu konsensu, ko radījis anotācijas process, tostarp tā kļūdas un kultūras pieņēmumus.

Jautājums par piekrišanu un privātumu

Runas datiem ir īpaša jutība, kāda attēla datiem lielākoties trūkst: balss ir biometriska. Jūs varat mainīt savu paroli. Jūs nevarat mainīt savu balsi. Datu kopa, kas satur jūsu runu, pat apkopotā veidā, var tikt izmantota, lai apmācītu runātāju identifikācijas sistēmas, balss klonēšanas sistēmas vai audio dziļās viltošanas sistēmas bez jūsu ziņas vai piekrišanas.

Daudzas agrīnās runas datu kopas tika savāktas bez runātāju jēgpilnas piekrišanas. Ieraksti no telefona sarunām, apraides plašsaziņas līdzekļiem, tiesas sēdes un publiskiem pasākumiem tika izmantoti tāpēc, ka tie bija tehniski pieejami, nevis tāpēc, ka runātāji piekrita viņu balsīm izmantot kā mācību materiālu. Dažas no šīm datu kopām joprojām ir apritē.

Tas sāk mainīties. Common Voice apkopo balss klipus no brīvprātīgajiem, kuri nepārprotami piekrīt viņu ierakstu izmantošanai mākslīgā intelekta apmācībā un to izlaišanai saskaņā ar atklātām licencēm. Vairākām jaunākām pētījumu datu kopām ir nepieciešama piekrišana, demogrāfiskā informācija (neobjektivitātes analīzei) un tiesības pieprasīt noņemšanu.

Pārbīde nav sasniegusi esošo datu apjomu. Modeļi, kas apmācīti uz vecākām datu kopām, satur šo datu kopu izcelsmi, un šī izcelsme bieži vien neietver jēgpilnu piekrišanu no cilvēkiem, kuru balsis tajās ir.

Troksnis, domēns un izvietošanas atšķirības

Viena no paredzamākajām runas AI kļūmēm ir atšķirība starp apmācības apstākļiem un izvietošanas apstākļiem.

Tīras runas datu kopas ir lētākas anotēšanai un vieglāk lietojamas etalonos. Tāpēc apmācības konveijeros izmanto daudz tīras runas, un modeļi gūst labus rezultātus tīras runas etalonos, un šie kritēriju skaitļi tiek minēti produktu apgalvojumos. Pēc tam produkts tiek izmantots tālruņa zvanos, noliktavās, slimnīcu telpās, automašīnās — un veiktspēja pasliktinās tā, kā etalons neparedzēja.

Domēna problēma darbojas kopā ar trokšņa problēmu. Modelim, kas ir apmācīts aplādes intervijām un audiogrāmatām, būs jācīnās ar specifiskas jomas tehnisko žargonu, to cilvēku runas modeļiem, kuriem nav dzimtā valoda noteiktā valodu pārī, un spontānu sarunvalodas runu, kas ir pilna ar aizpildījumiem un restartēšanu, kuras nav skriptu ierakstos. Katrs izvietošanas konteksts ir savs sadalījums, un apmācības dati, kas neaptver šo izplatīšanu, rada modeli, kas šajā kontekstā neizdodas.

Praktiskā atbilde ir domēna pielāgošana: vispārīga modeļa precizēšana datiem no konkrētā izvietošanas konteksta. Lai to izdarītu, no šī konteksta ir jāapkopo iezīmētā runa, kas atgriežas pie iepriekš minētajām apkopošanas un anotācijas problēmām. Nav saīsnes, kas neietver pareizo datu iegūšanu.

Ar ko laba runas datu kopa atšķiras no lielas

Lielumam ir nozīme, taču tas nav vissvarīgākais.

10 000 stundu datu kopa ar konsekventu anotāciju, plašu runātāju daudzveidību, dokumentētu izcelsmi un labiem metadatiem — ierakstīšanas apstākļi, runātāju demogrāfiskie dati, domēns — ir vērtīgāka nekā 100 000 stundu datu kopa, kas iegūta no nejauša interneta audio ar trokšņainu automātisko atšifrējumu un bez skaļruņu informācijas.

Metadatu punkts ir nepietiekami pārdots. Datu kopa, kurā jūs zināt kaut ko par katru runātāju — vecuma diapazons, reģionālais fons, dzimtā valoda — ļauj diagnosticēt modeļa kļūmes pēc populācijas. Datu kopa, kurā zināt ierakstīšanas apstākļus, ļauj saprast, kāpēc modelis nedarbojas noteiktu audio veidu gadījumā. Bez šīs informācijas jūs atkļūdojat akli.

Laukā ir vairāk lielu datu kopu, nekā tajā ir rūpīgi dokumentētas. Šis līdzsvars mainās, jo izmaksas par nedokumentētiem datiem kļūst redzamākas — neobjektīvos modeļos, piekrišanas pārkāpumos, sistēmās, kurās noteiktām lietotāju grupām ir paredzama kļūme, taču tas mainās lēni.

Kur tagad ir darbs

Runas AI kopiena lielā mērā ir atrisinājusi šauro problēmu, kas saistīta ar augsta resursa ASR dažu valodu standarta variantiem. Atklātās problēmas ir visur citur.

Koda maiņa — runātāji maina valodu teikuma vidū — lielākajā daļā datu kopu ir vāji attēlota, un to ir patiešām grūti komentēt. Spontāna, neformāla runa no reālām sarunām ir mazāk pārstāvēta salīdzinājumā ar lasīto runu. Mazresursu valodas, bērnu un vecāka gadagājuma cilvēku runa un runa ar netipiskiem modeļiem no tādiem stāvokļiem kā dizartrija — tās visas ir jomas, kurās apmācības dati ir vāji, un modeļi to parāda.

Šīs nepilnības nav akadēmiskas. Pieejamības rīki cilvēkiem ar runas atšķirībām, tulkošanas sistēmas valodām, kurās runā miljoniem cilvēku, bet kuras ignorē AI pētījumi, transkripcijas rīki veselības aprūpes iestādēm — tie visi ir atkarīgi no runas datu kopām, kas ir vai nu neatbilstošas, vai vēl nepastāv.

Dati ir ierobežojums. Tā parasti ir.