Google klusi laidis apgrozībā jaunu diktēšanas lietotni priekš iPhone ar nosaukumu Google AI Edge daiļrunīgskas nodarbojas ar mākslīgo intelektu un darbību bez interneta savienojuma. Tas ir rīks, kas paredzēts tiem, kas dod priekšroku runāt, nevis rakstīt un vēlas, lai rezultāts būtu pēc iespējas tuvāks tekstam, kas jau ir gatavs nosūtīšanai.
Šī jaunā Google lietotne nāk laikā, kad IT risinājumi balss uz tekstu ar AI gūst arvien lielāku vietu, un alternatīvas, piemēram, Wispr Flow, SuperWhisper vai Willow, sacenšas par tāda paša veida lietotājiem. Eloquent galvenā atšķirība ir tā “bezsaistes pirmā” pieeja: kad atbilstošie modeļi ir lejupielādēti, iPhone var parūpēties par runas atpazīšanu un teksta tīrīšanu, nepaļaujoties uz mākoni.
Kāds ir Google AI Edge Eloquent un ar ko tas atšķiras
Praksē Google AI Edge Eloquent darbība ir vienkārša: lietotājs atver lietojumprogrammu, nospiež ierakstīšanas pogu un sāk runāt, kamēr ekrānā tiek rādīts reāllaika transkripcija. Kad diktāts apstājas, tiek aktivizēts AI slānis, kas rediģē teikto, lai pārvērstu to par lasāmāku tekstu.
Viens no visspilgtākajiem punktiem ir tas, ka lietotne ir atbildīga par automātisku likvidēšanu pildvielas un vilcināšanās tipiskas runas skaņas, piemēram, “eh”, “mmm”, “um” vai “ah”, kā arī teikuma vidus labojumi. Tādā veidā rezultāts nav burtiska visa teiktā kopija, bet gan sakārtota versija, kas ir tuvāka e-pastā, ziņojumā vai darba piezīmē sagaidāmajam rakstam.
Papildus satura pārrakstīšanai un tīrīšanai Eloquent piedāvā dažādas iespējas pārveidot tekstu bez nepieciešamības to kopēt uz citu redaktoru. Zem transkripcijas ir pogas ar iepriekš definētiem formātiem, piemēram, “Galvenie punkti”, “Formāls”, “Īss” vai “Gars”, kas paredzēti, lai pielāgotu diktātu kontekstam: no shematiska kopsavilkuma līdz izstrādātam tekstam.
Pašas lietotnes aprakstā App Store ir uzsvērts, ka rīks cenšas “novērst plaisu” starp to, kā mēs runājam un kā mēs parasti rakstām. Tā vietā, lai vārdu pa vārdam pārvērstu tekstā, mēģiniet notvert nodomu par to, ko persona vēlas pateikt, un sniegt kaut ko, kas vairāk izskatās pēc gatava dokumenta, nevis aptuvena melnraksta.
AI ierīcē un mākonī: Gemma un Gemini
Google AI Edge Eloquent tehniskā sirds atrodas iekšējos modeļos. Vietējai balss atpazīšanas lietošanai Džemmaatvērtu Google modeļu saime, kas paredzēta darbam ar ierīcēm ar ierobežotiem resursiem, piemēram, mobilajiem tālruņiem. Šie modeļi tiek lejupielādēti, kad pirmo reizi izmantojat lietotni, lai turpmāk diktātu varētu veikt bezsaistē.
“Bezsaistes” pieeja ir ne tikai ērtības jautājums, bet arī ietekmē privātums, latentums un datu patēriņš. Apstrādājot audio tieši iPhone, nav nepieciešams augšupielādēt katru balss fragmentu uzņēmuma serveros, kas samazina sensitīvās informācijas ekspozīciju un novērš atkarību no savienojuma kvalitātes.
Lietotnē ir iekļauts slēdzis, lai atspējotu mākoņa apstrādi, ļaujot visai straumei palikt ierīcē. Ja lietotājs aktivizē mākoņa režīmu, tas tiek parādīts attēlā DvīņiGoogle ģeneratīvo AI modeļu saime, ko izmanto, lai vēl vairāk uzlabotu jau pārrakstīto un notīrīto tekstu, piemēram, pielāgojot stilu, saskaņotību vai struktūru.
Šī hibrīda arhitektūra — vietējā apstrāde ar papildu mākoņa atbalstu — atspoguļo Google stratēģiju šajā jomā: Gemma izmantošana, lai ļautu ierīcei veikt smago automātiskā runas atpazīšana (ASR) un vērsieties pie Dvīņiem, meklējot papildu slīpēšanas vai transformācijas līmeni. Lietotājam mērķis ir samazināt darbības starp runāšanu un teksta sagatavošanu lietošanai.
Vārdu krājuma pielāgošana un profesionāla lietošana
Papildus diktāta tīrīšanai viena no funkcijām, kas var mainīt ikdienas dzīvi, ir lietotnes spēja apgūt lietotāja vārdu krājumu. Google AI Edge Eloquent ļauj izveidot personalizētu vārdnīcu ar biežiem terminiem: īpašvārdiem, tehniskajiem datiem, akronīmiem vai konkrētas nozares žargonu.
Šo vārdnīcu var izveidot manuāli, pievienojot konkrētus vārdus, vai palīdzēt, ja lietotājs piešķir lietotnei atļauju piekļūt noteiktiem sava konta datiem. Google Workspace vai Gmail. Izmantojot šo atļauju, sistēma analizē e-pastus un citu saturu, lai identificētu vārdus un vārdus, kas būtu pareizi jāatpazīst diktēšanas laikā.
Google uzsver, ka šī piekļuve nav obligāta un ir atkarīga no lietotāja piekrišanas, kas Eiropā ir sensitīvs jautājums saistībā ar normatīvo regulējumu attiecībā uz datu aizsardzība un privātums. Tajā pašā laikā šī funkcionalitāte nepārprotami ir paredzēta profesionālai lietošanai: tie, kas strādā ar klientu sarakstiem, juridisko dokumentāciju, medicīniskajiem ziņojumiem vai tehnisko saturu, var ietaupīt daudz labojumu, ja modelis labi saprot viņu izplatīto žargonu.
Lietotnē ir iekļauta arī sesiju vēsture, kas ļauj meklēt iepriekšējos diktātus, kā arī sadaļa ar pamata lietošanas statistika: diktēto vārdu skaits, diktēšanas ātrums, ko mēra vārdos minūtē, un kopējais ģenerētā satura apjoms. Šī informācija pastiprina produktivitātes fokusu, novietojot rīku tuvāk nepārtrauktas rakstīšanas palīgam nekā vienkāršam ierakstītājam ar transkripciju.
Pieejamība, valodu ierobežojumi un situācija Eiropā
Pagaidām Google AI Edge Eloquent ir pieejams bez maksas. bezmaksas App Store iPhone tālrunim, nav nepieciešams abonements vai reklamēti lietošanas ierobežojumi. Tomēr piedāvājumam ir divi galvenie nosacījumi: pašlaik tas darbojas tikai angļu valodā, un tā ieviešana Eiropā ir ierobežota.
Google pati norāda, ka pieejamība tādos reģionos kā Apvienotā Karaliste, Eiropas Ekonomikas zona un Šveice uz to attiecas normatīvās apstiprināšanas prasības. Uzņēmums apgalvo, ka strādā, lai iegūtu nepieciešamās atļaujas un varētu “drīzumā” palaist lietotni šajos tirgos, lai gan nenorādot konkrētus datumus un neprecizējot, kuras konkrētas organizācijas vai noteikumi nosaka tempu.
IPhone lietotājiem Spānijā un pārējā kontinentālajā Eiropā tas nozīmē, ka lietotne var vēl neparādīties vietējā App Store vai arī tai var būt ierobežotas funkcijas. Normatīvā nianse nav maznozīmīga, ņemot vērā Eiropas standartu kontekstu digitālie pakalpojumi, personas dati un mākslīgais intelektskas liek lielajiem tehnoloģiju uzņēmumiem būt uzmanīgiem, apmācot modeļus, apstrādājot informāciju un lūdzot piekrišanu.
Runājot par valodām, joprojām nav oficiāla paziņojuma par atbalstu citām valodām, izņemot angļu valodu; Tikmēr tādas funkcijas kā teksta tulkošana iPhone tālrunī joprojām ir noderīgi papildinājumi. Ņemot vērā spāņu valodas nozīmi Google ekosistēmā un centienus pēc daudzvalodu mākslīgā intelekta, ir pamatoti domāt, ka uzņēmums galu galā paplašinās valodu klāstu, taču pagaidām šī iespēja ir tikai cerības, kas balstītas uz citu zīmola produktu sasniegumiem.
Balss diktēšanas prasmes un plāni Android ierīcēm
Eloquent nolaišanās operētājsistēmā iOS notiek tirgū, kurā jau darbojas vairāki specializēti diktēšanas un transkripcijas rīki. Nosaukumi, piemēram Wispr Flow, SuperWhisper vai Willow ir izveidojuši sev nišu, piedāvājot balss pārvēršanas tekstu pakalpojumus, kurus galvenokārt atbalsta mākonis, ar ģeneratīvas AI slāņiem, lai apkopotu, tulkotu vai pārformatētu saturu.
Google apņemšanās ievieš atbilstošu niansi: savu risinājumu, kas apvieno Ierīces AI un mākoņpakalpojumikas ir integrēta tās Gemma un Gemini modeļu ekosistēmā. Dažiem lietotājiem vienkāršais fakts, ka var izmantot lietotni bezsaistē un bez maksas abonementa, var izsvērt līdzsvaru, jo īpaši profesionālajā vai mobilitātes kontekstā, kur ne vienmēr ir labs pārklājums.
Lai gan lietojumprogramma ir debitējusi operētājsistēmā iOS, oficiālais apraksts skaidri norāda uz turpmāko versiju Android. Google min nevainojamu integrāciju ar savu operētājsistēmu ar iespēju konfigurēt Eloquent kā noklusējuma tastatūru, lai piekļūtu viedajam diktātam jebkurā mobilā teksta laukā.
Ir arī atsauce uz iespējamu peldošā pogalīdzīgi tam, ko jau piedāvā citas diktēšanas lietotnes operētājsistēmā Android, kas ļautu sākt transkripciju no jebkura ekrāna, nemainot lietojumprogrammas. Ja šī integrācija tiks īstenota, Eloquent varētu pāriet no eksperimentālas lietotnes operētājsistēmā iOS uz gandrīz sistēmas funkciju daudzos Android tālruņos.
Paralēli Google turpina reklamēt Gemma modeļus kā pamatu izstrādātājiem un jaunizveidotiem uzņēmumiem, lai izveidotu savus diktēšanas rīkus un balss palīgus, kas darbojas. 100% lokāli. Šajā ziņā Eloquent darbojas arī kā vitrīna par to, ko ar šiem modeļiem var paveikt tādā patērētāju ierīcē kā iPhone, ne tikai tehniskās demonstrācijas.
Kopumā Google AI Edge Eloquent palaišana iezīmē skaidru stratēģisku kustību: uzņēmums vēlas pozicionēt sevi jaunās paaudzes diktēšanas lietotnēs, kas ne tikai atšifrē, bet notīrīt, strukturēt un pārformatēt balsi tekstos, ko var izmantot no paša mobilā tālruņa, apvienojot bezsaistes darbību, personalizāciju un teorētiski lielāku privātuma ievērošanu. Atliek noskaidrot, kā šī pieeja tiks iztulkota, kad lietotne pilnībā sasniegs Eiropu un sāks konkurēt ar vienādiem nosacījumiem valodas un pieejamības ziņā.