Microsoft VASA-1 var radīt reālistiskas runājošas sejas

Šobrīd var droši teikt, ka AI tehnoloģija strauji attīstās. Microsoft ir viens no vadošajiem AI uzņēmumiem ar OpenAI palīdzību. Microsoft jaunākais rīks saucas VASA-1 — tas ir spēcīgs rīks, lai radītu reāllaikā reāllaikā strādājošas reālistiskas runājošas sejas.

Tas ir pierādījums AI pieaugošajai spējai atdarināt cilvēkus, pamatojoties uz minimālu ieguldījumu. Piemēram, TikTok strādā pie rīka, kas ļaus cilvēkiem izveidot AI ģenerētu balss klonu, izmantojot tikai 10 sekunžu audio ievadi. Šī raksta rakstīšanas laikā šis rīks nebija pieejams sabiedrībai. Tomēr mēs sagaidām, ka tas iznāks salīdzinoši drīz.

Microsoft VASA-1 ļauj lietotājiem reāllaikā izveidot reālistiskas runājošas sejas

Mēs esam redzējuši to piemērus simtiem lietotņu reklāmu, kas ļauj animēt portretu, lai radītu iespaidu, ka jūs dziedat Billijas Eilisas dziesmu. Tomēr VASA-1 tehnoloģija ir daudz progresīvāka un daudz izsmalcinātāka. Šim rīkam varat izmantot atsevišķu attēlu. Izmantojot šo attēlu, rīks varēs ģenerēt reālistisku kustību, lai radītu iespaidu, ka persona runā.

Tas ir iespaidīgi, bet tas sniedzas tālāk. VASA-1 faktiski var radīt smalkas sejas kustības un nodot plašu emociju klāstu. Tas ir kaut kas tāds, kā līdzīgiem rīkiem gadu gaitā ir pietrūcis. Tās galvenā uzmanība tiek pievērsta reālismam, un tas ir ļoti tuvu tam.

Uzņēmums savā tīmekļa vietnē parādīja dažus šīs tehnoloģijas piemērus, un tas ir ļoti iespaidīgs. Turklāt runājošas sejas var sinhronizēt ar skaņu reāllaikā. Tā ir vēl viena lieliska šī rīka kvalitāte.

Microsoft VASA-1 var ģenerēt 512 × 512 video ar ātrumu līdz 40 kadriem sekundē. Turklāt savā tiešsaistes straumēšanas režīmā Microsoft var lepoties ar latentumu tikai 170 ms.

Šobrīd mēs nezinām, kad Microsoft plāno izlaist šo funkciju masām. Tomēr, kad tas notiks, mēs esam diezgan pārliecināti, ka Microsoft to monetizēs. Tā varētu būt kāda no uzņēmuma abonēšanas pakalpojuma funkcija. Mums būs jāgaida, līdz tas iznāks, lai pārliecinātos.