Apple pētnieki ir ieviesuši revolucionāru AI modeli, MLLM vadītu attēlu rediģēšanu (MGIE), kas spēj rediģēt attēlus, pamatojoties uz teksta uzvednēm. Šis modelis, kas izstrādāts sadarbībā ar pētniekiem no Kalifornijas Universitātes Santabarbarā, ir ievērojams sasniegums attēlu rediģēšanas tehnoloģijā. Atšķirībā no esošajiem modeļiem, tiek ziņots, ka MGIE apstrādā plašu rediģēšanas scenāriju klāstu, sākot no vienkāršiem krāsu pielāgojumiem līdz sarežģītām objektu manipulācijām.
MGIE kodols ir multimodāls lielas valodas modelis (MLLM), kas interpretē lietotāju pieprasījumus un sniedz īsus norādījumus attēlu rediģēšanai. Šī pieeja ļauj modelim efektīvi risināt neskaidras komandas, panākot saprātīgus rediģēšanas rezultātus. Piemēram, MLLM saprot lūgumu “padarīt picu veselīgāku” un saista terminu “veselīga” ar “dārzeņu piedevām”, norādot difūzijas modelim attiecīgi rediģēt attēlu.
MGIE var rediģēt attēlus no jūsu teksta apraksta
Tas, kas atšķir MGIE no esošajiem modeļiem, piemēram, LLM vadītās attēlu rediģēšanas (LGIE), ir tā uzlabotā vizuālā uztvere. Kamēr LGIE aprobežojas ar vienu modalitāti, MLLM MGIE ietvaros var piekļūt ievades attēlam un starpmodālai izpratnei, ļaujot iegūt aprakstošākus norādījumus. Šī iespēja ļauj modelim identificēt konkrētus attēla reģionus, kuriem nepieciešama pielāgošana, piemēram, noteiktu apgabalu izgaismošana, lai iegūtu vēlamo efektu.
MGIE tagad ir pieejams kā atvērtā pirmkoda projekts vietnē GitHub, piedāvājot lejupielādei kodu, datus un iepriekš apmācītus modeļus. Turklāt tīmekļa demonstrācija, kas tiek mitināta vietnē Hugging Face, ļauj lietotājiem klātienē izjust modeļa attēlu rediģēšanas iespējas. Tomēr Apple vēl nav atklājis savus plānus integrēt MGIE savos produktos ārpus pētniecības projektiem.
Apple nesenā ceturkšņa peļņas zvana laikā izpilddirektors Tims Kuks apstiprināja, ka uzņēmums turpina darbu pie AI funkcijām savām ierīcēm. Uzņēmums, visticamāk, paziņos rezultātus vēlāk šogad. Biznesa standarts sagaida, ka šie AI uzlabojumi attieksies uz dažādiem Apple pakalpojumiem, tostarp Siri, Messages un Apple Music. Iekļaujot ģeneratīvās AI funkcijas, lietotāji var paredzēt uzlabojumus, piemēram, teksta kopsavilkumu, personalizētus ieteikumus un uzlabotu funkcionalitāti visā Apple ekosistēmā.