Viimase aasta arengud loova tehisintellekti valdkonnas on muutnud AI avataride loomise oluliselt lihtsamaks ja kättesaadavamaks igaühele. Samas on endiselt avataride tegemisel üksjagu väljakutseid ja hea lahenduseni jõudmine vajab endiselt omajagu tööd. Mida täpselt aga tuleb teha ühe AI avatari loomiseks, uurimegi järgnevalt.
Kõik sai alguse ühest üsna ootamatust ettepanekust eelmise aasta novembri lõpus. Kanal2 aastavahetuse telesaate produtsent Kajar Kase pakkus meile välja pöörase idee: loome AI avatari, kes suudab Kanal2 aastavahetuse telesaates tulevikku ennustada. Kuigi alguses võttis pakkumine jala veidi värisema, siis kokkuvõttes otsustasime, et väljakutse on heas mõttes piisavalt hull ja lähme sellega kaasa! Nii saigi alguse avatar Teele loomise teekond.
Esmalt tuli välja mõelda avatari persoona. Meie eesmärk ei olnud luua lihtsalt järjekordset robotit või fantaasiategelast. Tahtsime midagi inimlikku ja tuttavat, kuid mis samal ajal viitaks ka tuleviku võimalustele.
Nii sündis mõte, et Teele võiks olla TV saatejuht – enesekindel, professionaalne ja kergelt humoorikas. Kujutasime teda säramas pilvelõhkuja katusel, taustal suurlinna tuled.
Kui visuaal oli paigas, liikusime tema nö olemuse ja vastuste stiili loomise juurde. Me oleme ka varem avatare loonud ning teadsime, et selle paika saamisega võib veidi aega minna. Alustasime ChatGPT-s ning üsna lihtsa promptiga:
Sa oled AI avatar, kes vastab uusaastaöö telesaates reporterit ning vastad erinevatele küsimustele. Sa oled naisterahvas. Sa ei pea otseselt teesklema, et oled inimene, vaid võid vastata täiesti nii, et oledki AI avatar. Võid olla ka pisut humoorikas. Arvesta, et vastajad teavad, et sa oled tehisintellekt.
Huvitaval kombel seekord avatar rohkem juhiseid ei vajanudki, vaid vastas kohe üsna soovitud viisil. Ehk siis vastused olid juba alguses sõbralikud, enesekindlad ja isegi kergelt humoorikad. Kuna Kanal 2-e sooviks oligi, et tulevikku ennustab just tehisintellekt, siis vastuseid me sisulises mõttes ei muutunudki. Veidi pidi lihtsalt keelelist toimetamist tegema.
Visuaalse väljanägemise loomine
Kui Teele “isiksuse” oli valmis, siis tuli talle luua visuaalne välimus ehk nägu ja kuju. Kuna aastavahetuse telesaated on alati olnud glamuursed, tahtsime Teele välimuses hoida samasugust stiili - natuke klassikaline ja pidulik, aga samas realistlik.
Protsess algas mitme idee ja visiooni katsetamisega. Kaalusime korraks ka lausa küborgi-laadse kujutise loomist. Lõpuks jäime aga selle juurde, et Teele võiks olla umbes 30ndates naine, kelle välimus sobituks hästi TV saatejuhi rolli. Ei midagi üleliia ekstravagantset ega fantaasiapõhist – eesmärk oli, et vaatajad tunneksid temas ära kellegi, kes võiks ka päriselt ekraanil olla.
Seejärel hakkasime tööle visuaalide loomisega, kasutades erinevaid AI-pildimudeleid. Kuna pildimudelid nagu Midjourney ja Flux töötavad paremini ingliskeelsete juhistega, siis alustasime taaskord ChatGPT-ga. Andsime talle ülesandeks koostada täpne prompt, mis peegeldaks meie visiooni avatarist. Suunis oli siis järgmine:
Help visualize a character and a scene. We need a woman in the TV New Year’s Eve show. She’s suitable to this time and age. She will be like a TV host who gets on-air calls for predictions for the new year. I think she can be like an offsite reporter somewhere on the roof of a skyscraper during night time giving an interview to the camera.
ChatGPT koostas üsna hea pildiprompti, mida sai väikeste kohandustega siis kasutama hakata. Seega alustasime erinevate tööriistadega katsetamist. Ja kuigi meie senine lemmik Midjourney lõi üsna häid kujutisi, siis lõpliku pildi saime Krea.ai (kasutab Fluxi) abil, sest tulemused olid realistlikud ja sobisid täpselt meie visiooniga.
Kui pildimasin Teele valmis sai jäi lisada vaid üks väike detail - Kanal2 logo mikrofonile. Selleks kasutasime juba tavalist kujundusprogrammi Figma.
 mudelite osas üsna piiratud. Inglise keelega töötavad lahendused on laialdaselt kättesaadavad ja mitmekesised, kuid eesti keelt toetavaid kvaliteetseid TTS-mudeleid on palju vähem.
Esimene katsetus oli Tartu Ülikooli neurokõne mudel, mis pakkus küll selget ja korrektset kõnet, kuid jäi oma toonilt liiga masinlikuks ja emotsioonituks. Oleme seda võimalust varem kasutanud, kuid tundsime mõlemad, et aastavahetuse programmi jaoks on seda liiga “vähe”. Teele peab huvitavamalt kõnelema! Seega tuli läbi käia hulk teisi võimalusi. Proovisime nii Narakeet’i, ElevenLabsi kui ka mitmeid teisi alternatiive, kuid ükski neist ei vastanud meie ootustele. Lõpuks avastasime, et just Heygen oli eesti keele valikus korraliku uuenduse läbi teinud ja pakkus suurt valikut eestikeelseid sünteesitud hääli.
. Lähemate detailide puudumine tekitas Musetalkil raskusi huulte liikumise täpsusega.
![](/images/blog/kuidas-sundis-ai-avatar-teele--inline-4-AD_4nXcbJQqsuq61SgH7n7LXfCgQ_FQPSej_9F60ysxHSxm0tZcTZzVzXPyP.avif
Teele lip-sync protsess
Lõpuks valisime Sievedata lip-sync mudeli, mis on MuseTalki edasiarendus. Sievedata mudel pakkus täpsemat huulte ja miimika liikumist ka keskvõtte puhul. Lisaks oli nende renderduskeskkond märkimisväärselt kiire, mis oli video lõppviimistluse protsessis suureks plussiks. Arvestades, et olime juba üksjagu vaeva näinud, siis igasugused kiiremad lahendused tegid meile vaid rõõmu.
Õppetunnid ja kokkuvõte
Teele loomise projekt ei olnud lihtsalt AI avatari arendamine, vaid ka tehnoloogia nö hetkeolukorra testimine. Kuigi oleme ka varem avatare loonud ja protsess oli üksjagu tuttav, siis seekord tahtsime võimalikult parimat ehk tippu ning keskendusime kõige uuemate ja arenenumate tehnoloogiate kasutamisele. Isegi ainult erinevate mudelite katsetamine oli omaette väärtuslik kogemus, mis andis hea ülevaate sellest, mida on võimalik teha ja kus asuvad praegused piirid.
Üks olulisemaid õppetunde oli see, et praeguses arenguetapis tuleb erinevaid tööriistu ja tehnoloogiaid omavahel kombineerida, et saavutada parim võimalik tulemus. AI võimaldab asju teha kiiresti, kuid kui soov on saavutada kvaliteetne ja detailideni viimistletud tulemus, võtab see ikkagi aega ja nõuab põhjalikkust.
Samuti tõi projekt esile eesti keele spetsiifilised väljakutsed. Suuremad keeled, nagu inglise keel, on tehnoloogilises eelisseisus – neid toetavaid lahendusi on palju ja kvaliteet on sageli parem. Eesti keele puhul pidime olema leidlikud ja kulutama rohkem aega sobivate lahenduste leidmiseks.
Kokkuvõttes oli projekt meile mitte ainult tehnoloogiline väljakutse, vaid ka väärtuslik õppimiskogemus. See kinnitas, et AI võimaldab luua midagi täiesti unikaalset ja inimlikult köitvat, kuid kvaliteedi saavutamiseks on vaja kombineerida uuenduslikkust, täpsust ja veidi rohkem aega, kui esialgu arvata võiks.