Lühike mälu, suur probleem: miks järgmine samm AI juurutamises nõuab uusi mälulahendusi > Productory AI blog, tehisintellekti uudised

Keset suurt suve ja enne algavat sügishooaega on hea hetk mõtiskleda veidi selle üle, et kuhu organisatsioonid tehisintellekti juurutamises jõudnud ning mis veel ees ootamas on. Ehk siis - vastata küsimusele, mida eelseisvad kuud ja ehk ka aastad AI rakendajate lauale toovad?

Hetkel tundub, et lähiajal on meil laual kolm suurt teemat, mis teineteisega tihedalt põimunud:

Tehisintellekti ligipääs organisatsiooni erinevatele infosüsteemidele (nt läbi MCP protokolli);
tehisintellekt ja organisatsiooni andmed, teadmus ja praktikad ning
mitmekihilised agentsüsteemid ja nende ökosüsteemid ning juhtimine;

Varasemalt olen kirjutanud MCP protokollist ja selle kasutusvõimalustest siin. Selles artiklis aga vaatame just just teemat ehk AI’le organisatsiooni andmetele ligipääsu tagamist ning AI mäluarhitektuuride tulevikku.

Esmalt - tänane olukord AI juurutamisel

Kui vaadata tänast olukorda AI lahenduste juurutamisel, siis suur osa organisatsioone (nii era- kui avalikus sektoris) on jõudnud/jõudmas faasi, kus osade töötajate igapäevasesse tööriistakasti on kinnistumas mõni üldotstarbeline AI vestlusrobot. Olgu selleks siis ChatGPT, Copilot, Gemini või mõni muu. Kindlasti veel ei saa aga väita, et see on jõudnud kõikide töötajateni ja kõik juba valdavad neid tööriistu.

Samas, süües kasvab isu ning seega on mitmed eesrindlikumad organisatsioonid praegu liikumas üldotstarbeliste vestlusrobotite juurest spetsiifilisemate ning just nende organisatsioonide eripäraga arvestavate lahenduste juurde. Üsna sageli on uude faasi sisenemispunktiks kas ChatGPT kohandatud GPTd, või siis Copiloti agendid.

Need lahendused võimaldavad keelemudelile juurde anda täiendavat teavet (nt üles laadides relevantseid taustafaile) või siis konkreetsemaid toimimisjuhendeid, et automatiseerida lühemaid või natuke pikemaid töölõike.

Lisaks on veel organisatsioone, kes on ka neist sammukese ees ning juba seavad sihte, et hakata rakendama AI-võimestatud automaatseid töövoogusid või AI-agentsüsteeme.

Näiteks kaardistatakse sellistes ettevõtetes äriprotsesse ja testitakse, millistes lõikudes saaksid erinevad AI lahendused päris iseseisvalt või siis inimese järelevalve toel toimetada. Ja just selles faasis avastatakse, et hästi toimiv AI süsteem vajab lisaks heale juhtimisele ka head ligipääsu organisatsiooni infole.

Piltlikult öeldes - meil on vaja anda AI agentidele mälu - et talletada neis infot, kuidas asju teha ning andmeid ja taustsüsteeme, mille abil ja mida kasutades ülesandeid edukalt ellu viia.

Just siin jõuamegi eelseisva paari aasta ühe suurima väljakutseni - kuidas ehitada üles elavaid organisatsioonilise mälu ja teadmiste süsteeme, mida saavad kasutada nii inimesed kui ka masinad? Püüan selles artiklis sellele küsimusele vastust pakkuda.

Keelemudelite tehnolooga piirangud: lühikese mäluga ennustajad

Suured keelemudelid, mis praegust AI revolutsiooni suuresti kannavad, on meile andnud pretsedenditu ligipääsu meie teadmistele ja informatsioonile. See tehnoloogia on suutnud tekitada kontsentraadi kogu maailma internetist ning võib julgelt öelda, et keelemudelid kehastavad hetkel parimat saadaolevat versiooni inimkonna mälust. Tõsi, mõnda asja mäletab ta rohkem ja paremini ning mõnda teist asja päris halvasti või uduselt, aga selline see meie mälu keskeltläbi on.

Ja ometi on kogu selle gigantse mälu juures üks probleem - keelemudelil puudub püsiv mälupilt enda vestluspartneri ehk meie kui kasutaja osas.

Valdavalt oleme keelemudeli jaoks "anonüümne tegelane inforuumis". Iga "vestlus" algab sisuliselt nullist ja sellest tulenevalt ei arvesta tehisaru vastused meie eripäradega ja taustsüsteemiga, meie eelistuste ja kalduvustega.

Kõik, mida keelemudel näeb, loeb või kuuleb, tuleb talle nö kirjaga kaasa panna ehk siis prompti lisada. Ja just seda nutikad äpid juba praegu taustal teevadki või teha üritavad.

Näiteks ChatGPT kasutab selleks kasutajapõhiseid seadistusi ja "mälu" funktsiooni. Kuid sisuliselt on need vaid tekstijupikesed, mis pannakse iga kord iga vestluse alguses kasutaja jaoks peidetult LLMi poole teele. Umbes nii: "Oma vastust koostades arvesta ka, et kasutaja soovib vastust eesti keeles ja ta töötab projektijuhina IT ettevõttes".

‍

‍

Veelgi enam - keelemudelid saavad korraga vastu võtta ainult piiratud hulga infot. ‍

Selleks, et keelemudeliga vestlust pidada, tuleb iga kord kui me samas vestluses uue prompti lisame, panna kaasa ka kogu eelnenud vestlus. Seega, mida pikemaks kujuneb üks vestlus nt ChatGPT’s, seda pikemaks venib igakordne järgmine pöördumine keelemudeli poole.

Siin jõuamegi üsna kiiresti piiranguni, mis puudutab sisendi pikkust. Seda nimetatakse konteksti aknaks. Konteksti aken tähendab lihtsustatult seda, kui palju sõnu või tekstitükke (nn "tokeneid") saab keelemudelile korraga saata ja mida ta suudab oma vastust koostades arvesse võtta.

Kontekstist aga sõltub otseselt see, kui kasulikke ja asjakohaseid vastuseid keelemudel meile annab. Mida rohkem asjaolusid keelemudel teab, seda parema vastuse see loob.

Aga kui palju siis ikkagi keelemudel seda teksti ühe korraga suudab vastu võtta? Tuleb välja, et siin on mudelite vahel väga suured käärid. Näiteks Meta Llama 4 suudab ühes päringus töödelda kuni 10 miljonit tokenit, Google Gemini 2.5 Pro ja OpenAI GPT-4.1 kuni 1 miljonit ning Claude 4 Sonnet 200 000 tokenit.

Samas tavalised äpid nagu ChatGPT või Copilot piiravad sisendtokenite arvu veelgi võrreldes mudeli enda võimekusega, sest suurema kontekstiakna võimaldamine maksab neile raha. Nii näiteks võib vabalt olla, et ChatGPT kontektsiaken on suurusjärgus 24000 tokenit (mitte GPT 4.1 mudeli maksimaalne 1 miljon).

Praktikas tähendab see seda, et suurimad mudelid suudavad korraga "mälus hoida" paar-kolm tuhat lehekülge teksti. Kuigi see võib tunduda ju üsna suure arvuna, siis organisatsiooni kogu teadmuspagasit arvestades on see ikkagi tibatilluke suurus. Pigem on see sageli ikkagi ebapiisav, et vähegi ärikriitilisemas olukorras edukalt toimida.

Seega - mida sügavamalt me soovime AI'd oma organisatsiooni toimimisse integreerida, seda kriitilisemaks muutub just mäluhaldus, mis tagaks AI mudelitele vajaliku info serveerimise õigel moel, kasutades maksimaalselt ära mudelite võimekusi. Kuid kuidas seda teha?

AI agendid vajavad veelgi paremat mäluhaldust

Käesoleva aasta jooksul on üsna palju räägitud sellest, et AI agendid on kohal või siis vähemalt kohe kohale jõudmas ning võimaldavad asendada juba mitmeid tööpositsioone. Siiski, AI agent ei ole mingi imeloom - oma olemuselt on tegu süsteemiga, mille keskmes on ikka seesama keelemudelite tehnoloogia kõikide oma võimekuste, aga ka hädadega.

Et me need agendid vähegi mõistlikul määral tööle saaks, tuleb enne korda saada organisatsiooni mäluarhitektuur ja haldus - ehk meetodid ja infrastruktuur nii inimestele kui AI agentidele vajalike teadmiste ja kontekstide pakkumiseks.

‍

‍

Aga millised on siis need põhilised mälutehnoloogiad, mida täna AI agentidele pakkuda saab? Vaatame järjest läbi kolm põhilist lähenemist, mis täna praktikas kasutusel on.

Operatiivmälu

Operatiivmälu ehk promptis olev kontekst - kõige lihtsam ja otsesem viis. Paneme kogu vajaliku info otse prompti sisse ja loodame, et mahub ära. Täna on see variant muutumas üha kasutatavamaks, sest nagu eespool nägime, siis tippmudelite kontekstiaknaid mõõdetakse juba miljonites tokenites. Samas on see lähenemine pigem kallis (iga päring maksab järjest rohkem) ja aeglane (suur sisend nõuab rohkem töötlemisaega). Samuti ei aita see väga olukorras kui organisatsiooni teadmusbaas on suurem kui kontekstiaken ja enamasti ta ju ikkagi veel on.

RAG - Retrieval-Augmented Generation

RAG ehk Retrieval-Augmented Generation - see on hetkel kõige populaarsem lähenemine suurte teadmusbaaside kasutamiseks. RAG töötab järgmiselt: esmalt otsitakse kasutaja küsimuse põhjal andmebaasist üles kõige relevantsemad dokumendid või tekstilõigud (tavaliselt vektorotsingu abil) ning seejärel lisatakse need kontekstiaknasse koos küsimusega. Probleem on siin selles, et vektorotsingud tagastavad sageli ebaolulist või kontekstist väljarebitud infot. Näiteks kui otsite "lepingu tähtaeg", võite saada vastuseks kõik dokumendid või lõigud, kus mainitakse sõnu "leping" ja "tähtaeg", aga mitte tingimata seda konkreetset klauslit, mida parasjagu vaja on.

Agentic RAG

Agentic RAG - see on RAGi edasiarendus, kus keelemudel ise juhib otsinguprotsessi. Mudel võib näiteks paluda täpsustada otsingupäringut, teha mitu järjestikust otsingut või isegi hinnata, kas leitud info on piisav vastuse andmiseks. See annab paremaid tulemusi, kuid on aeglasem ja kallim, sest nõuab mitut pöördumist mudeli poole.

***

Lisaks neile kolmele põhilahendusele on hakatud katsetama ka uudsemaid lähenemisi. Näiteks mälugentide süsteemid, mis hoiavad organisatsioonilist konteksti vahemälus (buffer memory). See on nagu kiire ligipääsuga "töölaual" hoitav info, mida agent sageli vajab - näiteks praegu käimasolevate projektide info, meeskonna rollid, viimased otsused vms. See info ei pea iga kord vektorandmebaasist üles otsitud saama, vaid on kohe käepärast, kui küsida õigelt mäluagendilt.

Veel üks huvitav suund on hierarhilised mälusüsteemid, nagu MemGPT või A-Mem, mis püüavad jäljendada inimmälu struktuuri. Neil on lühiajaline töömälu (vestluse kontekst), pikaajaline mälu (püsivad faktid ja teadmised) ning protseduuriline mälu (kuidas asju teha). Agent saab ise otsustada, mis info kuhu salvestada ja millal mida kasutada.

Kõik need lähenemised püüavad lahendada sama põhiprobleemi - kuidas anda AI agentidele ligipääs õigele infole õigel ajal, ilma et peaks kogu organisatsiooni teadmusbaasi iga päringuga kaasa panema. Praktikas tähendab see sageli mitme lähenemise kombineerimist: näiteks kasutatakse RAGi suurte andmebaaside jaoks, kontekstiagente sagedasti vajamineva info jaoks ja hierarhilist mälu vestluse haldamiseks.

Kuhu liigub mäluarhitektuuride arendus?

2025. aasta teadusuuringud näitavad, et mäluarhitektuuride valdkonnas toimub kiire areng mitmes suunas. Näiteks MemAgent (Hongli Yu jt, 2025) suudab töötada tekstimahuga umbes 3,5 miljonit tokenit, kasutades selleks nutikalt segmenteeritud lugemist ja ülekirjutamisstrateegiat. See tähendab, et agent loeb teksti läbi osade kaupa ja uuendab pidevalt oma mälu, säilitades ainult olulise info.

Veelgi põnevam on LM2 (Large Memory Models) lähenemine (Jikun Kang jt, 2025), mis lisab klassikalisele transformeri arhitektuurile (see on GPT4.x jt tänaste keelemudelite alusarhitektuur) eraldi mälumooduli. See toimib nagu lisaaju, mis suhtleb sisendtokenitega läbi cross-attention mehhanismi. Suurte dokumentide analüüsi testid on andnud üsna häid tulemusi - näiteks 86% parem tulemus kui tavalisel Llama mudelil.

Organisatsioonide jaoks võib olla huvitav ka Collaborative Memory süsteem (Alireza Rezazadeh jt, 2025), mis võimaldab mitmel kasutajal ja agendil turvaliselt mälu jagada. Süsteem hoiab kahte tüüpi mälu: privaatset (nähtav ainult omanikule) ja jagatud mälu (valikuliselt kättesaadav teistele). Iga mälufragment kannab endas infot selle päritolu kohta - näiteks kes selle lõi, millal ja milliseid ressursse kasutades loodi jne. See võimaldab dünaamiliselt juhtida, kes millist infot näeb ja kasutada saab.

Samas on erinevad uuringud mälusüsteemide arendamisel ka olulisi väljakutseid tuvastanud. Näiteks artiklis "How Memory Management Impacts LLM Agents" (Zidi Xiong jt, 2025) näidatakse, et AI agendid kipuvad järgima varasemaid kogemusi - kui uus ülesanne sarnaneb mälus olevaga, annab agent tihti väga sarnase vastuse. See võib aga omakorda viia vigade kuhjumiseni, kus vanad eksimused hakkavad uusi otsuseid mõjutama. Lahenduseks pakuvad autorid kombineeritud lähenemist: valikulist lisamist ja kustutamist, mis annab keskmiselt 10% parema tulemuse.

Kokkuvõtteks

Tulles nüüd hästi pragmaatiliselt tuleviku põnevatest mäluarhitektuuridest tagasi tänapäeva, siis see, mida me teha saame, on hakata kaardistama oma teadmusbaasi ja looma prototüüpe, mida siis integreeritud AI süsteemides kasutusele võtta.

Esimese sammud alustamiseks ei vaja ka hiiglaslikke investeeringuid ei ajaliselt ega ka rahaliselt. Näiteks võiks alustuseks ette võtta järgmised sammud:

1. Alusta teadmuse ja info kaardistusest - Kaardista, kus teie organisatsiooni kriitiline info praegu asub. Kas see on SharePointis, Confluences, e-mailides, inimeste peades? Ära püüa kohe kõike haarata - alusta ühe konkreetse valdkonna või protsessiga (nt klienditeenindus või müük).

2. Loo struktureeritud teadmusbaas - Hakka koondama hajutatud infot ühtsesse, hästi struktureeritud formaati. See ei pea olema keeruline - isegi lihtne märkmete süsteem või FAQ kogu on parem kui mitte midagi.

3. Katsetage lihtsa RAG-iga - Võta mõni valmislahendus kasvõi ChatGPT kohandutd GPT või Copiloti Agent Sharepointi kataloogide peal ja ehita oma dokumentide jaoks lihtne RAG-süsteem. See annab praktilise kogemuse ning teadmise kuidas AI teie infot kasutab. Samuti, et mis töötab hästi ning mis mitte.

4. Määratle ligipääsureeglid - Mõtle läbi, kes peaks millisele infole ligi pääsema. See on kriitiline ettevalmistus tuleviku Collaborative Memory tüüpi süsteemide jaoks. Taaskord, see ei pea olema keeruline, alusta lihtsalt: avalik info, meeskonna info, konfidentsiaalne info.

5. Jälgi kasutusmustreid - Kui teil on juba AI tööriistad kasutusel, siis hakka jälgima, et mida inimesed kõige rohkem küsivad. Teemad, mille kohta kõige rohkem tahetakse teada saada - need on teie kõige organisatsiooni väärtuslikumad teadmised, mis peaksid esimesena AI mällu jõudma.

6. Kasutage lihtsaid tekstiformaate - Hakka viima oma teadmusbaasi üle tekstipõhisesse formaati (nt markdown formaat on väga AI sõbralik). Teenuste ja toodete kirjeldused, projektide ülevaated, protsessikirjeldused - kõik see peaks olema talletatud markdown failidena, mitte PDF-idena või Wordi dokumentidena. See on keelemudelite jaoks ideealne lahendus - lihtne tekst, selge struktuur, kergesti loetav nii inimestele kui masinatele.

7. Pööra tähelepanu metaandmetele - Iga dokumendi juures peaks olema ka järgnev info: kes lõi, millal, kellele mõeldud, kui kaua kehtib. See on kriitiline tuleviku mälusüsteemide jaoks, mis peavad otsustama, mida säilitada ja mida uuendada.

Tegelikult on kõik juba üsna sarnane sellega, kuidas me kunagi õppisime arvuteid kasutama. Keegi ei hakanud kohe Excelis keerulisi makrosid kirjutama - alustasime lihtsate tabelitega.

Sama lugu on praegu AI mälusüsteemidega. Organisatsioonid, kes juba täna hakkavad oma teadmust korrastama ja struktureerima, on homme palju paremas positsioonis kui need, kes ootavad mingit ideaalset lahendust tulevikus. Iga markdown fail, iga korrastatud dokument, iga läbimõeldud ligipääsureegel - kõik see on vundament, millele saab ehitada tuleviku AI süsteemid.

Ja mis kõige tähtsam - me ei pea ootama, kuni mõni suur tehnoloogiafirma meile valmislahenduse pakub. Juba täna saame hakata ehitama oma organisatsiooni mälu. See mälu, mis teenib nii inimesi kui masinaid. See on üsna meie enda kätes.

Allikad

2025. aasta teadusuuringud mäluarhitektuuridest:

MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent - Hongli Yu jt, 2025
LM2: Large Memory Models - Jikun Kang jt, 2025
Collaborative Memory: Multi-User Memory Sharing in LLM Agents with Dynamic Access Control - Alireza Rezazadeh jt, 2025
How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior - Zidi Xiong jt, 2025
Memory OS of AI Agent - Jiazheng Kang jt, 2025
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory - Prateek Chhikara jt, 2025
A-MEM: Agentic Memory for LLM Agents - Wujiang Xu jt, 2025
MIRIX: Multi-Agent Memory System for LLM-Based Agents - Yu Wang ja Xi Chen, 2025‍
Cognitive Memory in Large Language Models - Lianlei Shan jt, 2025

Lühike mälu, suur probleem: miks järgmine samm AI juurutamises nõuab uusi mälulahendusi

Esmalt - tänane olukord AI juurutamisel

Keelemudelite tehnolooga piirangud: lühikese mäluga ennustajad

AI agendid vajavad veelgi paremat mäluhaldust

Operatiivmälu

RAG - Retrieval-Augmented Generation

Agentic RAG

Kuhu liigub mäluarhitektuuride arendus?

Kokkuvõtteks

Allikad

Contents

Sisukord

Seotud tööriistad

Let us know if that article was useful for you?

Mis sa arvad sellest artiklist?