Neuronska mreža je sistem povezanih slojeva koji se sastoje od malih
jedinica zvanih neuroni. Podaci ulaze kroz ulazni
sloj, prolaze kroz skrivene slojeve i izlaze kao predikcija.
Ali šta se zapravo dešava unutra?
Jednostavan način da se ovo razume jeste da se zamisli korak-po-korak
usavršavanje. Isti ulaz se obrađuje iznova i iznova i sa svakim
slojem, model ga razume malo bolje.
Na primer, u modelu slike:
Prvi slojevi mogu detektovati jednostavne stvari poput ivica ili
tekstura.
Srednji slojevi počinju da prepoznaju oblike ili obrasce.
A dublji slojevi mogu identifikovati stvarne objekte.
To je kao prelazak sa piksela → oblici → značenje.
Evo sada važnog dela…
Svaka veza između neurona ima tzv. težinu (weight)
Težine možete smatrati malim „rezultatima važnosti“ koji odlučuju
koliko jedan neuron treba da utiče na drugi.
A treniranje neuronske mreže?
U osnovi je to proces podešavanja ovih težina iznova i iznova dok god
model ne počne da daje tačne rezultate. I tu stvari postaju lude.
Moderni modeli veštačke inteligencije, posebno modeli velikih jezika
(LLM), nemaju samo nekoliko težina. Imaju ih milijarde. Svi
rade zajedno kako bi pretvorili sirove ulazne podatke u nešto što
zaista ima smisla.
Umesto da treniramo model od nule (što je skupo i sporo), uzimamo već
unapred istreniran model i prilagođavamo ga za
specifičan zadatak. Model je već naučio opšte obrasce — uči brže sa
znatno manje podataka.
Analogija: ako znaš da voziš bicikl, učenje vožnje motocikla je mnogo
lakše — ne počinješ od nule. Upravo ovako funkcioniše
većina savremenog AI-ja — velike kompanije treniraju
foundation modele jednom, a developeri ih adaptiraju za specifične
slučajeve.
Transfer learning = gradnja na tuđim temeljima
Transformer stack
03
Tokenizacija
Tokenization
Transformer
Pre nego što model može da razume tekst, mora da ga razbije na manje
delove zvane tokeni. Token nije uvek cela reč — može
biti deo reči, cela reč ili čak nekoliko reči zajedno.
Zašto ne koristiti cele reči? Jezik je haotičan — stalno se pojavljuju
nove reči, greške u kucanju, mešanje jezika. Tokenizacija rešava ovo
čuvanjem fiksnog skupa gradivnih blokova. Čak i nepoznatu reč
model može da "shvati" razbijanjem na poznate delove.
Zato veštačka inteligencija ne čita tekst onako kako to ljudi rade.
Ona čita tokene i iz tih tokena korak po korak gradi značenje.
Ko kroji ove jezičke kockice?
Veličinu i oblik tokena ne izmišlja model u hodu, niti ih ljudi unose
ručno.
Njih određuje kreator modela (poput kompanija OpenAI, Meta ili Google)
i to pre nego što sama veštačka inteligencija uopšte počne da uči
jezik.
Proces se odvija u dva koraka:
Zadaje se veličina rečnika: Kreatori modela
unapred postave fiksno pravilo, na primer:"Naš model će imati rečnik od tačno 50.000 jedinstvenih
tokena."
Pušta se statistički algoritam: Specijalan
program (tokenizator) dobija zadatak da pročešlja ogromnu bazu
tekstova sa interneta i sam pronađe idealne gradivne blokove dok
ne popuni taj rečnik.
Kako algoritam „secka“ tekst?
Algoritam razmišlja isključivo kroz statistiku i matematiku,
pronalazeći zlatnu sredinu između pojedinačnih slova i celih reči.
Najčešće se koristi metoda koja kreće od najsitnijih delova i gradi
rečnik „odozdo nagore“:
Sve počinje od slova: Na samom početku, rečnik
čine samo osnovni znaci – pojedinačna slova, brojevi i znakovi
interpunkcije.
Traženje najčešćih parova: Algoritam zatim
skenira milione stranica teksta i posmatra koji se delovi najčešće
pojavljuju zajedno. Ako primeti da se slova p, r i i stalno
ponavljaju jedno uz drugo, on ih spaja u jedinstven token: pri.
Građenje većih celina: U sledećem krugu vidi da
se taj token pri veoma često vezuje za nastavak prema, pa kreira
novi, veći token: priprema.
Gde je granica? Ovaj proces spajanja se ponavlja
sve dok se ne popuni onih 50.000 mesta u rečniku. Reči koje se
koriste stalno (poput „kako“, „zato“, „program“) postaće celi
tokeni. Retke ili složene reči ostaće podeljene na manje komadiće.
Večita klackalica: Veliki ili mali rečnik?
Kreiranje rečnika je igra kompromisa. Ako je rečnik previše mali,
model mora da koristi sitne tokene (slova i slogove). Zbog toga mu za
jednu običnu rečenicu treba ogroman broj tokena, što usporava rad i
troši njegovu memoriju.
Ako je rečnik previše veliki, model može da guta cele rečenice i fraze
odjednom, što ga čini brzim. Međutim, tada sam rečnik postaje ogroman
teret za memoriju računara, a veštačka inteligencija teže pamti
značenje reči koje se retko pojavljuju.
Zanimljivost: Porez na jezik
Pošto su ovi algoritmi uglavnom trenirani na tekstovima sa engleskog
govornog područja, engleske reči su skoro uvek jedan token (npr.
computer). Sa druge strane, reči iz bogatijih i ređih jezika poput
srpskog, algoritam mora da secka na više delova (npr. ra-ču-nar-i-ma).
Zbog toga modeli troše više „snage“ (i memorije) kada komuniciraju na
našem jeziku nego na engleskom.
Cela reč →
jedan tokenReč razbijena
na podtokene
04
Vektorske reprezentacije (Ugnježdeni vektori ili embedinzi)
Embeddings
Transformer
Nakon tokenizacije, svaki token se pretvara u
vektor — listu brojeva koja predstavlja njegovo
značenje. Zamislite to kao mapu: svaka reč dobija poziciju (ugnježduje
se) u prostoru. Slične reči su blizu jedna drugoj, a potpuno različite
su daleko.
Model ne razume jezik kao čovek. Razume ga kroz
rastojanje i pravac — organizujući reči u prostoru
gde odnosi postaju geometrija. Na primer, razlika između "glumac" i
"glumica" je slična razlici između "princ" i "princeza", dok bi
„doktor“ i „planina“ bili mnogo dalje.
Kao što je već gore napisano model ne razume jezik kao mi. Ne razmišlja u
definicijama ili pravilima. Umesto toga, razume značenje kroz
udaljenost i pravac organizujući reči u prostoru gde odnosi postaju
geometrija.
Reči sa sličnim značenjem gravitiraju jedna prema drugoj u
vektorskom prostoru
05
Mehanizam pažnje
Attention
Transformer
Značenje reči nije fiksno — zavisi od konteksta. Reč "Apple" može biti
voće ili kompanija. Vektorske reprezentacije (Embeddings) daju fiksne
reprezentacije, ali
attention omogućava svakoj reči da "pogleda" sve
ostale i odluči šta je važno.
U rečenici "Kupila je akcije Applea", model obraća više
pažnje na reči poput "akcije" i "kupila" — pa zaključuje da se radi o
kompaniji, ne o voću. Model više ne čita reč po reč: gleda
celu rečenicu odjednom. Upravo ova ideja je otvorila
vrata modernom AI-ju.
Pre toga, modeli su obrađivali tekst korak po korak, s leva na desno,
često propuštajući dugoročne veze.
Pažnja (attention) je to promenila tako što je modelu
omogućila da vidi celu sliku i razume kako je sve povezano.
Srednja
pažnja (0.42)Visoka pažnja
(0.81) — ključna veza
06
Transformer arhitektura
Transformer
Transformer
Transformer je arhitektura koja pokreće gotovo sve moderne AI sisteme.
Uveden 2017. radom "Attention Is All You Need" — umesto
obrade teksta reč po reč, attention postaje centralni mehanizam, i
model gleda sve odjednom.
Transformer se gradi slaganjem više slojeva pažnje
(attention) zajedno sa jednostavnim blokovima za
obradu.
Kako se informacije kreću kroz ove slojeve, one se korak po korak
usavršavaju.
Rani slojevi hvataju gramatiku i strukturu, dublji slojevi odnose
između ideja, a najdublji složeno rezonovanje. Ključna prednost: sve
se obrađuje paralelno — drastično brže od starih
sekvencijalnih pristupa, i GPU-friendly.
Šta to znači?
Stariji modeli su morali da čitaju tekst sekvencijalno, reč po reč.
To ih je činilo sporim i ograničenim u obimu konteksta koji su mogli
da obrade.
Transformersi nemaju taj problem.
Oni obrađuju sve tokene paralelno, što ih čini mnogo bržim i omogućava
im skaliranje do ogromnih veličina koristeći moderni hardver poput
grafičkih procesora (GPU).
Zato se modeli poput GPT, Claude, Gemini i Llama oslanjaju na ovu
arhitekturu.
Dakle, ceo proces izgleda ovako:
Tekst se razbija na tokene.
Tokeni se pretvaraju u vektore.
A transformerski slojevi koriste pažnju
(attention) da bi razumeli kako se sve povezuje.
Taj jednostavan tok je ono što pokreće većinu veštačke inteligencije
koju danas koristite.
GPT, Claude, Gemini, Llama — sve koriste transformer arhitekturu
07
Veliki jezički model
LLM — Large Language Model
Transformer
LLM je transformer treniran na ogromnoj količini teksta — knjige, veb
sajtovi, kod, i još mnogo toga. Cilj tokom treninga je iznenađujuće
jednostavan: predvidi sledeći token.
Zvuči gotovo previše jednostavno (banalno) da bi bilo moćno.
Ali kada ponovite ovaj proces na trilionima primera, dešava se nešto
zanimljivo.
Model počinje da prihvata obrasce u jeziku.
Uči kako su rečenice strukturirane, kako se ideje povezuju, pa čak i
kako teče rasuđivanje.
Vremenom, ovo počinje da liči na razumevanje iako je zapravo samo
učenje obrazaca u velikim razmerama.
Zato ovi modeli mogu da rade stvari poput: pisanja koda, odgovaranja
na pitanja, prevođenja jezika ili objašnjavanja složenih tema čak i
ako nikada nisu eksplicitno obučeni za te tačne zadatke. "Veliki" u modelu velikog jezika odnosi se na broj
parametara.
Ovo su interne vrednosti koje model uči tokom obuke, a moderni modeli
imaju stotine milijardi njih.
Obuka nečega u toj razmeri nije jeftina. Potrebno je ogromno
računarstvo i često košta milione dolara.
Ali rezultat je sistem koji može da generalizuje na širok spektar
problema i generiše iznenađujuće korisne rezultate.
Dakle, kada koristite alate poput ChatGPT-a, Claude-a, Grok-a,
Gemini-ja ili druge, vi zapravo interagujete sa modelom koji je naučio
jezik radeći jednu jednostavnu stvar iznova i iznova, predviđajući šta
sledi.
Cela "inteligencija" LLM-a nastala je ponavljanjem jednog zadatka:
predvidi sledeći token
08
Kontekstni prozor
Context Window
Arhitektura
Svaki model ima ograničenje koliko informacija može da "pamti"
odjednom — to je kontekstni prozor.
Odnosi se na maksimalan broj tokena koje model može da obradi u jednoj
interakciji, uključujući i ono što vi pišete i ono što model generiše
kao odgovor.
Jednostavno rečeno, to je kao kratkoročna radna memorija modela.
U ranijim modelima, ova memorija je bila prilično mala.
Na primer, rane verzije GPT-a mogle su da obrade samo nekoliko hiljada
tokena istovremeno.
To je značilo da bi dugi razgovori brzo gubili trag ranijih detalja, a
veliki dokumenti su morali da se skraćuju ili dele.
Ali stvari su se mnogo promenile.
Moderni modeli mogu da obrade mnogo veće kontekste.
Neki mogu da obrade cele knjige, duge razgovore ili velike delove koda
odjednom. To ih čini mnogo korisnijim za zadatke iz stvarnog sveta gde
je kontekst zaista važan.
Ali postoji zamka:
Veći kontekstni prozor ima svoju cenu.
Potrebno mu je više memorije, više računarskih resursa i često dovodi
do sporijeg odziva.
Dakle, iako je veći u teoriji bolji, on takođe čini sistem težim i
skupljim za rad.
Čak i sa velikim kontekstnim prozorima, postoji još jedno suptilno
ograničenje.
Model ne tretira sve delove podjednako.
Tendencija je da se više fokusira na početak i kraj,
dok informacije u sredini mogu biti previđene — tzv.
"lost in the middle" problem.
Dakle, iako kontekstni prozori postaju veći i bolji...oni i dalje nisu
savršeni.
Razumevanje ovoga pomaže da se objasni zašto model ponekad "zaboravi"
stvari koje ste ranije jasno pomenuli.
Saveti: najvažnije informacije stavi na početak ili kraj konteksta
09
Temperatura
Temperature
Generisanje
Kada model generiše tekst, izračunava verovatnoće za svaki sledeći
token. Temperatura kontroliše koliko je taj izbor "strog" ili
"kreativan".
Niska temperatura (0.1–0.4): model gotovo uvek bira
najverovaniji token — predvidljivo, tačno, fokusirano. Dobro za kod i
sažetke. Visoka temperatura (0.8–1.5): model
istražuje manje verovatne opcije — kreativno, raznovrsno, ali ponekad
nekoherentno.
Niska temp —
model "igra na sigurno"Visoka temp —
model "istražuje"
10
Halucinacija
Hallucination
Ograničenje
Model ponekad daje odgovor koji zvuči sasvim pouzdano — ali je
netačan. Možda izmisli studiju koja ne postoji, API koji nikad nije
napravljen, ili prezentuje izmišljenu činjenicu kao da je svima
poznata.
Zašto se to dešava? Jer model ne pokušava da kaže istinu — pokušava da
generiše najverovatniji sledeći tekst. Ako lažna
tvrdnja "zvuči" kao dobar nastavak, model je generiše sa punim
samopouzdanjem. Zbog toga
nikad ne treba slepo verovati outputu, posebno za činjenice,
kod i važne odluke.
Zato mnogi sistemi danas pokušavaju da smanje ovaj problem tako što
model zasnivaju na stvarnim podacima, na primer, povezujući ga sa
pouzdanim dokumentima ili tražeći od njega da navede izvore kada je to
moguće.
Na kraju krajeva, model je neverovatno dobar u tome da zvuči ispravno.
😇
Ali i dalje mu je potreban čovek (vi) da proveri da li je zaista
tačan.
Rešenje: RAG (koncept #17) — model pretražuje stvarne dokumente
umesto da se oslanja na "pamćenje"
Treniranje i optimizacija
11
Fino podešavanje
Fine-Tuning
Treniranje
Fine-tuning je nastavak treninga na manjem, fokusiranom datasetu.
Model već razume opšti jezik, pa ga vodiš u specifičnom pravcu — npr.
treniraš ga na pravnim dokumentima da postane pravni asistent.
Zamislite to kao (sub)specijalizaciju.
Podrazumeva ažuriranje velikog dela parametara modela, što zahteva
ozbiljnu infrastrukturu. Snažan alat, ali skup. Alternativa sa manjim
troškovima: LoRA (koncept #13).
Fine-tuning ≠ "preprogramiranje" — model pamti staro znanje i dodaje
novo
12
Učenje uz ljudsku povratnu informaciju
RLHF — Reinforcement Learning from Human Feedback
Treniranje
RLHF objašnjava zašto moderni AI asistenti zvuče korisno, ljubazno i
konverzacijski. Bez njega, model bi samo nastavljao obrasce — nije
nužno koristan ili bezbedan.
Proces: model generiše više odgovora na isti prompt,
ljudi procenjuju koji su bolji, jasniji, bezbedniji.
Model tokom vremena uči da favorizuje odgovore koje ljudi preferiraju
— razvija "osećaj" za dobar odgovor. Ovo je razlog zašto ChatGPT,
Claude i Gemini osećaju drugačije od ranijih chatbotova.
RLHF + srodne tehnike (RLAIF, Constitutional AI) = ono što čini AI
asistente korisnim
13
Niskorangovna adaptacija
LoRA — Low-Rank Adaptation
Treniranje
Fine-tuning ažurira milijarde parametara — skupo i teško. LoRA je
pametniji pristup: originalni model ostaje zamrznut,
a dodaju se mali, trenabilni moduli na vrh. Ti dodaci su minijaturni —
ispod 1% ukupnih parametara.
Ideja koja stoji iza ovoga je iznenađujuće pametna.
Kada fino podešavate model, većina promena zapravo ne zahteva
ažuriranja pune veličine.
Mogu se aproksimirati mnogo manjim transformacijama.
LoRA to koristi i beleži te promene na kompaktan način.
Ono što bi zahtevalo više skupih GPU-ova sada može da se uradi na
jednoj mašini. Umesto čuvanja više punih kopija modela, čuvaš samo
LoRA adaptere i menjaš ih po potrebi za različite zadatke.
LoRA je razlog zašto danas možeš lokalno da fine-tuneš Llamu na
laptopa
14
Kvantizacija
Quantization
Optimizacija
Modeli su veliki i zahtevaju puno memorije. Kvantizacija smanjuje
model tako što čuva težine koristeći manje bitova —
model zauzima manje prostora, brže se učitava i jeftinije se pokreće,
uz minimalni gubitak kvaliteta.
Drugim rečima, u modelu pune preciznosti, svaka težina se čuva
korišćenjem velikog broja bitova.
Kvantizacija ponekad značajno smanjuje tu veličinu, što znači da ceo
model zauzima mnogo manje memorije.
Ideja je jednostavna: koristite manju preciznost, ali zadržite većinu
korisnih informacija.
Kada smanjite veličinu svake težine, uticaj se brzo akumulira. Model
koji bi normalno zahtevao ogromne količine memorije može iznenada
postati dovoljno mali da bi radio na pristupačnijem hardveru.
I iznenađujuće, pad kvaliteta je često mnogo manji nego što biste
očekivali, posebno sa umerenim nivoima kvantizacije.
Ovo je jedan od ključnih razloga zašto veliki modeli postaju
praktičniji.
Kada vidite ljude koji pokreću moćne modele na desktop grafičkom
procesoru ili čak laptopu, oni obično ne koriste punu verziju.
Oni koriste kvantizovanu verziju koja je kompresovana da bi
se uklopila u ograničenja stvarnog sveta.
Jednostavno rečeno, kvantizacija je ono što pomaže da se veliki modeli
veštačke inteligencije izbace iz masivnih centara podataka...
Formati poput
GGUF i AWQ su standard za lokalno pokretanje
LLM-ova.
8× manja memorija, uz manje od 5% pada u kvalitetu outputa za većinu
zadataka
Promptovanje i rezonovanje
15
Inženjering promptova
Prompt Engineering
Promptovanje
Način na koji postavljaš pitanje jako utiče na odgovor. Inženjering
promptova je veština oblikovanja inputa da dobijete
korisni, fokusirani output.
"Objasni API-je" → opširan, površan odgovor. "Objasni kako REST API-ji
rukuju autentifikacijom sa konkretnim primerom" → precizan, koristan
odgovor. Dobar prompt nije kompleksan — on je
jasan i specifičan: definiši ulogu, daj primere, naznači
format, odredi ton.
Prompt engineering je primarni način komunikacije sa modelom — vredi
uložiti vreme da se nauči
16
Lanac razmišljanja
Chain of Thought — CoT
Promptovanje
Ponekad model daje loš odgovor ne zato što ne zna, već zato što
žuri ka odgovoru. Chain of Thought je pristup u kome
ohrabrujemo model da reši problem u međukoracima — umesto da odmah
skače na zaključak.
Umesto da traži samo finalni odgovor, model dobija "prostor za skicu".
Za matematiku, logiku i višekoračno rezonovanje, ova mala promena može
drastično poboljšati tačnost. Dovoljno je dodati:
"razmisli korak po korak".
Moderni reasoning modeli (o1, o3, R1) automatski primenjuju CoT
interno
Izgradnja AI sistema
17
Generisanje uz pretragu
RAG — Retrieval-Augmented Generation
AI sistemi
RAG je jedan od najpraktičnijih načina borbe protiv halucinacija.
Umesto da se oslanja samo na ono što je naučio tokom treninga, model
dobija pristup stvarnim, relevantnim informacijama u
trenutku odgovaranja. Na primer, zamislite da pravite asistenta za
podršku.
Kada neko pita o cenama ili politikama, sistem ne pogađa.
Prvo izvlači najnovije informacije iz vaših internih dokumenata, a
zatim model to objašnjava na jasan i prirodan način.
Ono što ovaj pristup čini moćnim jeste podela uloga.
Model se fokusira na razumevanje pitanja i objašnjenje odgovora.
Baza znanja pruža stvarne činjenice.
I to ima veliku prednost.
Ključna prednost: ako se informacije promene,
ne treba ponovo trenirati model — samo ažuriraš dokumenta, i
sistem odmah koristi nove podatke.
Jednostavno rečeno, RAG pretvara model od nečega što pamti...u nešto
što može da čita, verifikuje i reaguje u realnom kontekstu.
RAG je osnova gotovo svakog poslovnog AI asistenta danas.
RAG = model "čita" pre nego što "odgovori" — umesto da se oslanja na
memoriju
18
Vektorska baza podataka
Vector Database
AI sistemi
RAG mora nekako da pronađe pravu informaciju — a tu dolazi vektorska
baza. Čuva vektorske reprezentacije (ranije pomenute
embeddings ili numeričke reprezentacije značenja) umesto čistog
teksta. Kada korisnik postavi pitanje, i to pitanje se pretvara u
vektorsku reprezentaciju (embeding), a sistem traži
semantički najsličnije sadržaje.
Evo kako to izgleda u praksi.
Vaši dokumenti se prvo dele na manje delove, a svaki deo se konvertuje
u vektorsku reprezentaciju (embeding).
Ovo (vektorska reprezentacija) se zatim čuva u bazi podataka.
Kada korisnik postavi pitanje, taj upit se takođe pretvara u vektorsku
reprezentaciju (embeding).
Sistem zatim traži sačuvane vektore koji su mu najbliži, što znači
najsličniji po značenju, i vraća ih kao kontekst.
Ono što je moćno kod ovoga je koliko se razlikuje od tradicionalne
pretrage.
Ako pretražujete koristeći tačne ključne reči, možete propustiti
relevantne informacije samo zato što je formulacija drugačija.
Ali sa vektorskom pretragom, sistem i dalje može pronaći pravi sadržaj
jer razume nameru koja stoji iza reči, a ne samo same reči.
To je ono što čini RAG tako dobrim.
Model ne samo da preuzima tekst, već preuzima najrelevantnije
značenje.
Popularna rešenja: Pinecone, Weaviate, Qdrant, pgvector, pa čak i
PostgreSQL sa ekstenzijama koje podržavaju upite zasnovane na
vektorima.
Popularna rešenja:PineconeWeaviateQdrantpgvector
19
AI agenti
AI Agents
AI sistemi
Dosad smo govorili o modelima koji generišu tekst. Šta ako bi model
mogao da i preduzima akcije?
Agent veštačke inteligencije je u osnovi jezički model koji može da
preduzima akcije, ne samo da odgovara.
Umesto da se zaustavi na odgovoru, može da interaguje sa alatima,
pokreće kod, pretražuje informacije, poziva API-je i kombinuje ove
korake da bi završio zadatak.
Drugim rečima, prelazi sa razmišljanja na delovanje!
Agent radi u petlji: gleda situaciju → odlučuje → preduzima akciju →
gleda rezultat → ponavlja.
Zamislite asistenta za kodiranje koji radi na grešci.
On čita problem, istražuje bazu koda, identifikuje gde stvari možda
kreću naopako, piše ispravku, pokreće testove, vidi šta ne uspeva, a
zatim prilagođava rešenje dok sve ne funkcioniše.
Svaki korak zavisi od prethodnog, a model se stalno prilagođava kako
nove informacije pristižu.
Ovo je moćno, ali je to i mesto gde stvari postaju komplikovane.
Svaki korak ima šansu da krene naopako, a te male greške se mogu
akumulirati.
Zadatak koji izgleda jednostavno može postati nepouzdan kada uključuje
više odluka zaredom.
Zato izgradnja dobrih agenata nije samo u tome da ih učinimo
sposobnim.
Već u tome da ih učinimo pouzdanim.
Primeri: Claude Code, Devin, AutoGPT, custom Langchain/CrewAI agenti
20
Difuzioni modeli
Diffusion Models
AI sistemi
Difuzioni modeli stoje iza modernih generatora slika (Midjourney,
DALL-E, Stable Diffusion). Ideja je kontraintuitivna: umesto da nauči
da kreira slike direktno, model najpre nauči da ih
uništi — postepeno dodaje šum dok slika ne postane
statički šum. Zatim uči obrnuti proces.
Generisanje: počni od čistog šuma i korak po korak uklanjaj šum, vođen
promptom, dok ne nastane slika. Naziv "difuzija" dolazi iz fizike —
rastakanje čestica u tečnosti. Isti princip se koristi i za video,
audio, 3D sadržaj i naučne primene (proteini, molekuli).
Midjourney, DALL-E, Stable Diffusion, Sora (video) — svi koriste
ovaj princip