ponITech · Edukacija

20 najvažnijih
AI koncepata

Jasna objašnjenja bez žargona — onako kako bih i sam voleo da mi neko objasni. Sa vizualnim primerima za svaki koncept.

Sav kredit ide autorima originalnog članka ❤️❤️❤️

NP
Nikola Popović · ponITech
20 koncepata ~15 min čitanja

Osnove

01

Neuronske mreže

Neural Networks
Osnova
Neuronska mreža je sistem povezanih slojeva koji se sastoje od malih jedinica zvanih neuroni. Podaci ulaze kroz ulazni sloj, prolaze kroz skrivene slojeve i izlaze kao predikcija.

Ali šta se zapravo dešava unutra?

Jednostavan način da se ovo razume jeste da se zamisli korak-po-korak usavršavanje. Isti ulaz se obrađuje iznova i iznova i sa svakim slojem, model ga razume malo bolje.

Na primer, u modelu slike:
Prvi slojevi mogu detektovati jednostavne stvari poput ivica ili tekstura.
Srednji slojevi počinju da prepoznaju oblike ili obrasce.
A dublji slojevi mogu identifikovati stvarne objekte.
To je kao prelazak sa piksela → oblici → značenje.

Evo sada važnog dela…
Svaka veza između neurona ima tzv. težinu (weight)
Težine možete smatrati malim „rezultatima važnosti“ koji odlučuju koliko jedan neuron treba da utiče na drugi.
A treniranje neuronske mreže?
U osnovi je to proces podešavanja ovih težina iznova i iznova dok god model ne počne da daje tačne rezultate. I tu stvari postaju lude. Moderni modeli veštačke inteligencije, posebno modeli velikih jezika (LLM), nemaju samo nekoliko težina. Imaju ih milijarde. Svi rade zajedno kako bi pretvorili sirove ulazne podatke u nešto što zaista ima smisla.
Ulazni sloj Skriveni slojevi Izlazni sloj w = 0.73 Mačka 92% Pas 8% podaci → obrada → predikcija
Ulazni podaci Skriveni slojevi (obrada) Izlaz (predikcija) Jedna težina (weight)
02

Transfer učenje

Transfer Learning
Osnova
Umesto da treniramo model od nule (što je skupo i sporo), uzimamo već unapred istreniran model i prilagođavamo ga za specifičan zadatak. Model je već naučio opšte obrasce — uči brže sa znatno manje podataka.

Analogija: ako znaš da voziš bicikl, učenje vožnje motocikla je mnogo lakše — ne počinješ od nule. Upravo ovako funkcioniše većina savremenog AI-ja — velike kompanije treniraju foundation modele jednom, a developeri ih adaptiraju za specifične slučajeve.
Foundation model Treniran na milijardama tokena fine-tune Medicinski AI mali dataset Pravni AI · mali dataset Ušteda: ~99% manje podataka i računarskih resursa
Transfer learning = gradnja na tuđim temeljima

Transformer stack

03

Tokenizacija

Tokenization
Transformer
Pre nego što model može da razume tekst, mora da ga razbije na manje delove zvane tokeni. Token nije uvek cela reč — može biti deo reči, cela reč ili čak nekoliko reči zajedno.

Zašto ne koristiti cele reči? Jezik je haotičan — stalno se pojavljuju nove reči, greške u kucanju, mešanje jezika. Tokenizacija rešava ovo čuvanjem fiksnog skupa gradivnih blokova. Čak i nepoznatu reč model može da "shvati" razbijanjem na poznate delove.
Zato veštačka inteligencija ne čita tekst onako kako to ljudi rade. Ona čita tokene i iz tih tokena korak po korak gradi značenje.

Ko kroji ove jezičke kockice?
Veličinu i oblik tokena ne izmišlja model u hodu, niti ih ljudi unose ručno.
Njih određuje kreator modela (poput kompanija OpenAI, Meta ili Google) i to pre nego što sama veštačka inteligencija uopšte počne da uči jezik.
Proces se odvija u dva koraka:
  1. Zadaje se veličina rečnika: Kreatori modela unapred postave fiksno pravilo, na primer:"Naš model će imati rečnik od tačno 50.000 jedinstvenih tokena."
  2. Pušta se statistički algoritam: Specijalan program (tokenizator) dobija zadatak da pročešlja ogromnu bazu tekstova sa interneta i sam pronađe idealne gradivne blokove dok ne popuni taj rečnik.

Kako algoritam „secka“ tekst?
Algoritam razmišlja isključivo kroz statistiku i matematiku, pronalazeći zlatnu sredinu između pojedinačnih slova i celih reči.
Najčešće se koristi metoda koja kreće od najsitnijih delova i gradi rečnik „odozdo nagore“:
  • Sve počinje od slova: Na samom početku, rečnik čine samo osnovni znaci – pojedinačna slova, brojevi i znakovi interpunkcije.
  • Traženje najčešćih parova: Algoritam zatim skenira milione stranica teksta i posmatra koji se delovi najčešće pojavljuju zajedno. Ako primeti da se slova p, r i i stalno ponavljaju jedno uz drugo, on ih spaja u jedinstven token: pri.
  • Građenje većih celina: U sledećem krugu vidi da se taj token pri veoma često vezuje za nastavak prema, pa kreira novi, veći token: priprema.
  • Gde je granica? Ovaj proces spajanja se ponavlja sve dok se ne popuni onih 50.000 mesta u rečniku. Reči koje se koriste stalno (poput „kako“, „zato“, „program“) postaće celi tokeni. Retke ili složene reči ostaće podeljene na manje komadiće.

Večita klackalica: Veliki ili mali rečnik?
Kreiranje rečnika je igra kompromisa. Ako je rečnik previše mali, model mora da koristi sitne tokene (slova i slogove). Zbog toga mu za jednu običnu rečenicu treba ogroman broj tokena, što usporava rad i troši njegovu memoriju.
Ako je rečnik previše veliki, model može da guta cele rečenice i fraze odjednom, što ga čini brzim. Međutim, tada sam rečnik postaje ogroman teret za memoriju računara, a veštačka inteligencija teže pamti značenje reči koje se retko pojavljuju.

Zanimljivost: Porez na jezik
Pošto su ovi algoritmi uglavnom trenirani na tekstovima sa engleskog govornog područja, engleske reči su skoro uvek jedan token (npr. computer). Sa druge strane, reči iz bogatijih i ređih jezika poput srpskog, algoritam mora da secka na više delova (npr. ra-ču-nar-i-ma). Zbog toga modeli troše više „snage“ (i memorije) kada komuniciraju na našem jeziku nego na engleskom.
input → "Neuronska mreža uči igr-anje." Neuron ska mreža uči igr - anje . = 8 tokena
Cela reč → jedan token Reč razbijena na podtokene
04

Vektorske reprezentacije (Ugnježdeni vektori ili embedinzi)

Embeddings
Transformer
Nakon tokenizacije, svaki token se pretvara u vektor — listu brojeva koja predstavlja njegovo značenje. Zamislite to kao mapu: svaka reč dobija poziciju (ugnježduje se) u prostoru. Slične reči su blizu jedna drugoj, a potpuno različite su daleko.

Model ne razume jezik kao čovek. Razume ga kroz rastojanje i pravac — organizujući reči u prostoru gde odnosi postaju geometrija. Na primer, razlika između "glumac" i "glumica" je slična razlici između "princ" i "princeza", dok bi „doktor“ i „planina“ bili mnogo dalje.

Kao što je već gore napisano model ne razume jezik kao mi. Ne razmišlja u definicijama ili pravilima. Umesto toga, razume značenje kroz udaljenost i pravac organizujući reči u prostoru gde odnosi postaju geometrija.
dim_1 dim_2 doktor med. sestra hirurg medicina planina reka šuma priroda daleko = različiti koncepti
Reči sa sličnim značenjem gravitiraju jedna prema drugoj u vektorskom prostoru
05

Mehanizam pažnje

Attention
Transformer
Značenje reči nije fiksno — zavisi od konteksta. Reč "Apple" može biti voće ili kompanija. Vektorske reprezentacije (Embeddings) daju fiksne reprezentacije, ali attention omogućava svakoj reči da "pogleda" sve ostale i odluči šta je važno.

U rečenici "Kupila je akcije Applea", model obraća više pažnje na reči poput "akcije" i "kupila" — pa zaključuje da se radi o kompaniji, ne o voću. Model više ne čita reč po reč: gleda celu rečenicu odjednom. Upravo ova ideja je otvorila vrata modernom AI-ju.

Pre toga, modeli su obrađivali tekst korak po korak, s leva na desno, često propuštajući dugoročne veze.
Pažnja (attention) je to promenila tako što je modelu omogućila da vidi celu sliku i razume kako je sve povezano.
Kupila je akcije Applea , ne voću . 0.42 0.81 "Applea" pazi na ove reči → Apple = kompanija ✓ kontekst "akcije" → ne voće Debljina linije = jačina pažnje (attention weight) Model gleda sve reči odjednom, ne jednu po jednu
Srednja pažnja (0.42) Visoka pažnja (0.81) — ključna veza
06

Transformer arhitektura

Transformer
Transformer
Transformer je arhitektura koja pokreće gotovo sve moderne AI sisteme. Uveden 2017. radom "Attention Is All You Need" — umesto obrade teksta reč po reč, attention postaje centralni mehanizam, i model gleda sve odjednom.

Transformer se gradi slaganjem više slojeva pažnje (attention) zajedno sa jednostavnim blokovima za obradu.
Kako se informacije kreću kroz ove slojeve, one se korak po korak usavršavaju.
Rani slojevi hvataju gramatiku i strukturu, dublji slojevi odnose između ideja, a najdublji složeno rezonovanje. Ključna prednost: sve se obrađuje paralelno — drastično brže od starih sekvencijalnih pristupa, i GPU-friendly.
Šta to znači?
Stariji modeli su morali da čitaju tekst sekvencijalno, reč po reč.
To ih je činilo sporim i ograničenim u obimu konteksta koji su mogli da obrade.
Transformersi nemaju taj problem.
Oni obrađuju sve tokene paralelno, što ih čini mnogo bržim i omogućava im skaliranje do ogromnih veličina koristeći moderni hardver poput grafičkih procesora (GPU).
Zato se modeli poput GPT, Claude, Gemini i Llama oslanjaju na ovu arhitekturu.

Dakle, ceo proces izgleda ovako:
  • Tekst se razbija na tokene.
  • Tokeni se pretvaraju u vektore.
  • A transformerski slojevi koriste pažnju (attention) da bi razumeli kako se sve povezuje.

Taj jednostavan tok je ono što pokreće većinu veštačke inteligencije koju danas koristite.
Sloj 1 — gramatika, struktura rečenice Sloj 2 — odnosi između reči i fraza Sloj 3 — semantika, koncepti Sloj N — složeno rezonovanje, zaključivanje dublje = složenije ↑ tokeni ulaze sa dna, izlaz na vrhu Paralelno sve tokene odjednom GPU friendly ⚡
GPT, Claude, Gemini, Llama — sve koriste transformer arhitekturu
07

Veliki jezički model

LLM — Large Language Model
Transformer
LLM je transformer treniran na ogromnoj količini teksta — knjige, veb sajtovi, kod, i još mnogo toga. Cilj tokom treninga je iznenađujuće jednostavan: predvidi sledeći token.

Zvuči gotovo previše jednostavno (banalno) da bi bilo moćno.
Ali kada ponovite ovaj proces na trilionima primera, dešava se nešto zanimljivo.
Model počinje da prihvata obrasce u jeziku.
Uči kako su rečenice strukturirane, kako se ideje povezuju, pa čak i kako teče rasuđivanje.
Vremenom, ovo počinje da liči na razumevanje iako je zapravo samo učenje obrazaca u velikim razmerama.
Zato ovi modeli mogu da rade stvari poput: pisanja koda, odgovaranja na pitanja, prevođenja jezika ili objašnjavanja složenih tema čak i ako nikada nisu eksplicitno obučeni za te tačne zadatke.
"Veliki" u modelu velikog jezika odnosi se na broj parametara.
Ovo su interne vrednosti koje model uči tokom obuke, a moderni modeli imaju stotine milijardi njih.
Obuka nečega u toj razmeri nije jeftina. Potrebno je ogromno računarstvo i često košta milione dolara.
Ali rezultat je sistem koji može da generalizuje na širok spektar problema i generiše iznenađujuće korisne rezultate.
Dakle, kada koristite alate poput ChatGPT-a, Claude-a, Grok-a, Gemini-ja ili druge, vi zapravo interagujete sa modelom koji je naučio jezik radeći jednu jednostavnu stvar iznova i iznova, predviđajući šta sledi.
Veštačka inteligencija je budućnost p = 0.73 fascinantna 0.12 važna 0.08 ← model bira najverovaniji sledeći token alternative
Cela "inteligencija" LLM-a nastala je ponavljanjem jednog zadatka: predvidi sledeći token
08

Kontekstni prozor

Context Window
Arhitektura
Svaki model ima ograničenje koliko informacija može da "pamti" odjednom — to je kontekstni prozor.
Odnosi se na maksimalan broj tokena koje model može da obradi u jednoj interakciji, uključujući i ono što vi pišete i ono što model generiše kao odgovor.
Jednostavno rečeno, to je kao kratkoročna radna memorija modela.
U ranijim modelima, ova memorija je bila prilično mala.
Na primer, rane verzije GPT-a mogle su da obrade samo nekoliko hiljada tokena istovremeno.
To je značilo da bi dugi razgovori brzo gubili trag ranijih detalja, a veliki dokumenti su morali da se skraćuju ili dele.
Ali stvari su se mnogo promenile.
Moderni modeli mogu da obrade mnogo veće kontekste.
Neki mogu da obrade cele knjige, duge razgovore ili velike delove koda odjednom. To ih čini mnogo korisnijim za zadatke iz stvarnog sveta gde je kontekst zaista važan.

Ali postoji zamka:
Veći kontekstni prozor ima svoju cenu.
Potrebno mu je više memorije, više računarskih resursa i često dovodi do sporijeg odziva.
Dakle, iako je veći u teoriji bolji, on takođe čini sistem težim i skupljim za rad.
Čak i sa velikim kontekstnim prozorima, postoji još jedno suptilno ograničenje.
Model ne tretira sve delove podjednako.
Tendencija je da se više fokusira na početak i kraj, dok informacije u sredini mogu biti previđene — tzv. "lost in the middle" problem.
Dakle, iako kontekstni prozori postaju veći i bolji...oni i dalje nisu savršeni.
Razumevanje ovoga pomaže da se objasni zašto model ponekad "zaboravi" stvari koje ste ranije jasno pomenuli.
Visoka pažnja "lost in the middle" Visoka pažnja ← Kontekstni prozor — sve što model vidi u jednom zahtevu →
Saveti: najvažnije informacije stavi na početak ili kraj konteksta
09

Temperatura

Temperature
Generisanje
Kada model generiše tekst, izračunava verovatnoće za svaki sledeći token. Temperatura kontroliše koliko je taj izbor "strog" ili "kreativan".

Niska temperatura (0.1–0.4): model gotovo uvek bira najverovaniji token — predvidljivo, tačno, fokusirano. Dobro za kod i sažetke. Visoka temperatura (0.8–1.5): model istražuje manje verovatne opcije — kreativno, raznovrsno, ali ponekad nekoherentno.
temp = 0.2 budućnost 78% sutra 12% nada 5% Precizno · predvidljivo temp = 1.5 budućnost 35% sutra 27% nada 21% ostalo 17% Kreativno · raznovrsno
Niska temp — model "igra na sigurno" Visoka temp — model "istražuje"
10

Halucinacija

Hallucination
Ograničenje
Model ponekad daje odgovor koji zvuči sasvim pouzdano — ali je netačan. Možda izmisli studiju koja ne postoji, API koji nikad nije napravljen, ili prezentuje izmišljenu činjenicu kao da je svima poznata.

Zašto se to dešava? Jer model ne pokušava da kaže istinu — pokušava da generiše najverovatniji sledeći tekst. Ako lažna tvrdnja "zvuči" kao dobar nastavak, model je generiše sa punim samopouzdanjem. Zbog toga nikad ne treba slepo verovati outputu, posebno za činjenice, kod i važne odluke.
Zato mnogi sistemi danas pokušavaju da smanje ovaj problem tako što model zasnivaju na stvarnim podacima, na primer, povezujući ga sa pouzdanim dokumentima ili tražeći od njega da navede izvore kada je to moguće.
Na kraju krajeva, model je neverovatno dobar u tome da zvuči ispravno. 😇
Ali i dalje mu je potreban čovek (vi) da proveri da li je zaista tačan.
Pitanje: "Ko je autor knjige X iz 2019. godine?" LLM ⚠ Halucinacija "Napisao je Dr. Ivan Nikolić, Univ. u Beogradu, 2019." Autor i detalji su izmišljeni
Rešenje: RAG (koncept #17) — model pretražuje stvarne dokumente umesto da se oslanja na "pamćenje"

Treniranje i optimizacija

11

Fino podešavanje

Fine-Tuning
Treniranje
Fine-tuning je nastavak treninga na manjem, fokusiranom datasetu. Model već razume opšti jezik, pa ga vodiš u specifičnom pravcu — npr. treniraš ga na pravnim dokumentima da postane pravni asistent.
Zamislite to kao (sub)specijalizaciju.

Podrazumeva ažuriranje velikog dela parametara modela, što zahteva ozbiljnu infrastrukturu. Snažan alat, ali skup. Alternativa sa manjim troškovima: LoRA (koncept #13).
Generalni model sve teme + fokus. dataset pravni tekstovi Specijalizovani model ugovori, presude, zakoni... precizni pravni odgovori ⚡ Skupo ažurira milijarde param.
Fine-tuning ≠ "preprogramiranje" — model pamti staro znanje i dodaje novo
12

Učenje uz ljudsku povratnu informaciju

RLHF — Reinforcement Learning from Human Feedback
Treniranje
RLHF objašnjava zašto moderni AI asistenti zvuče korisno, ljubazno i konverzacijski. Bez njega, model bi samo nastavljao obrasce — nije nužno koristan ili bezbedan.

Proces: model generiše više odgovora na isti prompt, ljudi procenjuju koji su bolji, jasniji, bezbedniji. Model tokom vremena uči da favorizuje odgovore koje ljudi preferiraju — razvija "osećaj" za dobar odgovor. Ovo je razlog zašto ChatGPT, Claude i Gemini osećaju drugačije od ranijih chatbotova.
Prompt Odgovor A Odgovor B Odgovor C 👤 A > C > B Model uči preferencije → korisno, bezbedno, tačno → konverzacijski ton
RLHF + srodne tehnike (RLAIF, Constitutional AI) = ono što čini AI asistente korisnim
13

Niskorangovna adaptacija

LoRA — Low-Rank Adaptation
Treniranje
Fine-tuning ažurira milijarde parametara — skupo i teško. LoRA je pametniji pristup: originalni model ostaje zamrznut, a dodaju se mali, trenabilni moduli na vrh. Ti dodaci su minijaturni — ispod 1% ukupnih parametara.
Ideja koja stoji iza ovoga je iznenađujuće pametna.
Kada fino podešavate model, većina promena zapravo ne zahteva ažuriranja pune veličine.
Mogu se aproksimirati mnogo manjim transformacijama.
LoRA to koristi i beleži te promene na kompaktan način.

Ono što bi zahtevalo više skupih GPU-ova sada može da se uradi na jednoj mašini. Umesto čuvanja više punih kopija modela, čuvaš samo LoRA adaptere i menjaš ih po potrebi za različite zadatke.
🔒 Originalni model Frozen — ne menja se (milijarde parametara) + LoRA adapter mali, trenabilni = Specijalizovani model Trening na jednom GPU Zamena adaptera → novi zadatak
LoRA je razlog zašto danas možeš lokalno da fine-tuneš Llamu na laptopa
14

Kvantizacija

Quantization
Optimizacija
Modeli su veliki i zahtevaju puno memorije. Kvantizacija smanjuje model tako što čuva težine koristeći manje bitova — model zauzima manje prostora, brže se učitava i jeftinije se pokreće, uz minimalni gubitak kvaliteta.
Drugim rečima, u modelu pune preciznosti, svaka težina se čuva korišćenjem velikog broja bitova.
Kvantizacija ponekad značajno smanjuje tu veličinu, što znači da ceo model zauzima mnogo manje memorije.
Ideja je jednostavna: koristite manju preciznost, ali zadržite većinu korisnih informacija.
Kada smanjite veličinu svake težine, uticaj se brzo akumulira. Model koji bi normalno zahtevao ogromne količine memorije može iznenada postati dovoljno mali da bi radio na pristupačnijem hardveru.
I iznenađujuće, pad kvaliteta je često mnogo manji nego što biste očekivali, posebno sa umerenim nivoima kvantizacije.
Ovo je jedan od ključnih razloga zašto veliki modeli postaju praktičniji.
Kada vidite ljude koji pokreću moćne modele na desktop grafičkom procesoru ili čak laptopu, oni obično ne koriste punu verziju.
Oni koriste kvantizovanu verziju koja je kompresovana da bi se uklopila u ograničenja stvarnog sveta.
Jednostavno rečeno, kvantizacija je ono što pomaže da se veliki modeli veštačke inteligencije izbace iz masivnih centara podataka...

Formati poput GGUF i AWQ su standard za lokalno pokretanje LLM-ova.
FP32 — puna preciznost 32 bita / vrednost ~140 GB za 70B model quant. INT4 — kvantizovano 4 bita / vrednost ~18 GB — laptop GPU ✓ Gubitak kvaliteta često minimalan
8× manja memorija, uz manje od 5% pada u kvalitetu outputa za većinu zadataka

Promptovanje i rezonovanje

15

Inženjering promptova

Prompt Engineering
Promptovanje
Način na koji postavljaš pitanje jako utiče na odgovor. Inženjering promptova je veština oblikovanja inputa da dobijete korisni, fokusirani output.

"Objasni API-je" → opširan, površan odgovor. "Objasni kako REST API-ji rukuju autentifikacijom sa konkretnim primerom" → precizan, koristan odgovor. Dobar prompt nije kompleksan — on je jasan i specifičan: definiši ulogu, daj primere, naznači format, odredi ton.
"Objasni API-je" ✗ Opšti, dugačak, neskoristan odgovor "Objasni REST auth sa primerom" ✓ Precizan, strukturiran koristan odgovor ✓ Ključevi dobrog prompta → Definiši ulogu modela → Daj primere outputa → Odredi format i ton → Budi specifičan
Prompt engineering je primarni način komunikacije sa modelom — vredi uložiti vreme da se nauči
16

Lanac razmišljanja

Chain of Thought — CoT
Promptovanje
Ponekad model daje loš odgovor ne zato što ne zna, već zato što žuri ka odgovoru. Chain of Thought je pristup u kome ohrabrujemo model da reši problem u međukoracima — umesto da odmah skače na zaključak.

Umesto da traži samo finalni odgovor, model dobija "prostor za skicu". Za matematiku, logiku i višekoračno rezonovanje, ova mala promena može drastično poboljšati tačnost. Dovoljno je dodati: "razmisli korak po korak".
Pitanje Pogrešan odgovor ✗ Pitanje Korak 1 Korak 2 Korak 3 Tačan odgovor ✓ korak po korak
Moderni reasoning modeli (o1, o3, R1) automatski primenjuju CoT interno

Izgradnja AI sistema

17

Generisanje uz pretragu

RAG — Retrieval-Augmented Generation
AI sistemi
RAG je jedan od najpraktičnijih načina borbe protiv halucinacija. Umesto da se oslanja samo na ono što je naučio tokom treninga, model dobija pristup stvarnim, relevantnim informacijama u trenutku odgovaranja. Na primer, zamislite da pravite asistenta za podršku.
Kada neko pita o cenama ili politikama, sistem ne pogađa.
Prvo izvlači najnovije informacije iz vaših internih dokumenata, a zatim model to objašnjava na jasan i prirodan način.
Ono što ovaj pristup čini moćnim jeste podela uloga.
Model se fokusira na razumevanje pitanja i objašnjenje odgovora.
Baza znanja pruža stvarne činjenice.
I to ima veliku prednost.

Ključna prednost: ako se informacije promene, ne treba ponovo trenirati model — samo ažuriraš dokumenta, i sistem odmah koristi nove podatke.
Jednostavno rečeno, RAG pretvara model od nečega što pamti...u nešto što može da čita, verifikuje i reaguje u realnom kontekstu.
RAG je osnova gotovo svakog poslovnog AI asistenta danas.
Pitanje Baza znanja 📄 interni dokumenti 📄 cene i politike 📄 priručnici pretraga LLM + relevantan kontekst Utemeljen odgovor baziran na stvarnim podacima ✓
RAG = model "čita" pre nego što "odgovori" — umesto da se oslanja na memoriju
18

Vektorska baza podataka

Vector Database
AI sistemi
RAG mora nekako da pronađe pravu informaciju — a tu dolazi vektorska baza. Čuva vektorske reprezentacije (ranije pomenute embeddings ili numeričke reprezentacije značenja) umesto čistog teksta. Kada korisnik postavi pitanje, i to pitanje se pretvara u vektorsku reprezentaciju (embeding), a sistem traži semantički najsličnije sadržaje.
Evo kako to izgleda u praksi.
Vaši dokumenti se prvo dele na manje delove, a svaki deo se konvertuje u vektorsku reprezentaciju (embeding).
Ovo (vektorska reprezentacija) se zatim čuva u bazi podataka.
Kada korisnik postavi pitanje, taj upit se takođe pretvara u vektorsku reprezentaciju (embeding).
Sistem zatim traži sačuvane vektore koji su mu najbliži, što znači najsličniji po značenju, i vraća ih kao kontekst.

Ono što je moćno kod ovoga je koliko se razlikuje od tradicionalne pretrage.
Ako pretražujete koristeći tačne ključne reči, možete propustiti relevantne informacije samo zato što je formulacija drugačija.
Ali sa vektorskom pretragom, sistem i dalje može pronaći pravi sadržaj jer razume nameru koja stoji iza reči, a ne samo same reči.
To je ono što čini RAG tako dobrim.
Model ne samo da preuzima tekst, već preuzima najrelevantnije značenje.
Popularna rešenja: Pinecone, Weaviate, Qdrant, pgvector, pa čak i PostgreSQL sa ekstenzijama koje podržavaju upite zasnovane na vektorima.
"Cena pretplate" → [0.2, 0.8, ...] Vektorska baza v1 [0.2, 0.8, -0.3...] v2 [0.7, 0.1, 0.9...] v3 [0.3, 0.7, -0.1...] najbliži Semantički sličan sadržaj čak i ako reči nisu identične "mesečna naknada" = isti rezultat ✓
Popularna rešenja: Pinecone Weaviate Qdrant pgvector
19

AI agenti

AI Agents
AI sistemi
Dosad smo govorili o modelima koji generišu tekst. Šta ako bi model mogao da i preduzima akcije?
Agent veštačke inteligencije je u osnovi jezički model koji može da preduzima akcije, ne samo da odgovara.
Umesto da se zaustavi na odgovoru, može da interaguje sa alatima, pokreće kod, pretražuje informacije, poziva API-je i kombinuje ove korake da bi završio zadatak.
Drugim rečima, prelazi sa razmišljanja na delovanje!

Agent radi u petlji: gleda situaciju → odlučuje → preduzima akciju → gleda rezultat → ponavlja.
Zamislite asistenta za kodiranje koji radi na grešci.
On čita problem, istražuje bazu koda, identifikuje gde stvari možda kreću naopako, piše ispravku, pokreće testove, vidi šta ne uspeva, a zatim prilagođava rešenje dok sve ne funkcioniše.
Svaki korak zavisi od prethodnog, a model se stalno prilagođava kako nove informacije pristižu.
Ovo je moćno, ali je to i mesto gde stvari postaju komplikovane.
Svaki korak ima šansu da krene naopako, a te male greške se mogu akumulirati.
Zadatak koji izgleda jednostavno može postati nepouzdan kada uključuje više odluka zaredom.

Zato izgradnja dobrih agenata nije samo u tome da ih učinimo sposobnim.
Već u tome da ih učinimo pouzdanim.
LLM Agent odlučuje šta sledeće 🔍 Web pretraga 💻 Pokret. koda 📡 API pozivi 📁 Čitanje fajlova ✉ Slanje mejlova 📊 Baza podataka Petlja: opažaj → odluci → deluj → ponovi
Primeri: Claude Code, Devin, AutoGPT, custom Langchain/CrewAI agenti
20

Difuzioni modeli

Diffusion Models
AI sistemi
Difuzioni modeli stoje iza modernih generatora slika (Midjourney, DALL-E, Stable Diffusion). Ideja je kontraintuitivna: umesto da nauči da kreira slike direktno, model najpre nauči da ih uništi — postepeno dodaje šum dok slika ne postane statički šum. Zatim uči obrnuti proces.

Generisanje: počni od čistog šuma i korak po korak uklanjaj šum, vođen promptom, dok ne nastane slika. Naziv "difuzija" dolazi iz fizike — rastakanje čestica u tečnosti. Isti princip se koristi i za video, audio, 3D sadržaj i naučne primene (proteini, molekuli).
Čisti šum Oblici Detalji Gotova slika ✓ Prompt vodi svaki korak "ljubičasta pečurka noću"
Midjourney, DALL-E, Stable Diffusion, Sora (video) — svi koriste ovaj princip