20 najvažnijih AI koncepata

01

Neuronske mreže

Neural Networks

Osnova

Neuronska mreža je sistem povezanih slojeva koji se sastoje od malih jedinica zvanih neuroni. Podaci ulaze kroz ulazni sloj, prolaze kroz skrivene slojeve i izlaze kao predikcija.

Ali šta se zapravo dešava unutra?

Jednostavan način da se ovo razume jeste da se zamisli korak-po-korak usavršavanje. Isti ulaz se obrađuje iznova i iznova i sa svakim slojem, model ga razume malo bolje.

Na primer, u modelu slike:
Prvi slojevi mogu detektovati jednostavne stvari poput ivica ili tekstura.
Srednji slojevi počinju da prepoznaju oblike ili obrasce.
A dublji slojevi mogu identifikovati stvarne objekte.
To je kao prelazak sa piksela → oblici → značenje.

Evo sada važnog dela…
Svaka veza između neurona ima tzv. težinu (weight)
Težine možete smatrati malim „rezultatima važnosti“ koji odlučuju koliko jedan neuron treba da utiče na drugi.
A treniranje neuronske mreže?
U osnovi je to proces podešavanja ovih težina iznova i iznova dok god model ne počne da daje tačne rezultate. I tu stvari postaju lude. Moderni modeli veštačke inteligencije, posebno modeli velikih jezika (LLM), nemaju samo nekoliko težina. Imaju ih milijarde. Svi rade zajedno kako bi pretvorili sirove ulazne podatke u nešto što zaista ima smisla.

Ulazni podaci Skriveni slojevi (obrada) Izlaz (predikcija) Jedna težina (weight)

02

Transfer učenje

Transfer Learning

Osnova

Umesto da treniramo model od nule (što je skupo i sporo), uzimamo već unapred istreniran model i prilagođavamo ga za specifičan zadatak. Model je već naučio opšte obrasce — uči brže sa znatno manje podataka.

Analogija: ako znaš da voziš bicikl, učenje vožnje motocikla je mnogo lakše — ne počinješ od nule. Upravo ovako funkcioniše većina savremenog AI-ja — velike kompanije treniraju foundation modele jednom, a developeri ih adaptiraju za specifične slučajeve.

Transfer learning = gradnja na tuđim temeljima

03

Tokenizacija

Tokenization

Transformer

Pre nego što model može da razume tekst, mora da ga razbije na manje delove zvane tokeni. Token nije uvek cela reč — može biti deo reči, cela reč ili čak nekoliko reči zajedno.

Zašto ne koristiti cele reči? Jezik je haotičan — stalno se pojavljuju nove reči, greške u kucanju, mešanje jezika. Tokenizacija rešava ovo čuvanjem fiksnog skupa gradivnih blokova. Čak i nepoznatu reč model može da "shvati" razbijanjem na poznate delove.
Zato veštačka inteligencija ne čita tekst onako kako to ljudi rade. Ona čita tokene i iz tih tokena korak po korak gradi značenje.

Ko kroji ove jezičke kockice?
Veličinu i oblik tokena ne izmišlja model u hodu, niti ih ljudi unose ručno.
Njih određuje kreator modela (poput kompanija OpenAI, Meta ili Google) i to pre nego što sama veštačka inteligencija uopšte počne da uči jezik.
Proces se odvija u dva koraka:

Zadaje se veličina rečnika: Kreatori modela unapred postave fiksno pravilo, na primer:"Naš model će imati rečnik od tačno 50.000 jedinstvenih tokena."
Pušta se statistički algoritam: Specijalan program (tokenizator) dobija zadatak da pročešlja ogromnu bazu tekstova sa interneta i sam pronađe idealne gradivne blokove dok ne popuni taj rečnik.

Kako algoritam „secka“ tekst?
Algoritam razmišlja isključivo kroz statistiku i matematiku, pronalazeći zlatnu sredinu između pojedinačnih slova i celih reči.
Najčešće se koristi metoda koja kreće od najsitnijih delova i gradi rečnik „odozdo nagore“:

Sve počinje od slova: Na samom početku, rečnik čine samo osnovni znaci – pojedinačna slova, brojevi i znakovi interpunkcije.
Traženje najčešćih parova: Algoritam zatim skenira milione stranica teksta i posmatra koji se delovi najčešće pojavljuju zajedno. Ako primeti da se slova p, r i i stalno ponavljaju jedno uz drugo, on ih spaja u jedinstven token: pri.
Građenje većih celina: U sledećem krugu vidi da se taj token pri veoma često vezuje za nastavak prema, pa kreira novi, veći token: priprema.
Gde je granica? Ovaj proces spajanja se ponavlja sve dok se ne popuni onih 50.000 mesta u rečniku. Reči koje se koriste stalno (poput „kako“, „zato“, „program“) postaće celi tokeni. Retke ili složene reči ostaće podeljene na manje komadiće.

Večita klackalica: Veliki ili mali rečnik?
Kreiranje rečnika je igra kompromisa. Ako je rečnik previše mali, model mora da koristi sitne tokene (slova i slogove). Zbog toga mu za jednu običnu rečenicu treba ogroman broj tokena, što usporava rad i troši njegovu memoriju.
Ako je rečnik previše veliki, model može da guta cele rečenice i fraze odjednom, što ga čini brzim. Međutim, tada sam rečnik postaje ogroman teret za memoriju računara, a veštačka inteligencija teže pamti značenje reči koje se retko pojavljuju.

Zanimljivost: Porez na jezik
Pošto su ovi algoritmi uglavnom trenirani na tekstovima sa engleskog govornog područja, engleske reči su skoro uvek jedan token (npr. computer). Sa druge strane, reči iz bogatijih i ređih jezika poput srpskog, algoritam mora da secka na više delova (npr. ra-ču-nar-i-ma). Zbog toga modeli troše više „snage“ (i memorije) kada komuniciraju na našem jeziku nego na engleskom.

Cela reč → jedan token Reč razbijena na podtokene

04

Vektorske reprezentacije (Ugnježdeni vektori ili embedinzi)

Embeddings

Transformer

Nakon tokenizacije, svaki token se pretvara u vektor — listu brojeva koja predstavlja njegovo značenje. Zamislite to kao mapu: svaka reč dobija poziciju (ugnježduje se) u prostoru. Slične reči su blizu jedna drugoj, a potpuno različite su daleko.

Model ne razume jezik kao čovek. Razume ga kroz rastojanje i pravac — organizujući reči u prostoru gde odnosi postaju geometrija. Na primer, razlika između "glumac" i "glumica" je slična razlici između "princ" i "princeza", dok bi „doktor“ i „planina“ bili mnogo dalje.

Kao što je već gore napisano model ne razume jezik kao mi. Ne razmišlja u definicijama ili pravilima. Umesto toga, razume značenje kroz udaljenost i pravac organizujući reči u prostoru gde odnosi postaju geometrija.

Reči sa sličnim značenjem gravitiraju jedna prema drugoj u vektorskom prostoru

05

Mehanizam pažnje

Attention

Transformer

Značenje reči nije fiksno — zavisi od konteksta. Reč "Apple" može biti voće ili kompanija. Vektorske reprezentacije (Embeddings) daju fiksne reprezentacije, ali attention omogućava svakoj reči da "pogleda" sve ostale i odluči šta je važno.

U rečenici "Kupila je akcije Applea", model obraća više pažnje na reči poput "akcije" i "kupila" — pa zaključuje da se radi o kompaniji, ne o voću. Model više ne čita reč po reč: gleda celu rečenicu odjednom. Upravo ova ideja je otvorila vrata modernom AI-ju.

Pre toga, modeli su obrađivali tekst korak po korak, s leva na desno, često propuštajući dugoročne veze.
Pažnja (attention) je to promenila tako što je modelu omogućila da vidi celu sliku i razume kako je sve povezano.

Srednja pažnja (0.42) Visoka pažnja (0.81) — ključna veza

06

Transformer arhitektura

Transformer

Transformer je arhitektura koja pokreće gotovo sve moderne AI sisteme. Uveden 2017. radom "Attention Is All You Need" — umesto obrade teksta reč po reč, attention postaje centralni mehanizam, i model gleda sve odjednom.

Transformer se gradi slaganjem više slojeva pažnje (attention) zajedno sa jednostavnim blokovima za obradu.
Kako se informacije kreću kroz ove slojeve, one se korak po korak usavršavaju.
Rani slojevi hvataju gramatiku i strukturu, dublji slojevi odnose između ideja, a najdublji složeno rezonovanje. Ključna prednost: sve se obrađuje paralelno — drastično brže od starih sekvencijalnih pristupa, i GPU-friendly.
Šta to znači?
Stariji modeli su morali da čitaju tekst sekvencijalno, reč po reč.
To ih je činilo sporim i ograničenim u obimu konteksta koji su mogli da obrade.
Transformersi nemaju taj problem.
Oni obrađuju sve tokene paralelno, što ih čini mnogo bržim i omogućava im skaliranje do ogromnih veličina koristeći moderni hardver poput grafičkih procesora (GPU).
Zato se modeli poput GPT, Claude, Gemini i Llama oslanjaju na ovu arhitekturu.

Dakle, ceo proces izgleda ovako:

Tekst se razbija na tokene.
Tokeni se pretvaraju u vektore.
A transformerski slojevi koriste pažnju (attention) da bi razumeli kako se sve povezuje.

Taj jednostavan tok je ono što pokreće većinu veštačke inteligencije koju danas koristite.

GPT, Claude, Gemini, Llama — sve koriste transformer arhitekturu

07

Veliki jezički model

LLM — Large Language Model

Transformer

LLM je transformer treniran na ogromnoj količini teksta — knjige, veb sajtovi, kod, i još mnogo toga. Cilj tokom treninga je iznenađujuće jednostavan: predvidi sledeći token.

Zvuči gotovo previše jednostavno (banalno) da bi bilo moćno.
Ali kada ponovite ovaj proces na trilionima primera, dešava se nešto zanimljivo.
Model počinje da prihvata obrasce u jeziku.
Uči kako su rečenice strukturirane, kako se ideje povezuju, pa čak i kako teče rasuđivanje.
Vremenom, ovo počinje da liči na razumevanje iako je zapravo samo učenje obrazaca u velikim razmerama.
Zato ovi modeli mogu da rade stvari poput: pisanja koda, odgovaranja na pitanja, prevođenja jezika ili objašnjavanja složenih tema čak i ako nikada nisu eksplicitno obučeni za te tačne zadatke.
"Veliki" u modelu velikog jezika odnosi se na broj parametara.
Ovo su interne vrednosti koje model uči tokom obuke, a moderni modeli imaju stotine milijardi njih.
Obuka nečega u toj razmeri nije jeftina. Potrebno je ogromno računarstvo i često košta milione dolara.
Ali rezultat je sistem koji može da generalizuje na širok spektar problema i generiše iznenađujuće korisne rezultate.
Dakle, kada koristite alate poput ChatGPT-a, Claude-a, Grok-a, Gemini-ja ili druge, vi zapravo interagujete sa modelom koji je naučio jezik radeći jednu jednostavnu stvar iznova i iznova, predviđajući šta sledi.

Cela "inteligencija" LLM-a nastala je ponavljanjem jednog zadatka: predvidi sledeći token

08

Kontekstni prozor

Context Window

Arhitektura

Svaki model ima ograničenje koliko informacija može da "pamti" odjednom — to je kontekstni prozor.
Odnosi se na maksimalan broj tokena koje model može da obradi u jednoj interakciji, uključujući i ono što vi pišete i ono što model generiše kao odgovor.
Jednostavno rečeno, to je kao kratkoročna radna memorija modela.
U ranijim modelima, ova memorija je bila prilično mala.
Na primer, rane verzije GPT-a mogle su da obrade samo nekoliko hiljada tokena istovremeno.
To je značilo da bi dugi razgovori brzo gubili trag ranijih detalja, a veliki dokumenti su morali da se skraćuju ili dele.
Ali stvari su se mnogo promenile.
Moderni modeli mogu da obrade mnogo veće kontekste.
Neki mogu da obrade cele knjige, duge razgovore ili velike delove koda odjednom. To ih čini mnogo korisnijim za zadatke iz stvarnog sveta gde je kontekst zaista važan.

Ali postoji zamka:
Veći kontekstni prozor ima svoju cenu.
Potrebno mu je više memorije, više računarskih resursa i često dovodi do sporijeg odziva.
Dakle, iako je veći u teoriji bolji, on takođe čini sistem težim i skupljim za rad.
Čak i sa velikim kontekstnim prozorima, postoji još jedno suptilno ograničenje.
Model ne tretira sve delove podjednako.
Tendencija je da se više fokusira na početak i kraj, dok informacije u sredini mogu biti previđene — tzv. "lost in the middle" problem.
Dakle, iako kontekstni prozori postaju veći i bolji...oni i dalje nisu savršeni.
Razumevanje ovoga pomaže da se objasni zašto model ponekad "zaboravi" stvari koje ste ranije jasno pomenuli.

Saveti: najvažnije informacije stavi na početak ili kraj konteksta

09

Temperatura

Temperature

Generisanje

Kada model generiše tekst, izračunava verovatnoće za svaki sledeći token. Temperatura kontroliše koliko je taj izbor "strog" ili "kreativan".

Niska temperatura (0.1–0.4): model gotovo uvek bira najverovaniji token — predvidljivo, tačno, fokusirano. Dobro za kod i sažetke. Visoka temperatura (0.8–1.5): model istražuje manje verovatne opcije — kreativno, raznovrsno, ali ponekad nekoherentno.

Niska temp — model "igra na sigurno" Visoka temp — model "istražuje"

10

Halucinacija

Hallucination

Ograničenje

Model ponekad daje odgovor koji zvuči sasvim pouzdano — ali je netačan. Možda izmisli studiju koja ne postoji, API koji nikad nije napravljen, ili prezentuje izmišljenu činjenicu kao da je svima poznata.

Zašto se to dešava? Jer model ne pokušava da kaže istinu — pokušava da generiše najverovatniji sledeći tekst. Ako lažna tvrdnja "zvuči" kao dobar nastavak, model je generiše sa punim samopouzdanjem. Zbog toga nikad ne treba slepo verovati outputu, posebno za činjenice, kod i važne odluke.
Zato mnogi sistemi danas pokušavaju da smanje ovaj problem tako što model zasnivaju na stvarnim podacima, na primer, povezujući ga sa pouzdanim dokumentima ili tražeći od njega da navede izvore kada je to moguće.
Na kraju krajeva, model je neverovatno dobar u tome da zvuči ispravno. 😇
Ali i dalje mu je potreban čovek (vi) da proveri da li je zaista tačan.

Rešenje: RAG (koncept #17) — model pretražuje stvarne dokumente umesto da se oslanja na "pamćenje"

11

Fino podešavanje

Fine-Tuning

Treniranje

Fine-tuning je nastavak treninga na manjem, fokusiranom datasetu. Model već razume opšti jezik, pa ga vodiš u specifičnom pravcu — npr. treniraš ga na pravnim dokumentima da postane pravni asistent.
Zamislite to kao (sub)specijalizaciju.

Podrazumeva ažuriranje velikog dela parametara modela, što zahteva ozbiljnu infrastrukturu. Snažan alat, ali skup. Alternativa sa manjim troškovima: LoRA (koncept #13).

Fine-tuning ≠ "preprogramiranje" — model pamti staro znanje i dodaje novo

12

Učenje uz ljudsku povratnu informaciju

RLHF — Reinforcement Learning from Human Feedback

Treniranje

RLHF objašnjava zašto moderni AI asistenti zvuče korisno, ljubazno i konverzacijski. Bez njega, model bi samo nastavljao obrasce — nije nužno koristan ili bezbedan.

Proces: model generiše više odgovora na isti prompt, ljudi procenjuju koji su bolji, jasniji, bezbedniji. Model tokom vremena uči da favorizuje odgovore koje ljudi preferiraju — razvija "osećaj" za dobar odgovor. Ovo je razlog zašto ChatGPT, Claude i Gemini osećaju drugačije od ranijih chatbotova.

RLHF + srodne tehnike (RLAIF, Constitutional AI) = ono što čini AI asistente korisnim

13

Niskorangovna adaptacija

LoRA — Low-Rank Adaptation

Treniranje

Fine-tuning ažurira milijarde parametara — skupo i teško. LoRA je pametniji pristup: originalni model ostaje zamrznut, a dodaju se mali, trenabilni moduli na vrh. Ti dodaci su minijaturni — ispod 1% ukupnih parametara.
Ideja koja stoji iza ovoga je iznenađujuće pametna.
Kada fino podešavate model, većina promena zapravo ne zahteva ažuriranja pune veličine.
Mogu se aproksimirati mnogo manjim transformacijama.
LoRA to koristi i beleži te promene na kompaktan način.

Ono što bi zahtevalo više skupih GPU-ova sada može da se uradi na jednoj mašini. Umesto čuvanja više punih kopija modela, čuvaš samo LoRA adaptere i menjaš ih po potrebi za različite zadatke.

LoRA je razlog zašto danas možeš lokalno da fine-tuneš Llamu na laptopa

14

Kvantizacija

Quantization

Optimizacija

Modeli su veliki i zahtevaju puno memorije. Kvantizacija smanjuje model tako što čuva težine koristeći manje bitova — model zauzima manje prostora, brže se učitava i jeftinije se pokreće, uz minimalni gubitak kvaliteta.
Drugim rečima, u modelu pune preciznosti, svaka težina se čuva korišćenjem velikog broja bitova.
Kvantizacija ponekad značajno smanjuje tu veličinu, što znači da ceo model zauzima mnogo manje memorije.
Ideja je jednostavna: koristite manju preciznost, ali zadržite većinu korisnih informacija.
Kada smanjite veličinu svake težine, uticaj se brzo akumulira. Model koji bi normalno zahtevao ogromne količine memorije može iznenada postati dovoljno mali da bi radio na pristupačnijem hardveru.
I iznenađujuće, pad kvaliteta je često mnogo manji nego što biste očekivali, posebno sa umerenim nivoima kvantizacije.
Ovo je jedan od ključnih razloga zašto veliki modeli postaju praktičniji.
Kada vidite ljude koji pokreću moćne modele na desktop grafičkom procesoru ili čak laptopu, oni obično ne koriste punu verziju.
Oni koriste kvantizovanu verziju koja je kompresovana da bi se uklopila u ograničenja stvarnog sveta.
Jednostavno rečeno, kvantizacija je ono što pomaže da se veliki modeli veštačke inteligencije izbace iz masivnih centara podataka...

Formati poput GGUF i AWQ su standard za lokalno pokretanje LLM-ova.

8× manja memorija, uz manje od 5% pada u kvalitetu outputa za većinu zadataka

15

Inženjering promptova

Prompt Engineering

Promptovanje

Način na koji postavljaš pitanje jako utiče na odgovor. Inženjering promptova je veština oblikovanja inputa da dobijete korisni, fokusirani output.

"Objasni API-je" → opširan, površan odgovor. "Objasni kako REST API-ji rukuju autentifikacijom sa konkretnim primerom" → precizan, koristan odgovor. Dobar prompt nije kompleksan — on je jasan i specifičan: definiši ulogu, daj primere, naznači format, odredi ton.

Prompt engineering je primarni način komunikacije sa modelom — vredi uložiti vreme da se nauči

16

Lanac razmišljanja

Chain of Thought — CoT

Promptovanje

Ponekad model daje loš odgovor ne zato što ne zna, već zato što žuri ka odgovoru. Chain of Thought je pristup u kome ohrabrujemo model da reši problem u međukoracima — umesto da odmah skače na zaključak.

Umesto da traži samo finalni odgovor, model dobija "prostor za skicu". Za matematiku, logiku i višekoračno rezonovanje, ova mala promena može drastično poboljšati tačnost. Dovoljno je dodati: "razmisli korak po korak".

Moderni reasoning modeli (o1, o3, R1) automatski primenjuju CoT interno

17

Generisanje uz pretragu

RAG — Retrieval-Augmented Generation

AI sistemi

RAG je jedan od najpraktičnijih načina borbe protiv halucinacija. Umesto da se oslanja samo na ono što je naučio tokom treninga, model dobija pristup stvarnim, relevantnim informacijama u trenutku odgovaranja. Na primer, zamislite da pravite asistenta za podršku.
Kada neko pita o cenama ili politikama, sistem ne pogađa.
Prvo izvlači najnovije informacije iz vaših internih dokumenata, a zatim model to objašnjava na jasan i prirodan način.
Ono što ovaj pristup čini moćnim jeste podela uloga.
Model se fokusira na razumevanje pitanja i objašnjenje odgovora.
Baza znanja pruža stvarne činjenice.
I to ima veliku prednost.

Ključna prednost: ako se informacije promene, ne treba ponovo trenirati model — samo ažuriraš dokumenta, i sistem odmah koristi nove podatke.
Jednostavno rečeno, RAG pretvara model od nečega što pamti...u nešto što može da čita, verifikuje i reaguje u realnom kontekstu.
RAG je osnova gotovo svakog poslovnog AI asistenta danas.

RAG = model "čita" pre nego što "odgovori" — umesto da se oslanja na memoriju

18

Vektorska baza podataka

Vector Database

AI sistemi

RAG mora nekako da pronađe pravu informaciju — a tu dolazi vektorska baza. Čuva vektorske reprezentacije (ranije pomenute embeddings ili numeričke reprezentacije značenja) umesto čistog teksta. Kada korisnik postavi pitanje, i to pitanje se pretvara u vektorsku reprezentaciju (embeding), a sistem traži semantički najsličnije sadržaje.
Evo kako to izgleda u praksi.
Vaši dokumenti se prvo dele na manje delove, a svaki deo se konvertuje u vektorsku reprezentaciju (embeding).
Ovo (vektorska reprezentacija) se zatim čuva u bazi podataka.
Kada korisnik postavi pitanje, taj upit se takođe pretvara u vektorsku reprezentaciju (embeding).
Sistem zatim traži sačuvane vektore koji su mu najbliži, što znači najsličniji po značenju, i vraća ih kao kontekst.

Ono što je moćno kod ovoga je koliko se razlikuje od tradicionalne pretrage.
Ako pretražujete koristeći tačne ključne reči, možete propustiti relevantne informacije samo zato što je formulacija drugačija.
Ali sa vektorskom pretragom, sistem i dalje može pronaći pravi sadržaj jer razume nameru koja stoji iza reči, a ne samo same reči.
To je ono što čini RAG tako dobrim.
Model ne samo da preuzima tekst, već preuzima najrelevantnije značenje.
Popularna rešenja: Pinecone, Weaviate, Qdrant, pgvector, pa čak i PostgreSQL sa ekstenzijama koje podržavaju upite zasnovane na vektorima.

Popularna rešenja: Pinecone Weaviate Qdrant pgvector

19

AI agenti

AI Agents

AI sistemi

Dosad smo govorili o modelima koji generišu tekst. Šta ako bi model mogao da i preduzima akcije?
Agent veštačke inteligencije je u osnovi jezički model koji može da preduzima akcije, ne samo da odgovara.
Umesto da se zaustavi na odgovoru, može da interaguje sa alatima, pokreće kod, pretražuje informacije, poziva API-je i kombinuje ove korake da bi završio zadatak.
Drugim rečima, prelazi sa razmišljanja na delovanje!

Agent radi u petlji: gleda situaciju → odlučuje → preduzima akciju → gleda rezultat → ponavlja.
Zamislite asistenta za kodiranje koji radi na grešci.
On čita problem, istražuje bazu koda, identifikuje gde stvari možda kreću naopako, piše ispravku, pokreće testove, vidi šta ne uspeva, a zatim prilagođava rešenje dok sve ne funkcioniše.
Svaki korak zavisi od prethodnog, a model se stalno prilagođava kako nove informacije pristižu.
Ovo je moćno, ali je to i mesto gde stvari postaju komplikovane.
Svaki korak ima šansu da krene naopako, a te male greške se mogu akumulirati.
Zadatak koji izgleda jednostavno može postati nepouzdan kada uključuje više odluka zaredom.

Zato izgradnja dobrih agenata nije samo u tome da ih učinimo sposobnim.
Već u tome da ih učinimo pouzdanim.

Primeri: Claude Code, Devin, AutoGPT, custom Langchain/CrewAI agenti

20

Difuzioni modeli

Diffusion Models

AI sistemi

Difuzioni modeli stoje iza modernih generatora slika (Midjourney, DALL-E, Stable Diffusion). Ideja je kontraintuitivna: umesto da nauči da kreira slike direktno, model najpre nauči da ih uništi — postepeno dodaje šum dok slika ne postane statički šum. Zatim uči obrnuti proces.

Generisanje: počni od čistog šuma i korak po korak uklanjaj šum, vođen promptom, dok ne nastane slika. Naziv "difuzija" dolazi iz fizike — rastakanje čestica u tečnosti. Isti princip se koristi i za video, audio, 3D sadržaj i naučne primene (proteini, molekuli).

Midjourney, DALL-E, Stable Diffusion, Sora (video) — svi koriste ovaj princip

20 najvažnijih
AI koncepata

Osnove

Neuronske mreže

Transfer učenje

Transformer stack

Tokenizacija

Vektorske reprezentacije (Ugnježdeni vektori ili embedinzi)

Mehanizam pažnje

Transformer arhitektura

Veliki jezički model

Kontekstni prozor

Temperatura

Halucinacija

Treniranje i optimizacija

Fino podešavanje

Učenje uz ljudsku povratnu informaciju

Niskorangovna adaptacija

Kvantizacija

Promptovanje i rezonovanje

Inženjering promptova

Lanac razmišljanja

Izgradnja AI sistema

Generisanje uz pretragu

Vektorska baza podataka

AI agenti

Difuzioni modeli