AI/ML inženjer sa iskustvom u produkcijskim sistemima

O poziciji

Ovo nije full-time pozicija. Tražimo proverene saradnike koje aktiviramo po projektu — kad imamo posao koji odgovara tvom profilu i tvom rasporedu. Saradnja se gradi na jednom projektu, a ako prvi prođe dobro, sledeći projekti dolaze prirodno.

Realan scenario: prvi razgovor traje 30 minuta. Ako se klikne, drugi razgovor je tehnički — pričamo o tvojim prethodnim AI sistemima u produkciji, kako rešavaš halucinacije, koliko košta poziv tvog modela. Ako te zovemo na pravi projekat, počinjemo sa manjim opsegom (2-4 nedelje) da oboje vidimo kako saradnja radi pre većih obaveza.

Šta ćeš raditi

Posao varira od projekta do projekta. Tipični zadaci uključuju:

- RAG sistemi nad klijentskim podacima — od ekstrakcije i chunking-a do retrieval strategije i evaluacije, sa pravim prioritetom „bez halucinacija" umesto „velika tačnost na demo upitima"
- Klasifikacija i obrada dokumenata — fakture, ugovori, e-mailovi, prijave; OCR + LLM pipeline-i sa human-in-the-loop strategijom za edge case-ove
- AI asistenti za korisničku podršku — od prompt inženjeringa do orkestracije alata, sa eskalacijom na čoveka kad model ne može
- Tehničke procene novih projekata — pomažeš da kažemo klijentu koliko nešto košta, koliko traje i da li je AI uopšte pravo rešenje
- Optimizacija troška API poziva — caching, model routing, batch processing, sve što razlikuje POC od sistema koji može da plati sebe u produkciji

Ne radimo „treniramo svoj LLM od nule" niti „dodaj GPT-4 dugme u admin panel jer klijent je čuo za AI". Projekti su praktični, sa merljivim rezultatom za 30 dana.

Šta tražimo

- 2+ godina rada na AI/ML sistemima u produkciji — ne samo Kaggle takmičenja, ne samo „učio sam LangChain prošlog meseca"
- Iskustvo sa LLM API-jima u produkciji — OpenAI, Anthropic, ili open-weight modeli; razumeš trade-off između latencije, cene i kvaliteta
- Razumevanje RAG arhitekture — embeddings, vektorske baze (pgvector, Pinecone, Weaviate), chunking strategije, evaluacija
- Razumevanje kada je RAG bolji od fine-tuninga, kada je oba pogrešno, i kada problem nije AI problem
- Python + iskustvo sa minimum jednim ML framework-om — PyTorch, scikit-learn, ili Hugging Face transformers
- Sposobnost tehničke procene — možeš da napišeš „ovo se može uraditi za X dana sa Y troškom po pozivu, sa očekivanom tačnošću Z"
- Komunikacija na engleskom — jasno objašnjavaš ne-tehničkim ljudima zašto AI nije magija i kako da merimo uspeh
- Remote disciplina — radiš samostalno, javljaš se na demo svake nedelje, eskaliraš probleme rano

Poželjno, ali ne presudno

- Iskustvo sa fine-tuningom otvorenih modela — LoRA, QLoRA, na konkretnim domenskim podacima
- Iskustvo sa orkestracijom — LangChain, LlamaIndex, ili custom rešenja kad framework-ovi postanu problem
- Iskustvo sa MLOps alatima — model versioning, monitoring drift-a, A/B testovi modela u produkciji
- Iskustvo sa OCR i obradom dokumenata — Tesseract, AWS Textract, Google Document AI
- Domenska iskustva — fintech, medtech, legaltech, e-commerce
- Doprinos open-source AI projektima ili objavljen tehnički sadržaj koji možeš da pokažeš

Šta dobijaš od saradnje sa nama

- Plaćanje na vreme i fer — cena se dogovara pre projekta, plaća po fakturi u dogovorenom roku
- Realni AI projekti, ne POC koji nikad ne stigne u produkciju — pre svakog projekta znaš obim, rok, cenu, klijenta
- Tehnički saradnik koji razume — nećeš objašnjavati zašto je 90% tačnost na demo upitima drugačije od 90% u produkciji, niti braniti odluku da prvo izmeriš pre nego što optimizuješ
- Saradnja koja se ponavlja — ako prvi projekat prođe dobro, sledeći se javlja za 3-6 meseci
- Bez AI buzzword salate — bez „blockchain + AI + Web3", bez „ovo mora da koristi AI jer je trend", bez prezentacija sa rečju „revolucionarno"

Prijavi se za ovu poziciju

Slanjem ove prijave slažeš se sa Politikom privatnosti i Uslovima korišćenja.