Inżynieria · Mid / Senior · B2B / UoP
Programista LLM (Mid/Senior)
Budujesz warstwę AI w rozwiązaniach naszych klientów. Fine-tuning modeli, RAG, embedding pipelines, optymalizacja inference. Python + Rust + GPU.
📍 Warszawa / zdalnie
💰 18-28 tys. zł / mies. B2B 👤 raportowanie: Dyrektor Techniczny
Szukamy programisty, który zbuduje serce naszego produktu — engine LLM uruchamiany lokalnie na sprzęcie u klienta. To nie jest "research" — to inżynieria działająca w produkcji 24/7 u rzeczywistych firm.
Za co odpowiadasz
- Tworzenie i utrzymanie pipeline fine-tuningu modeli open-source.
- Budowa RAG na bazach 100k+ dokumentów per klient.
- Optymalizacja inference: vLLM, TensorRT-LLM, ExLlama, AWQ/GPTQ.
- Integracja modeli komercyjnych i lokalnych w jednym workflow.
- Architektura multi-tenancy (klient nie widzi danych innego klienta).
- Monitoring + alerting + auto-rollback przy degradacji jakości.
Czego od Ciebie wymagamy
- 3+ lat Pythona produkcyjnie.
- Doświadczenie z PyTorch / Transformers / vLLM lub TGI.
- Praktyka z GPU memory management, CUDA podstawy.
- Linux + Docker + CI/CD na poziomie operacyjnym.
- Umiesz przeczytać paper z arXiv i wdrożyć technikę z niego w tydzień.
Mile widziane
- Rust (dla niskopoziomowych części pipeline).
- Doświadczenie z Qdrant / Weaviate / Milvus.
- Zbudowane kiedyś vector search od zera.
- Wkład w open-source AI tooling.
Co dostajesz od nas
- Pełen budżet GPU na eksperymenty (4× RTX 4090 w biurze + cloud A100).
- Konferencje (NeurIPS, MLSys, EuroLLM).
- Multisport + prywatka.
- 4-dniowy tydzień co 2 miesiące (zarząd ma takie samo).
- Code review z founderem osobiście.