Obecnie dla jednego z naszych Klientów poszukujemy osób na stanowisko Site Reliability Engineer.
Osoba na tym stanowisku weźmie realną odpowiedzialność za niezawodność aplikacji i pipeline’ów opartych o AI. To nie jest rola “ticketowa” ani tylko koncepcyjna – szukamy osoby hands-on, która sama diagnozuje, naprawia i automatyzuje, a nie tylko projektuje rozwiązania dla innych.
Rola łączy:
- odpowiedzialność za operacyjną stabilność systemów AI,
- budowę operacyjnego “control tower” (monitoring, alerting, KPI),
- oraz aktywną pracę inżynierską przy realnych problemach produkcyjnych.
Najważniejsze cechy:
- Proaktywność i samodzielność – identyfikowanie problemów, ryzyk oraz obszarów do usprawnień bez potrzeby bardzo szczegółowych instrukcji
- Owner mindset – traktowanie stabilności systemów jako odpowiedzialności end‑to‑end
- Hands‑on approach – regularna, praktyczna praca z klastrami, pipeline’ami, monitoringiem oraz kodem
- AI‑native mindset – codzienne, intensywne korzystanie z narzędzi AI (Copilot, LLM‑y, automatyzacja, analizy, debugowanie, dokumentacja) oraz rozumienie wpływu AI na sposób budowy i utrzymania systemów
- Elastyczność środowiskowa – komfortowe funkcjonowanie w dynamicznym otoczeniu o nie w pełni dojrzałych procesach
Zakres obowiązków
- Budowa i utrzymanie centralnego operacyjnego “control tower” dla aplikacji i pipeline’ów AI
- Projektowanie i wdrażanie monitoringu, alertów i dashboardów (sygnały, progi, routing, runbooki)
- Incident response: triage, koordynacja, root cause analysis, post‑mortems i działania prewencyjne
- Standaryzacja telemetrii pipeline’ów (success/failure, latency, throughput, bottlenecks)
- Optymalizacja CI/CD – jakość releasów, testy automatyczne, reliability gates
- Współpraca z zespołami engineeringowymi w celu zmniejszenia liczby powtarzalnych incydentów
Wymagania:
- 5+ lat doświadczenia jako SRE / Production / Platform Engineer
- Realne doświadczenie w środowiskach produkcyjnych
- Bardzo dobra znajomość incident management i RCA
- Umiejętność budowania praktycznego, a nie teoretycznego monitoringu
- Azure DevOps – Boards, Repos, Pipelines
- Kubernetes – troubleshooting, scaling, operacje produkcyjne
- Datadog – metrics, logs, dashboardy, alerting
- Azure Portal – operacje środowiskowe i konfiguracja
- CI/CD – optymalizacja pipeline’ów, testy, quality gates
-
(Nice to have) Grafana
Preferowane
- Doświadczenie z AI / LLM pipelines i ich obserwowalnością
- Budowa multi‑app monitoring platforms
- Praca w skalowanych środowiskach Kubernetes (AKS lub podobne)
Oferta:
- Forma współpracy: B2B
- Stawka: 150 - 155 PLN/H
- Tryb: 100% zdalny