Principi održavanja kontinuiteta servisa
Operativne prakse, upravljanje incidentima, analiza stabilnosti i najbolje metode Site Reliability Engineering (SRE) pristupa.
Temeljni principi Site Reliability Engineering
SLI (Service Level Indicator): Metrički pokazatelj kvalitete servisa
SLO (Service Level Objective): Ciljna vrijednost SLI-ja
SLA (Service Level Agreement): Ugovorni sporazum o razini servisa
Dopuštena količina grešaka unutar SLO perioda. Balans između inovacije i stabilnosti. Ako je budget iscrpljen, fokus na pouzdanost.
Prognoziranje potreba za resursima. Analiza trendova rasta, planiranje infrastrukture, prevencija iscrpljenja kapaciteta.
Kontrolirani proces uvođenja promjena. Review, testing, postupni rollout, mogućnost brzog povratka (rollback).
Strukturiran pristup rješavanju incidenata. On-call rotacije, eskalacijski postupci, komunikacijski protokoli, post-mortem analiza.
Sposobnost razumijevanja stanja sustava kroz vanjske outpute. Logs, metrics, traces - tri stupa observability-a.
Klasifikacija i upravljanje incidentima
Opis: Potpuni pad servisa, gubitak podataka, sigurnosna prijetnja
Response Time: Odmah (< 5 min)
Eskalacija: Svi relevantni timovi
Primjer: Database corruption, complete outage, data breach
Opis: Značajan utjecaj na korisnike, degradirane performanse
Response Time: < 15 min
Eskalacija: Primarni tim + manager
Primjer: API latency spike, partial service degradation
Opis: Ograničen utjecaj, alternativna rješenja dostupna
Response Time: < 1 sat
Eskalacija: Primarni tim
Primjer: Non-critical feature malfunction, minor UI issues
Opis: Minimalni ili bez utjecaja na korisnike
Response Time: Sljedeći radni dan
Eskalacija: Ne zahtijeva
Primjer: Cosmetic bugs, documentation errors, feature requests
Metrike pouzdanosti i dostupnosti
Uptime: Postotak vremena kada je servis operativan
99.9% (3 nines): ~8.76 sati downtime godišnje
99.99% (4 nines): ~52.6 minuta downtime godišnje
99.999% (5 nines): ~5.26 minuta downtime godišnje
MTBF (Mean Time Between Failures): Prosječno vrijeme između kvarova
MTTR (Mean Time To Repair): Prosječno vrijeme potrebno za popravak
MTTF (Mean Time To Failure): Prosječno vrijeme do prvog kvara
MTTA (Mean Time To Acknowledge): Vrijeme do priznanja incidenta
Latency: P50, P95, P99 percentile response times
Throughput: Requests per second (RPS)
Error Rate: Postotak neuspješnih zahtjeva
Saturation: Iskorištenost kapaciteta resursa
Historical Data: Analiza povijesnih trendova
Seasonality: Prepoznavanje sezonskih uzoraka
Anomaly Detection: Identifikacija odstupanja
Forecasting: Predviđanje budućih potreba
Smanjenje ručnog rada i povećanje efikasnosti
Terraform, Ansible, CloudFormation. Deklarativna konfiguracija infrastrukture, version control, reproducibilnost.
Automatizacija build, test, deploy procesa. Jenkins, GitLab CI, GitHub Actions. Blue-green deployments, canary releases.
Centralizirano upravljanje konfiguracijama. Consul, etcd, ConfigMaps. Dynamic configuration updates bez restarta.
Automatsko skaliranje resursa prema opterećenju. Horizontal Pod Autoscaler (HPA), AWS Auto Scaling Groups.
Kubernetes liveness/readiness probes. Automatski restart failed komponenti, health check driven recovery.
Runbook automation. Automatsko izvršavanje korektivnih akcija za poznate probleme. Smanjenje MTTR-a.
Učenje iz incidenata i kontinuirano poboljšanje
Blameless pristup analizi incidenata fokusiran na sistemske probleme, ne na individualne greške.
Datum, trajanje, utjecaj na korisnike, severity level, involvirani servisi.
Kronološki prikaz detekcije, dijagnoze, akcija i rješenja incidenta.
Dubinska analiza temeljnog uzroka. "5 Whys" tehnika, fishbone dijagrami.
Konkretni koraci za prevenciju ponavljanja. Assigned owners, deadlines, prioriteti.