Telemetrija: Nadzor i Metrike

Prikupljanje i analiza metričkih signala

Sustavi prikupljanja podataka, obrade metrika i interpretacije signala za operativni uvid u stanje mrežne infrastrukture.

Dashboard Metrika

Primjer praćenja ključnih parametara u realnom vremenu

CPU Iskorištenost
45%
Normalno
Memorija
68%
Oprez
Promet Mreže
2.4 GB/s
Normalno
Latencija
12 ms
Odlično

Metrički Signali

Kategorije metrika i njihova primjena

📈 Performanse (Performance)

Throughput: Količina podataka prenesena u vremenskoj jedinici (Mbps, GB/s).
Latencija: Vrijeme potrebno za prijenos paketa od izvora do odredišta.
Jitter: Varijacija u kašnjenju između uzastopnih paketa.
Bandwidth: Maksimalni kapacitet prijenosnog kanala.

🔧 Resursi (Resources)

CPU Utilization: Postotak iskorištenosti procesora.
Memory Usage: Zauzeće RAM-a (dostupno, korišteno, cache).
Disk I/O: Operacije čitanja/pisanja na disk (IOPS).
Storage: Zauzeti i slobodni prostor na storage sustavima.

🌐 Mreža (Network)

Packet Loss: Postotak izgubljenih paketa tijekom prijenosa.
Error Rate: Učestalost grešaka u prijenosu.
Connection Count: Broj aktivnih TCP/UDP veza.
Interface Status: Stanje mrežnih sučelja (up/down).

✅ Dostupnost (Availability)

Uptime: Postotak vremena kada je servis dostupan.
Health Checks: Periodiči provjere stanja servisa.
SLA Metrics: Service Level Agreement praćenje.
MTBF/MTTR: Mean Time Between Failures / Mean Time To Repair.

Logika Indikatora

Pragovi, alarmi i kontekstualna interpretacija

🚦 Sustav Pragova (Threshold System)

Definiranje graničnih vrijednosti za detekciju anomalija i generiranje upozorenja.

✓ NORMAL
0-70% iskorištenosti
⚠ WARNING
70-85% iskorištenosti
✕ CRITICAL
85-100% iskorištenosti

🔔 Alarmni Mehanizmi

Static Thresholds: Fiksne granične vrijednosti.
Dynamic Thresholds: Automatska prilagodba na temelju povijesti.
Anomaly Detection: Machine learning za detekciju odstupanja.
Alert Correlation: Grupiranje povezanih alarma.

📊 Agregacija Podataka

Time-Series: Vremenske serije podataka.
Sampling: Periodičko uzorkovanje metrika.
Retention: Politike zadržavanja podataka.
Rollup: Agregacija podataka po vremenskim intervalima.

Alati za Nadzor

Tehnologije i platforme za prikupljanje telemetrije

📡

Prometheus

Open-source sustav za praćenje i alerting. Time-series baza, PromQL query jezik, pull-based model prikupljanja.

📊

Grafana

Platforma za vizualizaciju i analitiku. Dashboardi, grafikoni, podrška za multiple izvore podataka.

🔍

ELK Stack

Elasticsearch, Logstash, Kibana. Prikupljanje, indeksiranje i pretraživanje logova i event podataka.

🌊

Datadog

Cloud-native monitoring platforma. Integracije s cloud providerima, APM (Application Performance Monitoring).

📈

New Relic

Full-stack observability platforma. Praćenje aplikacija, infrastrukture, korisničkog iskustva.

Nagios

Open-source monitoring sustav. Praćenje servera, mrežnih uređaja, servisa s plugin arhitekturom.

Edukativni Primjeri

Praktične implementacije telemetrijskih sustava

🔧 Scenarij: Praćenje Web Servera

Praktičan primjer postavljanja metričkog sustava za Apache/Nginx server.

# Metrike koje prikupljamo:
• HTTP request rate (requests/sec)
• Response time (ms)
• Status code distribution (2xx, 3xx, 4xx, 5xx)
• Active connections
• Bandwidth usage (MB/s)
• CPU & Memory utilization
# Alarmni pragovi:
• Response time > 500ms → WARNING
• Response time > 1000ms → CRITICAL
• 5xx errors > 1% → WARNING
• CPU > 80% for 5min → WARNING

📊 Metrike Baze Podataka

• Query execution time
• Connection pool status
• Lock wait time
• Transaction rate
• Cache hit ratio
• Replication lag

🌐 Mrežne Metrike

• Interface bandwidth utilization
• Packet error rate
• TCP retransmissions
• DNS query time
• BGP routing changes
• Firewall throughput