Operations & NOC

Level	Name	Response Time	Examples
P1	Critical	15 min	Total site outage, SEACOM down, PBX all-tenant outage
P2	High	1 hour	Single site down, >50% capacity loss, PBX single-tenant outage
P3	Medium	4 hours	Degraded performance, single device failure, minor alarm
P4	Low	Next business day	Planned maintenance, minor config drift, hardware pre-failure

Tool	Purpose	Access
Prometheus	Metrics collection (SNMP, node exporters)	Internal (WDH DC2)
Grafana	Dashboards and alerting	grafana.peon.tech
Homer 7	SIP/VoIP capture, MOS tracking	pbx-monitor-01:9080
Vikunja	Incident tickets and task tracking	todo.peon.tech
Opengear IM7200	Out-of-band console access (SWK DC1)	Management VLAN 100

Metric	Value
Primary DC	SWK DC1 (Swakopmund)
DR site	WDH DC2 (Windhoek)
Replication	Veeam B&R continuous replication
Target RTO	4 hours
Last DR test	March 20, 2026 — achieved 3h 22m ✅
Next DR test	September 2026
PBX DR	pbx-dr-01 at WDH DC2 — runbook being drafted

¶ Operations — NOC Runbooks & Procedures