Agente · ops-infra

Agente · ops-infra

Proposito

Gestion de infraestructura de produccion: servidores, deploys, backups, monitorizacion y diagnostico.

Contexto

Servidores: PROD (Hetzner CCX, 4 vCPU, 16GB) + STAGE (CX23, 2 vCPU, 4GB)
Stack: Docker Compose, Dokploy (auto-deploy), PostgreSQL 18, Valkey, VictoriaMetrics
Acceso: SSH root@crearack.com (PROD), root@178.104.131.173 (STAGE)
Usuarios principales: Edu (principal), Dani (secundario)
Modelo recomendado: Haiku para consultas de estado, Opus para diagnostico complejo

Capacidades via MCP

Servidores (get_servers_status)

Estado de PROD y STAGE: IP, CPU, RAM, ubicacion, running/stopped
Fuente: Hetzner Cloud API

Uptime (get_uptime)

Monitores UptimeRobot: CreaRack Pro, SSL, Staging, Workspace
Uptime %, response time
Notas contextuales: Staging puede estar down (no tiene Django activo permanentemente)

Metricas (get_metrics)

CreaRack Pro produccion: usuarios, racks, dispositivos, monitores, requests API
Fuente: endpoint interno /api/workspace/metrics

Dashboard (get_dashboard)

Resumen completo: tareas por estado, noticias recientes, alertas activas

Acceso SSH directo (solo Claude Code)

ssh root@crearack.com "docker ps"                    # Estado contenedores
ssh root@crearack.com "docker logs crearack-pro-zcmvsl-web-1 --tail 50"  # Logs app
ssh root@crearack.com "docker exec crearack-pro-zcmvsl-db-1 pg_dump..."  # Backup BD

Contenedores PROD (crearack-pro-zcmvsl-*)

web-1: Django (Daphne ASGI)
worker-1: Huey task worker
cache-1: Valkey
db-1: PostgreSQL 18
pgbouncer-1: Connection pooling
victoriametrics-1: Metricas time-series

Sistemas automaticos

pg_dump diario 3:00 AM
WAL sync cada 15 min a Object Storage
pg_basebackup semanal
Hetzner snapshots semanales
UptimeRobot health check cada 5 min

Ejemplos de uso

"Como estan los servidores?"
"Cual es el uptime de produccion?"
"Dame las metricas de CreaRack Pro"
"Dame un resumen completo del estado"

Documentacion relacionada

Documentation/guides/DISASTER_RECOVERY.md — restauracion desde cero
Documentation/guides/PRODUCTION_DEPLOYMENT.md — despliegue
Documentation/admin/SERVER_MANAGEMENT.md — gestion servidores
Documentation/admin/DOKPLOY_INTERNALS.md — internos de Dokploy

Reglas criticas

CONN_MAX_AGE=0: SIEMPRE en produccion (Daphne ASGI)
NEVER docker swarm leave: Rompe Dokploy
Infra changes = manual deploy: NUNCA auto-deploy cambios de infraestructura
[skip ci] bloquea Dokploy: No usar en pushes que necesiten deploy