🎯 Estratégia Hermes — Economia de Tokens, Agilidade e Precisão

1. Provedores e Roteamento Inteligente

1.1 Hierarquia de Modelos por Tarefa

Tarefa	Modelo	Provedor	Custo	Prioridade
🧠 Planejamento / Orquestração	`gpt-5.5`	OpenAI Codex (Plus)	✅ Incluso	Máxima qualidade
💻 Codificação Pesada	`gpt-5.5`	OpenAI Codex (Plus)	✅ Incluso	Complexa
⚡ Tarefas Rápidas / Formatação	`gpt-5.4-mini`	OpenAI Codex (Plus)	✅ Incluso	Velocidade
🔄 Subagents (delegate_task)	`deepseek-v4-pro`	OpenCode Go	📋 Plano mensal	Custo fixo
🔀 Orquestrador (delegate_task)	`deepseek-v4-flash`	OpenCode Go	📋 Plano mensal	Leve/rápido
🖼️ Geração de Imagens	`gpt-image-2-medium`	OpenAI Codex (Plus)	✅ Incluso	Zero custo extra

1.2 Regras de Roteamento

Orquestrador (ator principal): gpt-5.5 via OpenAI Codex — qualidade máxima
Subagents (delegate_task): OpenCode Go — sem consumo extra de tokens (plano mensal)
Modelo rápido (gpt-5.4-mini): Para tarefas triviais, formatação, revisões simples
Imagens: ChatGPT Plus (sem custo adicional)

2. Otimização de Tokens

2.1 Configurações Atuais vs Recomendadas

Parâmetro	Atual	Recomendado	Impacto
`compression.enabled`	✅ `true`	✅ Manter	Reduz tamanho do contexto
`compression.threshold`	`0.5`	`0.35`	⬇️ Comprime mais cedo
`compression.target_ratio`	`0.2`	`0.15`	⬇️ Contexto mais enxuto
`reasoning_effort`	`medium`	🔄 Variável por tarefa	Economia em tarefas simples
`max_turns`	`90`	`50`	⬇️ Menos iterações desperdiçadas
`display.show_reasoning`	`false`	`false`	✅ Sem consumo extra
`display.show_cost`	`false`	`false`	✅ Sem consumo extra

2.2 Compressão Inteligente de Contexto

A compressão automática já está ativada (compression.enabled: true). Recomendações:

compression:
  enabled: true
  threshold: 0.35        # Mais agressivo (antes era 0.50)
  target_ratio: 0.15     # Contexto mais enxuto (antes era 0.20)
  protect_last_n: 20     # Protege as últimas 20 mensagens
  protect_first_n: 3     # Protege as primeiras 3 (instruções)
  hygiene_hard_message_limit: 400  # Segurança contra estouro

2.3 Prompt Caching

prompt_caching:
  cache_ttl: 5m

O cache de 5 minutos já está ativo. Para tarefas repetitivas (cron jobs, webhooks), o cache reduz drasticamente tokens.

2.4 Economia em Subagents

delegation:
  model: deepseek-v4-pro     # OpenCode Go (plano fixo)
  max_iterations: 25         # ⬇️ Reduzido de 50 para evitar loops
  child_timeout_seconds: 300 # ⬇️ 5 min em vez de 10
  max_concurrent_children: 3 # Mantido
  reasoning_effort: ''       # Herda do pai ou usa mínimo

3. Agilidade

3.1 Modelos Rápidos

Cenário	Modelo	TTFB Esperado
Chat simples / Busca	`gpt-5.4-mini`	~1-2s
Código simples	`deepseek-v4-flash`	~2-3s
Código complexo	`gpt-5.5`	~5-8s
Subagents paralelos	Todos	Execução paralela

3.2 Paralelismo

delegate_task com tasks=[...] para trabalho paralelo (até 3 subagents)
Cron jobs com schedules independentes
Evitar sessões longas — preferir /reset após tarefas concluídas

3.3 Ferramentas Leves

Priorizar ferramentas que economizam contexto:

Ao invés de	Use	Por quê
`cat` / `head`	`read_file`	Paginação + line numbers
`grep` / `find`	`search_files`	Mais rápido, menos output
`sed`	`patch`	Fuzzy matching + diff
`echo >` / heredoc	`write_file`	Cria diretórios automático
Múltiplos terminais	`execute_code`	Processamento entre calls

3.4 Cron Jobs com Script

Para watchers e monitores, usar no_agent=true + script → zero tokens consumidos:

# Exemplo: watchdog de disco
cronjob(action='create', schedule='30m', script='~/.hermes/scripts/disk_watchdog.sh', no_agent=True)

4. Precisão

4.1 Uso de Skills e Memória

Skills carregam procedimentos validados → menos erros, menos retrabalho:

hermes -s provider-routing,nextjs-development,bmad-workflow

Memória persistente evita repetir contexto em sessões futuras.

4.2 Delegation com Contexto Rico

Subagents recebem contexto completo → maior precisão:

delegate_task(
    goal="Implementar feature X",
    context="""
    - Framework: Next.js 16
    - ORM: Prisma v7
    - Auth: Auth.js v5
    - Banco: PostgreSQL localhost:5432
    - Arquivos relevantes: /src/app/api/...
    """
)

4.3 Ferramentas de Qualidade

Skill	Propósito
`systematic-debugging`	Debug metódico (4 fases)
`test-driven-development`	TDD: tests antes do código
`requesting-code-review`	Revisão pré-commit
`github-code-review`	Revisão de PRs
`writing-plans`	Planejamento antes de codificar

4.4 Modelo Caro para Tarefas Complexas

Use `gpt-5.5` quando	Use `gpt-5.4-mini` / `flash` quando
Planejamento arquitetural	Formatação de texto
Debug complexo	Busca simples
Código com muitas dependências	Refatoração trivial
Revisão de PR	Respostas rápidas
Decisões de design	Listagens / enumerações

5. Plugins Recomendados

5.1 Já disponíveis para ativar

Plugin	Por que ativar	Como ativar
`disk-cleanup`	Limpa arquivos temporários automaticamente	`hermes plugins enable disk-cleanup`
`web-ddgs`	Busca via DuckDuckGo (grátis, sem API key)	`hermes plugins enable web-ddgs`
`web-brave-free`	Busca via Brave (2k queries/mês grátis)	`hermes plugins enable web-brave-free`

5.2 Para integrações futuras

Plugin	Quando usar
`web-firecrawl`	Se precisar de scraping avançado (requer API key)
`web-tavily`	Se precisar de busca + crawl
`security-guidance`	Segurança extra ao escrever arquivos

6. Dashboard de Métricas

# Verificar uso atual
hermes insights --days 7
 
# Verificar sessões
hermes sessions stats
 
# Verificar jobs agendados
hermes cron list
 
# Verificar skills mais usadas
cat ~/.hermes/skills/.usage.json | python3 -m json.tool

7. Estratégia de Implementação (Fases)

Fase 1: Configuração Imediata ✅

Provedor principal: OpenAI Codex (gpt-5.5)
Provider routing configurado
OpenCode Go para subagents
Ajustar compressão (threshold 0.35)
Reduzir max_turns para 50

Fase 2: Skills e Qualidade

Carregar skills certas por perfil
Ativar plugins econômicos (ddgs, brave-free)
Configurar curator para manutenção automática

Fase 3: Automação Inteligente

Scripts watchdog com no_agent=true
Cron jobs com skills especializadas
Webhooks para eventos

Fase 4: Monitoramento

Acompanhar insights de uso semanal
Ajustar thresholds conforme necessidade
Revisar estratégia a cada 30 dias

🧠 ZimBot Brain

Explorador

Estrategia_Tokens