🎯 Estratégia Hermes — Economia de Tokens, Agilidade e Precisão

1. Provedores e Roteamento Inteligente

1.1 Hierarquia de Modelos por Tarefa

TarefaModeloProvedorCustoPrioridade
🧠 Planejamento / Orquestraçãogpt-5.5OpenAI Codex (Plus)✅ InclusoMáxima qualidade
💻 Codificação Pesadagpt-5.5OpenAI Codex (Plus)✅ InclusoComplexa
⚡ Tarefas Rápidas / Formataçãogpt-5.4-miniOpenAI Codex (Plus)✅ InclusoVelocidade
🔄 Subagents (delegate_task)deepseek-v4-proOpenCode Go📋 Plano mensalCusto fixo
🔀 Orquestrador (delegate_task)deepseek-v4-flashOpenCode Go📋 Plano mensalLeve/rápido
🖼️ Geração de Imagensgpt-image-2-mediumOpenAI Codex (Plus)✅ InclusoZero custo extra

1.2 Regras de Roteamento

  • Orquestrador (ator principal): gpt-5.5 via OpenAI Codex — qualidade máxima
  • Subagents (delegate_task): OpenCode Go — sem consumo extra de tokens (plano mensal)
  • Modelo rápido (gpt-5.4-mini): Para tarefas triviais, formatação, revisões simples
  • Imagens: ChatGPT Plus (sem custo adicional)

2. Otimização de Tokens

2.1 Configurações Atuais vs Recomendadas

ParâmetroAtualRecomendadoImpacto
compression.enabledtrue✅ ManterReduz tamanho do contexto
compression.threshold0.50.35⬇️ Comprime mais cedo
compression.target_ratio0.20.15⬇️ Contexto mais enxuto
reasoning_effortmedium🔄 Variável por tarefaEconomia em tarefas simples
max_turns9050⬇️ Menos iterações desperdiçadas
display.show_reasoningfalsefalse✅ Sem consumo extra
display.show_costfalsefalse✅ Sem consumo extra

2.2 Compressão Inteligente de Contexto

A compressão automática já está ativada (compression.enabled: true). Recomendações:

compression:
  enabled: true
  threshold: 0.35        # Mais agressivo (antes era 0.50)
  target_ratio: 0.15     # Contexto mais enxuto (antes era 0.20)
  protect_last_n: 20     # Protege as últimas 20 mensagens
  protect_first_n: 3     # Protege as primeiras 3 (instruções)
  hygiene_hard_message_limit: 400  # Segurança contra estouro

2.3 Prompt Caching

prompt_caching:
  cache_ttl: 5m

O cache de 5 minutos já está ativo. Para tarefas repetitivas (cron jobs, webhooks), o cache reduz drasticamente tokens.

2.4 Economia em Subagents

delegation:
  model: deepseek-v4-pro     # OpenCode Go (plano fixo)
  max_iterations: 25         # ⬇️ Reduzido de 50 para evitar loops
  child_timeout_seconds: 300 # ⬇️ 5 min em vez de 10
  max_concurrent_children: 3 # Mantido
  reasoning_effort: ''       # Herda do pai ou usa mínimo

3. Agilidade

3.1 Modelos Rápidos

CenárioModeloTTFB Esperado
Chat simples / Buscagpt-5.4-mini~1-2s
Código simplesdeepseek-v4-flash~2-3s
Código complexogpt-5.5~5-8s
Subagents paralelosTodosExecução paralela

3.2 Paralelismo

  • delegate_task com tasks=[...] para trabalho paralelo (até 3 subagents)
  • Cron jobs com schedules independentes
  • Evitar sessões longas — preferir /reset após tarefas concluídas

3.3 Ferramentas Leves

Priorizar ferramentas que economizam contexto:

Ao invés deUsePor quê
cat / headread_filePaginação + line numbers
grep / findsearch_filesMais rápido, menos output
sedpatchFuzzy matching + diff
echo > / heredocwrite_fileCria diretórios automático
Múltiplos terminaisexecute_codeProcessamento entre calls

3.4 Cron Jobs com Script

Para watchers e monitores, usar no_agent=true + script → zero tokens consumidos:

# Exemplo: watchdog de disco
cronjob(action='create', schedule='30m', script='~/.hermes/scripts/disk_watchdog.sh', no_agent=True)

4. Precisão

4.1 Uso de Skills e Memória

Skills carregam procedimentos validados → menos erros, menos retrabalho:

hermes -s provider-routing,nextjs-development,bmad-workflow

Memória persistente evita repetir contexto em sessões futuras.

4.2 Delegation com Contexto Rico

Subagents recebem contexto completo → maior precisão:

delegate_task(
    goal="Implementar feature X",
    context="""
    - Framework: Next.js 16
    - ORM: Prisma v7
    - Auth: Auth.js v5
    - Banco: PostgreSQL localhost:5432
    - Arquivos relevantes: /src/app/api/...
    """
)

4.3 Ferramentas de Qualidade

SkillPropósito
systematic-debuggingDebug metódico (4 fases)
test-driven-developmentTDD: tests antes do código
requesting-code-reviewRevisão pré-commit
github-code-reviewRevisão de PRs
writing-plansPlanejamento antes de codificar

4.4 Modelo Caro para Tarefas Complexas

Use gpt-5.5 quandoUse gpt-5.4-mini / flash quando
Planejamento arquiteturalFormatação de texto
Debug complexoBusca simples
Código com muitas dependênciasRefatoração trivial
Revisão de PRRespostas rápidas
Decisões de designListagens / enumerações

5. Plugins Recomendados

5.1 Já disponíveis para ativar

PluginPor que ativarComo ativar
disk-cleanupLimpa arquivos temporários automaticamentehermes plugins enable disk-cleanup
web-ddgsBusca via DuckDuckGo (grátis, sem API key)hermes plugins enable web-ddgs
web-brave-freeBusca via Brave (2k queries/mês grátis)hermes plugins enable web-brave-free

5.2 Para integrações futuras

PluginQuando usar
web-firecrawlSe precisar de scraping avançado (requer API key)
web-tavilySe precisar de busca + crawl
security-guidanceSegurança extra ao escrever arquivos

6. Dashboard de Métricas

# Verificar uso atual
hermes insights --days 7
 
# Verificar sessões
hermes sessions stats
 
# Verificar jobs agendados
hermes cron list
 
# Verificar skills mais usadas
cat ~/.hermes/skills/.usage.json | python3 -m json.tool

7. Estratégia de Implementação (Fases)

Fase 1: Configuração Imediata ✅

  • Provedor principal: OpenAI Codex (gpt-5.5)
  • Provider routing configurado
  • OpenCode Go para subagents
  • Ajustar compressão (threshold 0.35)
  • Reduzir max_turns para 50

Fase 2: Skills e Qualidade

  • Carregar skills certas por perfil
  • Ativar plugins econômicos (ddgs, brave-free)
  • Configurar curator para manutenção automática

Fase 3: Automação Inteligente

  • Scripts watchdog com no_agent=true
  • Cron jobs com skills especializadas
  • Webhooks para eventos

Fase 4: Monitoramento

  • Acompanhar insights de uso semanal
  • Ajustar thresholds conforme necessidade
  • Revisar estratégia a cada 30 dias