🎯 Estratégia Hermes — Economia de Tokens, Agilidade e Precisão
1. Provedores e Roteamento Inteligente
1.1 Hierarquia de Modelos por Tarefa
Tarefa
Modelo
Provedor
Custo
Prioridade
🧠 Planejamento / Orquestração
gpt-5.5
OpenAI Codex (Plus)
✅ Incluso
Máxima qualidade
💻 Codificação Pesada
gpt-5.5
OpenAI Codex (Plus)
✅ Incluso
Complexa
⚡ Tarefas Rápidas / Formatação
gpt-5.4-mini
OpenAI Codex (Plus)
✅ Incluso
Velocidade
🔄 Subagents (delegate_task)
deepseek-v4-pro
OpenCode Go
📋 Plano mensal
Custo fixo
🔀 Orquestrador (delegate_task)
deepseek-v4-flash
OpenCode Go
📋 Plano mensal
Leve/rápido
🖼️ Geração de Imagens
gpt-image-2-medium
OpenAI Codex (Plus)
✅ Incluso
Zero custo extra
1.2 Regras de Roteamento
Orquestrador (ator principal):gpt-5.5 via OpenAI Codex — qualidade máxima
Subagents (delegate_task): OpenCode Go — sem consumo extra de tokens (plano mensal)
Modelo rápido (gpt-5.4-mini): Para tarefas triviais, formatação, revisões simples
Imagens: ChatGPT Plus (sem custo adicional)
2. Otimização de Tokens
2.1 Configurações Atuais vs Recomendadas
Parâmetro
Atual
Recomendado
Impacto
compression.enabled
✅ true
✅ Manter
Reduz tamanho do contexto
compression.threshold
0.5
0.35
⬇️ Comprime mais cedo
compression.target_ratio
0.2
0.15
⬇️ Contexto mais enxuto
reasoning_effort
medium
🔄 Variável por tarefa
Economia em tarefas simples
max_turns
90
50
⬇️ Menos iterações desperdiçadas
display.show_reasoning
false
false
✅ Sem consumo extra
display.show_cost
false
false
✅ Sem consumo extra
2.2 Compressão Inteligente de Contexto
A compressão automática já está ativada (compression.enabled: true). Recomendações:
compression: enabled: true threshold: 0.35 # Mais agressivo (antes era 0.50) target_ratio: 0.15 # Contexto mais enxuto (antes era 0.20) protect_last_n: 20 # Protege as últimas 20 mensagens protect_first_n: 3 # Protege as primeiras 3 (instruções) hygiene_hard_message_limit: 400 # Segurança contra estouro
2.3 Prompt Caching
prompt_caching: cache_ttl: 5m
O cache de 5 minutos já está ativo. Para tarefas repetitivas (cron jobs, webhooks), o cache reduz drasticamente tokens.
2.4 Economia em Subagents
delegation: model: deepseek-v4-pro # OpenCode Go (plano fixo) max_iterations: 25 # ⬇️ Reduzido de 50 para evitar loops child_timeout_seconds: 300 # ⬇️ 5 min em vez de 10 max_concurrent_children: 3 # Mantido reasoning_effort: '' # Herda do pai ou usa mínimo
3. Agilidade
3.1 Modelos Rápidos
Cenário
Modelo
TTFB Esperado
Chat simples / Busca
gpt-5.4-mini
~1-2s
Código simples
deepseek-v4-flash
~2-3s
Código complexo
gpt-5.5
~5-8s
Subagents paralelos
Todos
Execução paralela
3.2 Paralelismo
delegate_task com tasks=[...] para trabalho paralelo (até 3 subagents)
Cron jobs com schedules independentes
Evitar sessões longas — preferir /reset após tarefas concluídas
3.3 Ferramentas Leves
Priorizar ferramentas que economizam contexto:
Ao invés de
Use
Por quê
cat / head
read_file
Paginação + line numbers
grep / find
search_files
Mais rápido, menos output
sed
patch
Fuzzy matching + diff
echo > / heredoc
write_file
Cria diretórios automático
Múltiplos terminais
execute_code
Processamento entre calls
3.4 Cron Jobs com Script
Para watchers e monitores, usar no_agent=true + script → zero tokens consumidos:
# Exemplo: watchdog de discocronjob(action='create', schedule='30m', script='~/.hermes/scripts/disk_watchdog.sh', no_agent=True)
4. Precisão
4.1 Uso de Skills e Memória
Skills carregam procedimentos validados → menos erros, menos retrabalho: