Testando MiniMax M2.7 via API em Três Fluxos de Trabalho Reais de ML e Codificação

✍️ OpenClawRadar📅 Publicado: May 21, 2026🔗 Source
Testando MiniMax M2.7 via API em Três Fluxos de Trabalho Reais de ML e Codificação
Ad

Andrey Lukyanenko colocou o MiniMax M2.7 à prova em três fluxos de trabalho realistas de ML e codificação via API, usando o Claude Code como estrutura. O objetivo: ver como o M2.7 se sai em loops agentivos comparado ao Claude Opus 4.7.

Configuração

O ambiente de teste transformou a API MiniMax em um comando claude-mm que aponta o Claude Code para o M2.7:

claude-mm () {
  ANTHROPIC_BASE_URL = "https://api.minimax.io/anthropic" \
  ANTHROPIC_AUTH_TOKEN = "$MINIMAX_API_KEY" \
  ANTHROPIC_MODEL = "MiniMax-M2.7" \
  ANTHROPIC_DEFAULT_SONNET_MODEL = "MiniMax-M2.7" \
  ANTHROPIC_DEFAULT_OPUS_MODEL = "MiniMax-M2.7" \
  ANTHROPIC_DEFAULT_HAIKU_MODEL = "MiniMax-M2.7" \
  ANTHROPIC_SMALL_FAST_MODEL = "MiniMax-M2.7" \
  API_TIMEOUT_MS = "3000000" \
  CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC = "1" \
  claude "$@"
}

Ele executou no plano Plus da MiniMax (US$ 40/mês), onde a janela de contexto e a taxa de transferência diária foram suficientes para trabalho agentivo de várias etapas.

Workflow 1: Refatorando um Projeto PyTorch

A tarefa era atualizar dependências e qualidade do código no repositório pytorch_tempest (Hydra + PyTorch Lightning). As alterações incluíram:

  • Versões de CI e hooks de pre-commit atualizados.
  • Substituição de black + flake8 por ruff para linting e formatação.
  • Habilitação de fsdp_sharding_strategy na configuração do trainer Lightning.
  • Documentação atualizada.
  • Adição de uv para gerenciamento de ambiente.
  • Migração para tipagem Python moderna (list[X] em vez de List[X], X | None em vez de Optional[X]).
  • Remoção de caminhos de código duplicados.

A abordagem foi passo a passo: Lukyanenko deu requisitos explícitos, revisou cada alteração e forneceu feedback quando o diff saía do escopo. O M2.7 se encaixou bem porque permaneceu dentro de prompts estreitos e permitiu revisão linha a linha. Falhas de CI foram corrigidas iterativamente com a ajuda do agente.

Ad

Workflow 2: Notas no Vault do Obsidian

Para escrever e auditar notas de referência de ML no Obsidian, Lukyanenko ajustou prompts especificamente para o M2.7. Ele começou pedindo tanto ao M2.7 quanto ao Opus 4.7 para gerar notas a partir do mesmo prompt, depois fez o M2.7 ler ambas as saídas e propor um prompt melhorado para si mesmo. O prompt resultante (condensado) foi:

Preencher um stub de link quebrado no vault DSWoK: pesquisar o tópico, rascunhar a nota no estilo DSWoK, executar draft-critic-mm, salvar na pasta correta.

Etapas: ler guia de estilo, escolher um stub, grep por referências cruzadas, escolher pasta de destino, rascunhar, depois criticar.

Principais Descobertas

Em todas as três execuções, o M2.7 foi útil quando as restrições eram explícitas e o formato de saída era concreto. Ele teve dificuldades quando contexto importante foi deixado implícito, embora o Opus 4.7 às vezes tivesse as mesmas lacunas. Para casos abertos, uma revisão humana ainda é recomendada. O autor observa que a qualidade do modelo e o design da estrutura são difíceis de separar — um modelo mais forte pode inferir restrições ausentes, enquanto uma estrutura melhor as torna explícitas.

📖 Leia a fonte original: HN AI Agents

Ad

👀 See Also

PocketTeam: Um Pipeline de Código Claude com Segurança Baseada em Hooks e Agentes de Aprendizado
Tools

PocketTeam: Um Pipeline de Código Claude com Segurança Baseada em Hooks e Agentes de Aprendizado

PocketTeam é um pipeline Claude Code que implementa 9 camadas de segurança no nível de chamada de ferramentas para bloquear operações perigosas como gravações em .env ou comandos rm -rf. O sistema inclui um agente Observador que analisa tarefas concluídas e grava aprendizados estruturados para melhorar o desempenho futuro dos agentes.

OpenClawRadar
OpenSwarm: Orquestrador CLI Multi-Agente Claude para Linear e GitHub
Tools

OpenSwarm: Orquestrador CLI Multi-Agente Claude para Linear e GitHub

O OpenSwarm orquestra múltiplas instâncias do Claude Code CLI como agentes autônomos que buscam problemas do Linear e executam pipelines de Trabalhador/Revisor/Teste/Documentador. Ele usa LanceDB com embeddings multilingual-e5 para memória e inclui controle por bot do Discord, aprimoramento automático de PRs e um painel web.

OpenClawRadar
Explorando o sandbox-exec do macOS para Execução Segura de Aplicativos
Tools

Explorando o sandbox-exec do macOS para Execução Segura de Aplicativos

sandbox-exec é uma ferramenta de linha de comando do macOS que permite executar aplicativos em um ambiente restrito. Aprenda como utilizá-la com perfis de sandbox personalizados.

OpenClawRadar
GPT-5.5 Codex vs Claude Opus 4.7: Benchmarks de agentes de codificação no mundo real
Tools

GPT-5.5 Codex vs Claude Opus 4.7: Benchmarks de agentes de codificação no mundo real

Um desenvolvedor comparou o GPT-5.5 Codex com o Claude Opus 4.7 em duas tarefas reais: um bot de triagem de PRs e uma interface de revisão de código em tempo real. O Claude entregou um código mais limpo, sem erros; o Codex foi 18% mais barato, mas exigiu uma correção adicional.

OpenClawRadar