laboratório ativo · 2025–2026

Treinando Small Language Models
do zero, um experimento por vez.

25+ versões treinadas. De pretrain puro a pipeline de 3 fases (pretrain + SFT CoT + GRPO). De 3M a 350M de parâmetros. Modal, MPS local, LoRA em Llama e Gemma. Este é o registro do que funcionou — e do que não.

ver experimentos ler lições

↓ scroll

modelos treinados

M tokens (Wiki PT)

accuracy (Geo v3.1)

fases do pipeline

// experimentos

Projetos, em ordem cronológico inverso

Cada card é uma hipótese testada. Verde = validou. Amarelo = ensinou. Cinza = arquivado.

Gemma 4 E4B · LoRA 2026

Fine-tune Gemma 4 com LoRA r=16

v3 validada: L1 100% / Wild 95% / checkpoint 17/17 / base intacta. UI no ar.

LoRA15 epochsdataset 5 camadas

SLM BR Geo+História 2026

SLM 31M from scratch bateu continual learning

Geo atomic 79.4% + history 28.8% + cross 28.3% (peak 43.4%). Continual falhou, from-scratch brilhou.

31M paramsfrom scratchbilíngue tarefas

slm_projetos_r1 2026

Primeiro pipeline 3 fases: pretrain → SFT CoT → GRPO

12.65M params, 70% estrito. Alinhado com R1 / Qwen. Chain-of-thought emergiu de SFT leve.

12.65MGRPOCoT

Geo MultiTurn v3.1 2026

48M com replay + cross-type switch → 93.6%

Pretrain Wiki PT + replay + entity switch entre tipos. Deployed. A receita que generalizou.

48Mreplaycross-typedeployed

Geo SLM v4 2025

Wikipedia PT completa (424M tokens) → 90.9%

Scale de corpus resolveu o teto do v1. Main set 90.9%, wild set 80%.

424M tokensBPEpretrain puro

Multi SLM v10.2 2025

Geo + Python em um só modelo (31M)

81% generalização. Conceitos importam mais que padrões. Duas tarefas coexistem se o corpus respeitar ratio.

multi-task31M81% gen

Image GPT 2025

Text → Image validado: Diffusion + CLIP

48M UNet, COCO 64x64, prompts funcionam. Diffusion > autoregressive em escala pequena.

diffusionCLIPUNet

Geo SLM Original 2025

53M com pretrain Wiki PT + BPE → 78.6%

O baseline que abriu o caminho. BPE foi erro; word-level entrou depois e foi melhor em escala pequena.

53MBPEbaseline

slm_projetos v4 2026

Híbrido: word-level + distill Haiku normalizado

15M, factual 100% em 4 versões. Criatividade parcial. Distill > BPE puro para vocab pequeno.

distillword-levelhíbrido

Logic SLM 2025

9 versões de raciocínio lógico

v2 aritmética generalizou. v9 Wiki 17/18 só com pretrain. Provou que 1 tarefa + CoT = algoritmo.

9 versõesarithmeticpretrain-only

Poeta SLM 2025

15M pretrain-only para poesia

Arquitetura validada. Corpus é o gargalo — escalar é o próximo passo.

15Mcriativopretrain-only

SLM Reverse 2025

5M MiniGPT no MPS local

25 projetos × 5 atributos. Base do dataset que virou Gemma v3 fine-tune. Pequeno, local, didático.

5MMPSMiniGPT

Llama 8B Astrobotânica 2025

CPT + SFT de ciência fictícia em Llama 8B

Ensinou domínio novo sem corromper base. Modal + LoRA. Validou a ponte entre SLM do zero e fine-tune.

Llama 8BCPTSFT

Historia SLM 2025

v4 140M: teto do SLM puro atingido

Pretrain Wiki Haiku + continual história. Arquivado como aprendizado — corpus 100% Haiku tem teto de ~30-50% em wild real.

140Mcontinualarquivado

// lições

O que ficou depois de 25 modelos

Não é teoria. É o que sobrou quando o corpus queimou e os logs desceram a madrugada.

Audit de corpus é inegociável

Distribuição, amostras, cobertura. Pular audit de corpus gerado por LLM é colocar fogo no dinheiro antes do treino começar.

Sintético ≠ real

Corpus sintético ensina regras. Corpus real ensina fatos. Inversão semântica só vem com volume real.

Uma tarefa + CoT = algoritmo

SLM pequeno com uma tarefa, split_digits e chain-of-thought aprende o algoritmo — não memoriza exemplos.

Replay mata catastrophic forgetting

Continual learning quebra base. Replay + cross-type entity switch + SFT leve preservam o que já foi aprendido.

LoRA r=16 + 15 epochs = ouro

Dataset de 5 camadas, r=16, 15 epochs. Receita v3 definitiva para ensinar algo novo sem corromper a base.

Diffusion bate autoregressive em escala pequena

Para text → image com budget limitado, diffusion + CLIP entrega. GPT autoregressive não.

Word-level > BPE em vocab pequeno

Híbrido word-level + distill normalizado superou BPE puro em todos os testes de SLM pequeno.

Fine-tune > pretrain do zero pra factual

Factual puro: Llama / Gemma + LoRA ganha. Do zero só vale pra entender a máquina ou domínios experimentais.

Pipeline 3 fases é o state of the art

Pretrain → SFT (CoT) → GRPO. R1 e Qwen não fazem diferente. Experimentos próprios validaram em 12.65M params.

// stack

Ferramentas do laboratório

⚙️

ModalGPU compute (A10G / A100) para pretrain longo

🔥

PyTorch + MPSTreino local em Apple Silicon para iterar rápido

🤗

HuggingFaceBase models, tokenizers, PEFT (LoRA)

🧠

Claude HaikuDistillation, corpus synthesis, audit automatizado

📚

Wikipedia PT424M tokens — corpus base para pretrain factual

🎯

GRPOReinforcement learning pra alinhamento em SLM pequeno

Treinando Small Language Models do zero, um experimento por vez.