Fine-tune Gemma 4 com LoRA r=16
v3 validada: L1 100% / Wild 95% / checkpoint 17/17 / base intacta. UI no ar.
25+ versões treinadas. De pretrain puro a pipeline de 3 fases (pretrain + SFT CoT + GRPO). De 3M a 350M de parâmetros. Modal, MPS local, LoRA em Llama e Gemma. Este é o registro do que funcionou — e do que não.
Cada card é uma hipótese testada. Verde = validou. Amarelo = ensinou. Cinza = arquivado.
v3 validada: L1 100% / Wild 95% / checkpoint 17/17 / base intacta. UI no ar.
Geo atomic 79.4% + history 28.8% + cross 28.3% (peak 43.4%). Continual falhou, from-scratch brilhou.
12.65M params, 70% estrito. Alinhado com R1 / Qwen. Chain-of-thought emergiu de SFT leve.
Pretrain Wiki PT + replay + entity switch entre tipos. Deployed. A receita que generalizou.
Scale de corpus resolveu o teto do v1. Main set 90.9%, wild set 80%.
81% generalização. Conceitos importam mais que padrões. Duas tarefas coexistem se o corpus respeitar ratio.
48M UNet, COCO 64x64, prompts funcionam. Diffusion > autoregressive em escala pequena.
O baseline que abriu o caminho. BPE foi erro; word-level entrou depois e foi melhor em escala pequena.
15M, factual 100% em 4 versões. Criatividade parcial. Distill > BPE puro para vocab pequeno.
v2 aritmética generalizou. v9 Wiki 17/18 só com pretrain. Provou que 1 tarefa + CoT = algoritmo.
Arquitetura validada. Corpus é o gargalo — escalar é o próximo passo.
25 projetos × 5 atributos. Base do dataset que virou Gemma v3 fine-tune. Pequeno, local, didático.
Ensinou domínio novo sem corromper base. Modal + LoRA. Validou a ponte entre SLM do zero e fine-tune.
Pretrain Wiki Haiku + continual história. Arquivado como aprendizado — corpus 100% Haiku tem teto de ~30-50% em wild real.
Não é teoria. É o que sobrou quando o corpus queimou e os logs desceram a madrugada.
Distribuição, amostras, cobertura. Pular audit de corpus gerado por LLM é colocar fogo no dinheiro antes do treino começar.
Corpus sintético ensina regras. Corpus real ensina fatos. Inversão semântica só vem com volume real.
SLM pequeno com uma tarefa, split_digits e chain-of-thought aprende o algoritmo — não memoriza exemplos.
Continual learning quebra base. Replay + cross-type entity switch + SFT leve preservam o que já foi aprendido.
Dataset de 5 camadas, r=16, 15 epochs. Receita v3 definitiva para ensinar algo novo sem corromper a base.
Para text → image com budget limitado, diffusion + CLIP entrega. GPT autoregressive não.
Híbrido word-level + distill normalizado superou BPE puro em todos os testes de SLM pequeno.
Factual puro: Llama / Gemma + LoRA ganha. Do zero só vale pra entender a máquina ou domínios experimentais.
Pretrain → SFT (CoT) → GRPO. R1 e Qwen não fazem diferente. Experimentos próprios validaram em 12.65M params.