RAG (Retrieval-Augmented Generation) e como dar memoria externa a IA. Em vez de confiar apenas no conhecimento do modelo, buscamos informacoes relevantes em sua base de dados e injetamos no contexto. A implementacao pratica tem 4 pilares: Chunking, Metadados, Busca Hibrida e Fallback.
1 Chunking Inteligente: Quebrar Documentos em Pedacos Logicos
Conceito-chave:
Chunking e o processo de dividir documentos grandes em pedacos menores e semanticamente coerentes. Um chunk bom contem uma unidade completa de significado.
Estrategias de Chunking:
Por Secao/Topico
Ideal para documentacao tecnica. Quebra por headers (H1, H2, H3) ou mudanca de assunto. Cada chunk = 1 topico completo.
Exemplo: Manual de produto com secoes "Instalacao", "Configuracao", "Troubleshooting".
Por Tamanho Fixo com Overlap
500-1000 tokens por chunk, com overlap de 10-20%. Evita cortar informacao no meio.
Exemplo: Base de conhecimento de FAQs onde cada pergunta+resposta e um chunk.
Por Unidade de Negocio
Cada chunk = 1 produto, 1 cliente, 1 transacao. Alinha com a logica do seu dominio.
Exemplo: CRM onde cada chunk e o perfil completo de um cliente.
Erro Comum: Chunks muito pequenos perdem contexto. Chunks muito grandes excedem a janela de atencao. O sweet spot e 400-800 tokens.
2 Metadados: Etiquetas para Filtrar
Metadados sao informacoes sobre o chunk que permitem filtragem pre-busca. Em vez de buscar em toda a base, filtre primeiro por metadados relevantes.
Categoria/Tipo
FAQ, Documentacao, Politica, Email, etc.
Data/Versao
Ultima atualizacao, versao do produto, ano fiscal.
Permissoes/Audiencia
Publico, Interno, Admin, Cliente Premium.
Idioma/Regiao
pt-BR, en-US, ES-latam, etc.
Pratica: Se o usuario e de Financeiro, filtre primeiro chunks com metadata.department = "finance" antes de fazer busca semantica.
3 Busca Hibrida: Keyword + Semantica
Busca Hibrida combina dois metodos complementares:
Busca por Keyword (BM25)
Busca tradicional. Procura palavras exatas. Otimo para termos tecnicos, nomes proprios, codigos.
Exemplo: "Bug #12345" ou "RFC-2616"
Busca Semantica (Embeddings)
Busca por significado. Entende sinonimos e contexto. Otimo para perguntas naturais.
Exemplo: "Como resolver problema de login?" encontra "Autenticacao falhou"
Como Combinar (Hybrid Search)
- Execute BM25 e Semantic Search em paralelo
- Obtenha top 10 resultados de cada
- Combine com Reciprocal Rank Fusion (RRF)
- Retorne os top 5 chunks mais relevantes
Resultado: Busca hibrida e 30-40% mais precisa que usar apenas um metodo. E o standard de mercado.
4 Regra de Fallback: Admitir Quando Nao Sabe
A regra de fallback e uma instrucao explicita no prompt: "Se voce nao encontrar informacao relevante nos documentos fornecidos, responda: 'Nao encontrei essa informacao na base de conhecimento.'"
Problema sem Fallback
Usuario: "Qual o prazo de entrega para Belem?"
IA (sem achar na base): "O prazo de entrega para Belem e de 7-10 dias uteis." (INVENTADO!)
Com Fallback Correto
Usuario: "Qual o prazo de entrega para Belem?"
IA: "Nao encontrei informacao especifica sobre prazo de entrega para Belem. Vou encaminhar para o time de logistica."
Template de Fallback:
Se a resposta nao estiver nos documentos fornecidos:
- Nao invente informacoes
- Responda: "Nao encontrei essa informacao na base."
- Sugira proximos passos (ex: falar com suporte)
5 Exercicio Pratico
Teste RAG com NotebookLM
Acesse notebooklm.google.com e crie um novo notebook.
Upload 3-5 documentos da sua empresa (politicas, FAQs, manuais).
Faca perguntas especificas que ESTAO nos docs. Observe como ele cita as fontes.
Faca uma pergunta que NAO esta nos docs. Veja o fallback em acao.
Objetivo: Entender na pratica como RAG busca, recupera e admite quando nao sabe. NotebookLM e RAG pronto para usar.
Resumo do Modulo
- Chunking: quebrar docs em pedacos de 400-800 tokens
- Metadados: etiquetas para filtrar antes da busca
- Busca Hibrida: combinar keyword + semantica = 30-40% mais precisao
- Fallback: sempre incluir instrucao para admitir quando nao sabe