Modulo 2: RAG Pratico - Memoria que Funciona

RAG (Retrieval-Augmented Generation) e como dar memoria externa a IA. Em vez de confiar apenas no conhecimento do modelo, buscamos informacoes relevantes em sua base de dados e injetamos no contexto. A implementacao pratica tem 4 pilares: Chunking, Metadados, Busca Hibrida e Fallback.

1 Chunking Inteligente: Quebrar Documentos em Pedacos Logicos

Conceito-chave:

Chunking e o processo de dividir documentos grandes em pedacos menores e semanticamente coerentes. Um chunk bom contem uma unidade completa de significado.

Estrategias de Chunking:

Por Secao/Topico

Ideal para documentacao tecnica. Quebra por headers (H1, H2, H3) ou mudanca de assunto. Cada chunk = 1 topico completo.

Exemplo: Manual de produto com secoes "Instalacao", "Configuracao", "Troubleshooting".

Por Tamanho Fixo com Overlap

500-1000 tokens por chunk, com overlap de 10-20%. Evita cortar informacao no meio.

Exemplo: Base de conhecimento de FAQs onde cada pergunta+resposta e um chunk.

Por Unidade de Negocio

Cada chunk = 1 produto, 1 cliente, 1 transacao. Alinha com a logica do seu dominio.

Exemplo: CRM onde cada chunk e o perfil completo de um cliente.

Erro Comum: Chunks muito pequenos perdem contexto. Chunks muito grandes excedem a janela de atencao. O sweet spot e 400-800 tokens.

2 Metadados: Etiquetas para Filtrar

Metadados sao informacoes sobre o chunk que permitem filtragem pre-busca. Em vez de buscar em toda a base, filtre primeiro por metadados relevantes.

Categoria/Tipo

FAQ, Documentacao, Politica, Email, etc.

Data/Versao

Ultima atualizacao, versao do produto, ano fiscal.

Permissoes/Audiencia

Publico, Interno, Admin, Cliente Premium.

Idioma/Regiao

pt-BR, en-US, ES-latam, etc.

Pratica: Se o usuario e de Financeiro, filtre primeiro chunks com metadata.department = "finance" antes de fazer busca semantica.

3 Busca Hibrida: Keyword + Semantica

Busca Hibrida combina dois metodos complementares:

Busca por Keyword (BM25)

Busca tradicional. Procura palavras exatas. Otimo para termos tecnicos, nomes proprios, codigos.

Exemplo: "Bug #12345" ou "RFC-2616"

Busca Semantica (Embeddings)

Busca por significado. Entende sinonimos e contexto. Otimo para perguntas naturais.

Exemplo: "Como resolver problema de login?" encontra "Autenticacao falhou"

Como Combinar (Hybrid Search)

Execute BM25 e Semantic Search em paralelo
Obtenha top 10 resultados de cada
Combine com Reciprocal Rank Fusion (RRF)
Retorne os top 5 chunks mais relevantes

Resultado: Busca hibrida e 30-40% mais precisa que usar apenas um metodo. E o standard de mercado.

4 Regra de Fallback: Admitir Quando Nao Sabe

A regra de fallback e uma instrucao explicita no prompt: "Se voce nao encontrar informacao relevante nos documentos fornecidos, responda: 'Nao encontrei essa informacao na base de conhecimento.'"

Problema sem Fallback

Usuario: "Qual o prazo de entrega para Belem?"
IA (sem achar na base): "O prazo de entrega para Belem e de 7-10 dias uteis." (INVENTADO!)

Com Fallback Correto

Usuario: "Qual o prazo de entrega para Belem?"
IA: "Nao encontrei informacao especifica sobre prazo de entrega para Belem. Vou encaminhar para o time de logistica."

Template de Fallback:


              Se a resposta nao estiver nos documentos fornecidos:

              - Nao invente informacoes

              - Responda: "Nao encontrei essa informacao na base."

              - Sugira proximos passos (ex: falar com suporte)

5 Exercicio Pratico

Teste RAG com NotebookLM

Acesse notebooklm.google.com e crie um novo notebook.

Upload 3-5 documentos da sua empresa (politicas, FAQs, manuais).

Faca perguntas especificas que ESTAO nos docs. Observe como ele cita as fontes.

Faca uma pergunta que NAO esta nos docs. Veja o fallback em acao.

Objetivo: Entender na pratica como RAG busca, recupera e admite quando nao sabe. NotebookLM e RAG pronto para usar.

Resumo do Modulo

Chunking: quebrar docs em pedacos de 400-800 tokens
Metadados: etiquetas para filtrar antes da busca
Busca Hibrida: combinar keyword + semantica = 30-40% mais precisao
Fallback: sempre incluir instrucao para admitir quando nao sabe

RAG Pratico: Memoria que Funciona