WEBJURPalavras Normalizadas CadastroConfigAPISobre o Projeto

Explicando o projeto

O problema

A Webjur busca os clientes nos jornais oficiais. Os termos de busca moram na tabela PalavrasBusca — mas espremidos e bagunçados: 5 colunas largas (PalavraBusca01..05), a MESMA pessoa espalhada em varias linhas, as vezes 2 termos diferentes na mesma linha, busca por OAB, por numero de processo... Resultado: ninguem responde rapido "quais sao os termos do cliente X?".

A solucao

Transforma esse balaio numa estrutura normalizada e curavel, num banco de estudo separado (a origem so e tocada com permissao):

Como ele monta isso (pipeline)

  1. Camada 1 (deterministica): agrupa as celulas em entidades por OAB e por nucleo de nome (tolera abreviacao/typo, sem fundir empresas diferentes); separa numeros; classifica o tipo.
  2. Dicionario de nomes: 77 mil tokens de nome de pessoa, aprendidos das empresas que so tem advogados. Com ele, "Classic Boulevard" e Empresa (nao e nome de gente) sem precisar de marcador.
  3. Camada 2 (IA): julga so os pares ambiguos (dois termos do mesmo cliente que talvez sejam a mesma entidade) — junta typo/abreviacao, separa empresas distintas.
  4. Auditoria: confere celula a celula contra a origem viva -> nada perdido, nada inventado.

As telas

Origem ↔ modelo — fluxo de mao dupla

API (terceiros)

Incluir / consultar / excluir termos de um cliente, auth por chave, tudo logado. Variantes opcionais (se faltarem, sao derivadas). Doc completa na aba API.

Status por empresa

Manutencao

O caro e a rodada inicial (acervo historico). Depois e incremental: so o que muda por dia, so os pares novos pra IA, e a curadoria humana acumula. Pendentes pra virar rotina: motor de replay e job diario.

Pendencias em aberto

CdEmpresaCliPaga = quem paga (R$) o cliente — nao indica clone, exceto na empresa 42, onde clientes pagos por outra empresa sao os BR++ (copias diarias, ficam de fora). Nas demais empresas isso e so cobranca: cliente legitimo, fica.

Nao precisa carregar/curar as empresas-OAB (30/35/47/50/70/75) nem os BR++: la e tudo trivial — 1 cliente = 1 advogado, o nome do cliente JA e o termo (sem mundo misto, sem ambiguidade). Se um dia precisar do relatorio/API delas, e carga simples.

Ja feitos hoje: IA camada 2 da empresa 42 (235 agentes); residuos da 42; filtro por representante; pagina deste projeto.

Um pouco da historia da carga inicial

Numeros de 21/06/2026 — a "rodada inicial" (o passivo historico, feito uma vez):

Daqui pra frente e so o delta diario (incremental) — o pico foi hoje.

Desenvolvido por Getulio Menegatti em parceria com o Claude (Anthropic).