Metodologia

Coleta

Crawler dockerizado em Python (crawler-wargov) com fallback Playwright + Xvfb para contornar Akamai. Respeita robots.txt, identifica-se com User-Agent honesto e roda com throttle conservador (1 req/2s). Manifest append-only em JSONL — idempotente.

OCR e classificação

Cada página de PDF passa por:

  1. Extração com PyMuPDF (300 DPI mínimo).
  2. OCR primário: Gemini 2.5 Pro com input nativo de PDF (~1 chamada por documento, contexto de 1M tokens).
  3. OCR secundário: Claude Sonnet 4.6 vision per-page, em paralelo.
  4. Reconciliação: comparação CER (Character Error Rate). Se ambos concordam (CER < 10%), output final é o de Gemini. Se discordam (10–20%), arbitragem por Sonnet. Se discordam muito (>20%), Opus arbitra.
  5. Classificação por página: typed / handwritten / mixed / photo / blank / redacted_heavy.
  6. Extração de entidades: pessoas, agências, plataformas, sensores, locais.
  7. Extração de fotos: páginas marcadas como photo viram itens de primeira classe no acervo.

Acurácia esperada: 95–98% em datilografado, 88–93% em manuscrito, redações detectadas com >95% de precisão por área.

Tradução

UI nos três idiomas (PT-BR, EN, ES). Títulos, resumos e captions de fotos traduzidos via Gemini 1.5 Flash (primário), com fallback Anthropic em caso de erro. Cache de tradução por (sha, campo, locale) — re-runs são gratuitos.

Busca

Pagefind — índice WASM gerado em build-time, roda 100% no browser. Sem backend, sem rede após o bundle baixar. Indexa o texto OCR, captions de fotos, metadata e títulos.

Hospedagem

Tudo estático: HTML pré-renderizado em AWS S3, distribuído via CloudFront. Sem Lambda, sem RDS, sem OpenSearch. Mídia (PDFs, MP4s, fotos) em bucket separado com cache imutável.

Reprodutibilidade

  • Pipeline em Docker com versões pinadas.
  • Cada execução tem run_id único.
  • Output versionado.
  • Dumps mensais publicados como release assets.
UFO Archive

Public archive of UFO/UAP documents released by the US Department of War

Documents
About
Preserved archive.

Official source: war.gov/UFO/

US government content in the public domain (17 U.S.C. § 105). Curation under MIT license.