Manifesto
Dado financeiro é infraestrutura pública. Tratamos como tal.
O Brasil publica dados de mercado extraordinários — CVM, B3, BCB, Tesouro, IBGE — mas espalhados, com encodings dos anos 90, gotchas não documentados e sem ponte para a era dos agentes. O DataBolsa é essa ponte: um lake auditável, um contrato de API e ferramentas para humanos e máquinas, tudo aberto.
Princípios
Linhagem em tudo
Cada métrica responde de onde veio: fonte, referência (conta CVM, série SGS, arquivo B3) e URL do dado aberto. Se não dá para auditar, não publicamos.
Sem survivorship bias
Empresas delistadas continuam no histórico — cotações desde 1998 e proventos de 746 emissores incluem quem quebrou, foi comprado ou saiu da bolsa. Backtest sem sobreviventes selecionados.
Point-in-time
Séries macro revisáveis gravam um vintage imutável por dia. O que o mercado sabia na data é o que o backtest enxerga — sem look-ahead.
Fonte oficial, sempre
CVM, B3, BCB, Tesouro, IBGE e FRED — direto da origem, sem agregadores intermediários. Os gotchas de cada fonte estão documentados e verificados ao vivo.
Honestidade sobre limitações
O que não temos, dizemos. Valores não calculáveis aparecem como n/c com o motivo — nunca um zero silencioso ou um campo omitido.
Aberto de ponta a ponta
Apache-2.0. Extratores, contrato OpenAPI, fórmulas dos indicadores e este site são públicos. O modo hosted serve só fontes abertas; B3 e Binance são fetch-your-own.
Limitações conhecidas
A honestidade é uma feature.
Estes são os gaps reais documentados pela nossa própria revisão adversarial — antes que você descubra do jeito difícil num backtest.
Eventos societários de delistadas
Desdobramentos/grupamentos anteriores ao delisting não têm fonte pública — preço ajustado de tickers extintos pode estar incorreto quando houve split. Mitigação planejada: detectar quebras de preço >40% sem provento e marcar a qualidade do ajuste.
Vintages começam em jun/2026
O mecanismo point-in-time existe, mas a profundidade do histórico de vintages só cresce com o acúmulo diário daqui em diante.
Risco-país sem fonte viva
O EMBI+ via Ipeadata foi descontinuado em jul/2024. O histórico 1994–2024 está no lake; o nível corrente precisa de CDS 5y, que não tem fonte aberta.
Estado do projeto
Ingestãoconcluído
18 conectores, lake Parquet auditável, validadores, vintages
Contrato da APIconcluído
OpenAPI 3.1 design-first, 30+ operações
Warehouse (dbt)concluído
indicadores materializados com linhagem
API servidaconcluído
implementação do contrato sobre o warehouse (Hono + Drizzle)
Site ao vivoconcluído
design system, páginas servidas pela API, playground
CLI + MCPconcluído
as mesmas operações para terminais e agentes
Vivo e crescendo
os vintages point-in-time se acumulam todo dia e novos conectores chegam — a base fica mais profunda e valiosa a cada dia que passa
Licença Apache-2.0 · contribuições bem-vindas · feito no Brasil