Passo o dia defendendo o uso de dados pra decidir. Então talvez soe estranho eu dizer o seguinte: a parte mais importante do ofício é lembrar de tudo que os dados não estão dizendo.
Quem começa acha que o número é a verdade. Quem roda há um tempo aprende que o número é uma sombra da verdade, projetada por um processo de medição cheio de buracos. A sombra é útil. Mas confundir a sombra com o objeto é o erro mais caro que existe, e o mais comum.
A amostra que sobreviveu
A história clássica é a dos aviões da Segunda Guerra. Analisaram onde os bombardeiros voltavam mais furados pra reforçar a blindagem nesses pontos. Um estatístico apontou o óbvio que ninguém tinha visto: esses eram os aviões que voltaram. Os furos que importavam estavam nos aviões que não voltaram, e por isso não estavam na amostra. A blindagem certa era nos lugares sem furo nenhum.
Esse viés está em todo lugar, não só em guerra. Eu olho meus clientes atuais e tiro conclusões sobre o mercado, esquecendo que estou olhando só quem ficou. Eu analiso quem respondeu a pesquisa, esquecendo de quem deletou o e-mail. O dataset quase sempre é a lista dos sobreviventes, e a história mais importante costuma estar com os ausentes, que por definição não aparecem em lugar nenhum da planilha.
O buraco que não está marcado
Tem dois tipos de coisa que faltam num dado. Tem o que falta e está marcado como faltante, a célula vazia, o NA. Esse é o fácil. Já escrevi sobre como tratar dados ausentes de forma honesta, e existe técnica boa pra isso.
O difícil é o que falta e não está marcado. A variável que ninguém coletou porque ninguém pensou nela. O contexto que estava óbvio pra quem gerou o dado e se perdeu no caminho. A pergunta que não foi feita. Esse buraco não aparece como célula vazia, ele aparece como uma conclusão confiante e incompleta. E é justamente por não ter um símbolo que avise “aqui falta coisa” que ele engana tão bem.
Quando medir muda o que é medido
Tem um efeito que me fascina e me assusta na mesma medida. No instante em que uma métrica vira meta, ela para de medir o que media.
Se eu avalio um time de suporte pelo número de chamados fechados, em pouco tempo os chamados são fechados rápido e mal. A métrica sobe linda. O atendimento piora. O número não está mentindo sobre quantos chamados fecharam, ele está mentindo sobre a coisa que eu realmente queria saber, que era se o cliente saiu satisfeito. O alvo se mexeu no exato momento em que eu mirei nele.
Isso me deixa permanentemente desconfiado de qualquer dashboard bonito demais. Número que só sobe costuma ser número que aprenderam a fazer subir.
A correlação que não significa nada
Junte variáveis suficientes e algumas vão andar juntas por puro acaso. Não porque uma causa a outra, não porque compartilham uma causa comum, mas porque o acaso, com dados o bastante, sempre entrega um padrão pra quem quiser muito encontrar um.
A parte perigosa não é a correlação espúria em si. É a facilidade com que a gente inventa uma história plausível pra ela depois do fato. O cérebro odeia coincidência e ama narrativa. Mostre dois gráficos que sobem juntos e em segundos alguém na sala já tem uma teoria convincente de causa e efeito. A teoria parece sólida. O que a sustenta é só a nossa aversão ao acaso.
Por que isso me deixa melhor, não pior
Pode parecer que reconhecer tantos limites enfraquece o trabalho com dados. É o contrário. O que enfraquece é a confiança cega, porque ela quebra exatamente quando mais importa, na decisão grande, na hora errada.
Saber o que o dado não conta não é desistir do dado. É usá-lo com a margem de segurança certa. É dizer “isso aqui sugere um caminho, e aqui estão as três condições que, se forem falsas, derrubam tudo”. Quem fala assim não parece menos competente. Parece alguém em quem dá pra confiar uma decisão de verdade.
Dominar uma ferramenta é conhecer o que ela faz. Conhecer os limites dela é o que separa quem usa a ferramenta de quem é usado por ela.
Comentários