O New York Times informou que o Internal Revenue Service deu um de seus tipos mais rigorosos de auditorias a James B. Comey, ex-diretor do FBI, e a Andrew G. McCabe, seu ex-vice.
Isso gerou muitas perguntas perfeitamente razoáveis, a maioria delas variantes de: Quais são as probabilidades? Como o artigo observou, as chances de que dois inimigos políticos de alto escalão do presidente Donald J. Trump tenham sido auditados por pura coincidência são minúsculas.
Mas minúsculo não é zero.
Se quiséssemos acreditar que isso era uma coincidência, quão improvável diríamos que era? Aqui, tentamos estimar essa probabilidade o mais seriamente possível.
Primeiro, os fatos: os dois homens foram escolhidos para auditorias no âmbito do Programa Nacional de Pesquisa (NRP), um pequeno subconjunto de todas as auditorias que o IRS realiza a cada ano. Essas auditorias examinam uma amostra de declarações para coletar dados sobre conformidade fiscal.
De acordo com o IRS, houve cerca de 5.000 dessas auditorias em 2017, 4.000 em 2018 e 8.000 em 2019 – escolhidas entre cerca de 154 milhões de declarações fiscais individuais a cada ano. A auditoria do Sr. Comey foi para sua declaração de imposto de 2017; O Sr. McCabe foi para seu retorno em 2019.
Muitos aspectos do NRP complicam nossos cálculos, incluindo a metodologia de amostragem dos auditores do IRS e os diferentes anos das próprias auditorias. Voltaremos a essas questões mais adiante. Por enquanto, vamos supor que todos os contribuintes tenham a mesma chance de serem auditados e que ambos foram auditados em 2017.
Se esse problema aparecesse em um livro sobre probabilidade, poderia ser assim:
Se houver 154 milhões de bolinhas de gude (o número aproximado de declarações de impostos apresentadas a cada ano) em uma urna gigante, e algumas delas forem vermelhas (aquelas que representam o Sr. Comey e o Sr. McCabe entre eles), quais são as chances de você irá retirar duas ou mais bolinhas vermelhas se você retirar aleatoriamente alguns milhares da urna (o número de auditorias naquele ano)?
Pode parecer complicado, mas é um problema relativamente bem estudado, algo que muitos estudantes de matemática ou estatística encontrariam em seus cursos universitários. As pessoas já deduziram equações para estimar essas probabilidades, com nomes como distribuição hipergeométricaque tem aplicações como auditoria eleitoral e contagem de cartas.
Podemos simplesmente inserir nossas estimativas para o número total de bolinhas de gude, o número de bolinhas vermelhas e o número de sorteios, e obteremos uma probabilidade. Se acreditarmos que existem apenas duas bolinhas vermelhas – isto é, se limitarmos o exercício a só Sr. McCabe e Sr. Comey – esta equação produz uma probabilidade de aproximadamente um em 950 milhões.
Essas são probabilidades consideravelmente maiores do que suas chances de ganhar a Powerball. É também um resultado quase sem sentido. Na melhor das hipóteses, é a resposta certa para a pergunta errada.
Entender por que requer reconhecer um absurdo inerente ao nosso exercício: para melhor estimar a probabilidade de um evento improvável, devemos deixar de lado o fato de que sabemos que ele já aconteceu. (A probabilidade de que tenha acontecido é de 100 por cento.)
Jordan Ellenbergprofessor da Universidade de Wisconsin que escreveu livros sobre matemática e raciocínio, descreveu assim: “Em algum universo contrafactual, qual é a probabilidade de que essa coisa, que já aconteceu em nosso universo, aconteça?”
Pode parecer estranho, mas os mesmos problemas surgem mesmo em exercícios probabilísticos tão básicos quanto jogar uma moeda.
Se você jogou uma moeda 20 vezes seguidas, sua sequência específica de cara e coroa é extraordinariamente rara, cerca de uma em um milhão, mas aconteceu. E algum seqüência de flips sempre acontecerá. É uma coincidência surpreendente apenas se essa for a sequência que você se propôs a obter antes de virar.
Da mesma forma, é incorreto restringir nossa pesquisa apenas ao Sr. Comey e ao Sr. McCabe, porque é provável que estaríamos examinando essas probabilidades se soubéssemos que dois outro notáveis inimigos políticos de uma administração foram auditados em vez desses dois homens.
Uma pergunta melhor é: Qual é a probabilidade de duas ou mais pessoas Curti O Sr. Comey e o Sr. McCabe seriam auditados durante este período?
Esse grupo de pessoas deveria incluir dois altos funcionários do FBI? Quaisquer dois altos funcionários do Departamento de Justiça? É esse enquadramento – uma decisão subjetiva e não factual – que mais impulsiona qualquer estimativa de probabilidade, mais do que qualquer escolha de distribuição estatística ou pesos amostrais.
Aqui está um gráfico da probabilidade de nossa equação produzir diferentes escolhas para o número de bolinhas vermelhas, variando de dois (Sr. Comey e Sr. McCabe e ninguém mais) a 400 (uma estimativa conservadora do número de americanos Sr. Trump insultado pelo nome no Twitter desde o início de sua candidatura à presidência).
A probabilidade aumenta drasticamente com a escolha de quem deve ser considerado uma bola de gude vermelha ao lado do Sr. Comey e do Sr. McCabe.
A questão não é decidir sobre um número, mas reconhecer que nossa escolha do tamanho do grupo é o que impulsiona nossa resposta. Embora algumas suposições sejam certamente melhores que outras, muitas escolhas são defensáveis.
Abordando os detalhes
Agora vamos tentar restringir algo um pouco mais realista e retornar a algumas das coisas que ignoramos em nossa interpretação simples desse problema.
Primeiro, os dois homens não foram auditados no mesmo ano. Ao ampliar nosso escopo para cobrir o período de três anos de 2017 a 2019, nossas probabilidades resultantes aumentam significativamente. Isso é simples: se uma pessoa tem uma certa chance de ser auditada em um determinado ano, mais anos significa mais oportunidades de ser auditada.
Em segundo lugar, estamos interessados apenas na probabilidade de que pelo menos duas pessoas sejam escolhidas. Não consideraremos a probabilidade de que a mesma pessoa seja escolhida duas vezes; parece improvável, dado que as auditorias podem se estender por mais de um ano, de acordo com o relato de Comey. Observe que estamos analisando a probabilidade de pelo menos duas pessoas serem selecionadas, não exatamente duas, pois também seria significativo se três ou mais indivíduos de um grupo fossem escolhidos.
Finalmente, o IRS não seleciona pessoas de forma verdadeiramente aleatória. Em vez disso, a agência tende a selecionar alguns tipos de contribuintes, incluindo pessoas de alta renda, mais frequentemente do que outros. Para o ano fiscal de 2001, a amostra NRP incluiu retorna de pessoas em torno do percentil 90 de renda a cerca de 1,7 vezes a taxa que se esperaria se os retornos fossem escolhidos independentemente dos ganhos. Essa taxa atingiu os níveis de renda mais altos, de modo que as pessoas com renda nos 0,5% mais ricos tinham mais de 10 vezes mais chances de estar na amostra do que alguém mais próximo da renda mediana.
Provavelmente podemos supor que qualquer grupo de inimigos de Trump ganharia mais do que uma amostra aleatória de americanos. Mas não podemos estimar realisticamente a renda total de todos em nosso grupo em cada ano. Também sabemos que a Receita Federal considerou outros fatores em sua amostragem, como a tipo de retorno que os contribuintes arquivam e que os métodos de amostragem podem mudar de ano para ano. Isso nos deixa com pouca orientação sobre como combinar os métodos do IRS. Como tal, deixaremos nossas estimativas não ponderadas pela receita. Como um exercício de back-of-the-envelope, se você estiver preocupado sobre como a renda afeta esses resultados, você pode dobrar a probabilidade resultante se achar que os membros de um grupo têm ganhos muito altos e multiplicá-la por 10 se achar que eles são extraordinariamente ricos.
Colocando todos juntos
Incorporando essas escolhas, a tabela abaixo fornece algumas probabilidades estimadas dependendo do tamanho do grupo que está sendo considerado.
Alternativamente, caso nossas escolhas não sejam satisfatórias, criamos uma calculadora simples para você fazer suas próprias probabilidades:
Então, qual estimativa é “correta”?
Os resultados mais realistas dessa equação podem ser descritos com precisão como “muito raros” ou até “extraordinariamente raros”, mas nenhum é prova de irregularidades.
“É um pouco como a força irresistível e o objeto imóvel”, disse Andrew Gelman, professor de estatística e ciência política da Universidade de Columbia, quando informado no resumo sobre este exercício. “Por um lado, você está dizendo que é completamente aleatório. Por outro lado, você suspeita que não.
Gelman, como todos os outros estatísticos que falaram com o Times sobre esse problema, disse que o maior obstáculo não eram os detalhes, mas definir a própria questão.
Quando tentamos calcular a probabilidade de um determinado evento Porque suspeitamos que pode não ser aleatório, acabamos na complicada posição de tentar imaginar como teríamos previsto a probabilidade do evento antes da aconteceu, disse David Spiegelhalter. Ele dirige o Winton Center for Risk and Evidence Communication da Universidade de Cambridge, uma organização dedicada a melhorar a forma como a evidência quantitativa é usada na sociedade.
A matemática é fácil, disse ele, mas formular a pergunta é complicado, beirando o “sem sentido”, em grande parte por causa da dificuldade de definir o grupo com o qual nos importamos.
“’Qual é a chance de isso acontecer?’ é uma declaração fácil de fazer”, disse ele. “É uma declaração familiar de se fazer. Mas, na verdade, é uma pergunta muito difícil de responder.”
A matemática tem seus limites. O objetivo de tentar estimar uma probabilidade como essa, disse Gelman, não é colocar muito estoque nos números, mas deixar que o resultado o leve a descobrir mais.
Nesse caso, a melhor pergunta não é aquela com uma resposta que você pode procurar em um livro de estatística.
Em vez disso, disse Gelman, a pergunta a ser feita é: “O que está acontecendo?”
Matthew Cullen relatórios contribuídos.
Discussão sobre isso post