Uma pesquisa muito menor conduzida por Axios e Ipsos teve um erro de apenas 4 pontos percentuais, diz o artigo da Nature. Essa pesquisa é baseada em um painel online com apenas cerca de 1.000 respostas por semana, mas usa as melhores práticas para obter um corte transversal representativo.
Perguntas em torno da vacina Covid-19 e seu lançamento.
Por um lado, a pesquisa Delphi-Facebook produziu resultados que não são melhores do que uma amostra aleatória simples de apenas 10 pessoas, escrevem os autores do artigo da Nature. “Nossa mensagem central”, concluem eles, “é que a qualidade dos dados é mais importante do que a quantidade de dados e que compensar a primeira com a última é uma proposição perdedora matematicamente provável”.
Uma equipe de seis acadêmicos da Universidade de Harvard e da Universidade de Oxford fez a pesquisa. Eles são uma mistura de estatísticos, cientistas políticos e cientistas da computação. Os autores principais são Valerie Bradley de Oxford e Shiro Kuriwaki, ex-Harvard, agora um novo professor assistente em Yale. Os membros seniores da equipe são Seth Flaxman de Oxford e Meng de Harvard. Os outros dois autores são Michael Isakov, de Harvard, e Dino Sejdinovic, de Oxford.
Meng vem chamando atenção para o paradoxo do big data há anos. eu escreveu sobre o trabalho dele no início deste ano, quando estava trabalhando para a Bloomberg Businessweek. A intuição é que, se você solicitar opiniões sobre Taylor Swift enquanto estiver em um de seus shows, não obterá uma boa leitura da opinião geral. Como eu escrevi:
Em uma amostra perfeitamente aleatória, não há correlação entre a opinião de alguém e sua chance de ser incluído nos dados. Se houver uma correlação de 0,5 por cento – ou seja, uma pequena quantidade de viés de seleção – a amostra não aleatória de 2,3 milhões não será melhor do que a amostra aleatória de 400, diz Meng.
Isso é uma redução no tamanho efetivo da amostra de 99,98 por cento.
Isso não é apenas teoria: os estatísticos estimam que havia uma correlação de 0,5 por cento contaminando as pesquisas presidenciais de 2016, presumivelmente porque os apoiadores de Donald Trump eram ligeiramente menos propensos a expressar sua preferência pelos pesquisadores. É por isso que tantos pesquisadores foram pegos de surpresa quando Trump venceu. As pesquisas de 2020 sofreram problemas semelhantes.
Tanto a pesquisa Delphi-Facebook quanto a pesquisa Household Pulse Survey do Census Bureau foram amplamente citadas nas notícias e em pesquisas acadêmicas. O Delphi Research Group, a time de pesquisa na Carnegie Mellon University, que colabora com o Facebook, tem um página da Internet com links para 15 publicações, incluindo revistas como Science e Lancet Digital Health. (Existem maneiras de os estudiosos fazerem uso válido de dados imperfeitos, como reponderá-los para melhor aproximar a composição da população, mas eles precisam agir com cuidado, dizem os autores.)
Entrei em contato com as equipes do Delphi-Facebook e do Census Bureau para obter as respostas ao artigo da Nature. Uma porta-voz do Census Bureau me encaminhou para o escritório Descrição do Household Pulse Survey, que afirma que “foi projetado para ser implantado de forma rápida e eficiente”, mas é experimental. A página acrescenta: “Os dados experimentais do Census Bureau podem não atender a todos os nossos padrões de qualidade”.
Uma pesquisa muito menor conduzida por Axios e Ipsos teve um erro de apenas 4 pontos percentuais, diz o artigo da Nature. Essa pesquisa é baseada em um painel online com apenas cerca de 1.000 respostas por semana, mas usa as melhores práticas para obter um corte transversal representativo.
Perguntas em torno da vacina Covid-19 e seu lançamento.
Por um lado, a pesquisa Delphi-Facebook produziu resultados que não são melhores do que uma amostra aleatória simples de apenas 10 pessoas, escrevem os autores do artigo da Nature. “Nossa mensagem central”, concluem eles, “é que a qualidade dos dados é mais importante do que a quantidade de dados e que compensar a primeira com a última é uma proposição perdedora matematicamente provável”.
Uma equipe de seis acadêmicos da Universidade de Harvard e da Universidade de Oxford fez a pesquisa. Eles são uma mistura de estatísticos, cientistas políticos e cientistas da computação. Os autores principais são Valerie Bradley de Oxford e Shiro Kuriwaki, ex-Harvard, agora um novo professor assistente em Yale. Os membros seniores da equipe são Seth Flaxman de Oxford e Meng de Harvard. Os outros dois autores são Michael Isakov, de Harvard, e Dino Sejdinovic, de Oxford.
Meng vem chamando atenção para o paradoxo do big data há anos. eu escreveu sobre o trabalho dele no início deste ano, quando estava trabalhando para a Bloomberg Businessweek. A intuição é que, se você solicitar opiniões sobre Taylor Swift enquanto estiver em um de seus shows, não obterá uma boa leitura da opinião geral. Como eu escrevi:
Em uma amostra perfeitamente aleatória, não há correlação entre a opinião de alguém e sua chance de ser incluído nos dados. Se houver uma correlação de 0,5 por cento – ou seja, uma pequena quantidade de viés de seleção – a amostra não aleatória de 2,3 milhões não será melhor do que a amostra aleatória de 400, diz Meng.
Isso é uma redução no tamanho efetivo da amostra de 99,98 por cento.
Isso não é apenas teoria: os estatísticos estimam que havia uma correlação de 0,5 por cento contaminando as pesquisas presidenciais de 2016, presumivelmente porque os apoiadores de Donald Trump eram ligeiramente menos propensos a expressar sua preferência pelos pesquisadores. É por isso que tantos pesquisadores foram pegos de surpresa quando Trump venceu. As pesquisas de 2020 sofreram problemas semelhantes.
Tanto a pesquisa Delphi-Facebook quanto a pesquisa Household Pulse Survey do Census Bureau foram amplamente citadas nas notícias e em pesquisas acadêmicas. O Delphi Research Group, a time de pesquisa na Carnegie Mellon University, que colabora com o Facebook, tem um página da Internet com links para 15 publicações, incluindo revistas como Science e Lancet Digital Health. (Existem maneiras de os estudiosos fazerem uso válido de dados imperfeitos, como reponderá-los para melhor aproximar a composição da população, mas eles precisam agir com cuidado, dizem os autores.)
Entrei em contato com as equipes do Delphi-Facebook e do Census Bureau para obter as respostas ao artigo da Nature. Uma porta-voz do Census Bureau me encaminhou para o escritório Descrição do Household Pulse Survey, que afirma que “foi projetado para ser implantado de forma rápida e eficiente”, mas é experimental. A página acrescenta: “Os dados experimentais do Census Bureau podem não atender a todos os nossos padrões de qualidade”.
Discussão sobre isso post