Como o modelo de segmentação do Facebook da Cambridge Analytica realmente funcionouCom que precisão você pode ser analisado on-line? Andrew Krasovitckii / Shutterstock.com

O pesquisador cujo trabalho está no centro do Análise de dados do Facebook-Cambridge Analytica e alvoroço de publicidade política revelou que seu método funcionou muito como o Netflix usa para recomendar filmes.

Em um email para mim, o acadêmico da Universidade de Cambridge, Aleksandr Kogan, explicou como seu modelo estatístico processou os dados do Facebook para o Cambridge Analytica. A precisão que ele afirma sugere que funciona tão bem quanto métodos estabelecidos de seleção de eleitores com base em dados demográficos, como raça, idade e sexo.

Se confirmada, a explicação de Kogan significaria que a modelagem digital que Cambridge Analytica usou foi dificilmente a bola de cristal virtual alguns reivindicaram. No entanto, os números que Kogan fornece também mostra o que é - e não é - realmente possível by combinando dados pessoais com aprendizado de máquina para fins políticos.

No entanto, em relação a uma preocupação pública importante, os números de Kogan sugerem que as informações sobre as personalidades dos usuários ou “psicografiaFoi apenas uma parte modesta de como o modelo visava os cidadãos. Não era um modelo de personalidade estritamente falando, mas sim um que resumia demografia, influências sociais, personalidade e tudo o mais em um grande bloco correlacionado. Essa abordagem de absorver toda a correlação e chamar de personalidade parece ter criado uma ferramenta de campanha valiosa, mesmo que o produto que está sendo vendido não estivesse exatamente como foi faturado.


innerself assinar gráfico


A promessa de segmentação por personalidade

Na esteira das revelações que os consultores de campanha da Trump, Cambridge Analytica, usaram dados de 50 milhões de usuários do Facebook para atingir a propaganda política digital durante a eleição presidencial dos EUA, o Facebook tem perdeu bilhões em valor de mercado de ações, governos em ambos os lados do Atlântico investigações abertase uma nascente movimento social está chamando os usuários para #DeleteFacebook.

Mas uma questão-chave permaneceu sem resposta: o Cambridge Analytica era realmente capaz de direcionar mensagens de campanha aos cidadãos com base em suas características de personalidade - ou até mesmodemônios interiores”, Como um denunciante da empresa alegou?

Se alguém soubesse o que a Cambridge Analytica fez com seu enorme acervo de dados do Facebook, seria Aleksandr Kogan e Joseph Chancellor. isso foi sua startup Global Science Research que coletou informações de perfil de Usuários do 270,000 Facebook e dezenas de milhões de seus amigos usando um aplicativo de teste de personalidade chamado "thisisyourdigitallife".

Parte da minha própria pesquisa concentra-se na compreensão aprendizado de máquina métodos e meu próximo livro discute como as empresas digitais usam modelos de recomendação para criar audiências. Eu tinha um palpite sobre como o modelo de Kogan e Chanceler funcionava.

Então eu enviei um email para Kogan para perguntar. Kogan ainda é um pesquisador na Universidade de Cambridge; seu colaborador Chanceler agora trabalha no Facebook. Em uma notável demonstração de cortesia acadêmica, Kogan respondeu.

Sua resposta requer alguma descompactação e algum histórico.

Do Prêmio Netflix à “psicometria”

Na 2006, quando ainda era uma empresa de DVD por email, a Netflix oferecia recompensa de US $ 1 milhões para quem desenvolveu uma maneira melhor de fazer previsões sobre as classificações de filmes dos usuários do que a empresa já tinha. Um concorrente top surpresa foi um Desenvolvedor de software independente usando o pseudônimo Simon Funk, cuja abordagem básica foi finalmente incorporada em todas as entradas das principais equipes. Funk adaptou uma técnica chamada “decomposição de valor singular”, Condensando as classificações dos usuários de filmes em série de fatores ou componentes - essencialmente um conjunto de categorias inferidas, classificadas por importância. Como funk explicado em uma postagem no blog,

“Assim, por exemplo, uma categoria pode representar filmes de ação, com filmes com muita ação no topo e filmes lentos na parte inferior, e correspondentemente usuários que gostam de filmes de ação no topo, e aqueles que preferem filmes lentos no cinema. inferior."

Fatores são categorias artificiais, que nem sempre são como o tipo de categorias que os humanos criariam. o fator mais importante no modelo inicial do Netflix do Funk foi definido por usuários que adoravam filmes como “Pearl Harbor” e “The Wedding Planner” e também odiavam filmes como “Lost in Translation” ou “Eternal Sunshine of the Spotless Mind”. Seu modelo mostrou como o aprendizado de máquina pode encontrar correlações entre grupos de pessoas e grupos de filmes que os humanos nunca identificariam.

A abordagem geral do Funk usou os fatores 50 ou 100 mais importantes para usuários e filmes para adivinhar como cada usuário avaliaria cada filme. Este método, frequentemente chamado redução de dimensionalidade ou fatoração de matriz, não era nova. Pesquisadores de ciência política mostraram que técnicas semelhantes usando dados de votação nominal poderia prever os votos dos membros do Congresso com uma precisão percentual de 90. Na psicologia, o “Cinco grandesO modelo também havia sido usado para prever o comportamento agrupando questões de personalidade que tendiam a ser respondidas de maneira semelhante.

Ainda assim, o modelo de Funk foi um grande avanço: permitiu que a técnica funcionasse bem com grandes conjuntos de dados, mesmo aqueles com muitos dados ausentes - como o conjunto de dados Netflix, em que um usuário típico classificava apenas algumas dúzias de filmes na empresa. biblioteca. Mais de uma década depois do final do concurso do Prêmio Netflix, Métodos baseados em SVDou modelos relacionados para dados implícitosainda são a ferramenta preferida de muitos sites para prever o que os usuários lerão, assistirão ou comprarão.

Esses modelos podem prever outras coisas também.

Facebook sabe se você é um republicano

Na 2013, os pesquisadores da Universidade de Cambridge Michal Kosinski, David Stillwell e Thore Graepel publicaram um artigo sobre o poder preditivo dos dados do Facebook, usando informações coletadas por meio de um teste de personalidade online. Sua análise inicial foi quase idêntica à usada no Prêmio Netflix, usando o SVD para categorizar os usuários e as coisas que eles “gostavam” nos principais fatores 100.

O artigo mostrou que um modelo de fator feito apenas com os usuários do Facebook "curtiu" foi 95 por cento exato na distinção entre respondentes negros e brancos, 93 por cento precisos em distinguir homens de mulheres e 88 por cento precisos em distinguir pessoas que identificaram como homossexuais masculinos que se identificaram como heterossexuais. Pode até mesmo distinguir corretamente os republicanos dos democratas 85 por cento do tempo. Também foi útil, embora não tão preciso, prevendo as pontuações dos usuários no teste de personalidade "Big Five".

Houve protesto publico em resposta; dentro de semanas o Facebook teve fez os gostos dos usuários privados por padrão.

Kogan e Chancellor, também pesquisadores da Universidade de Cambridge na época, estavam começando a usar os dados do Facebook para segmentação eleitoral como parte de uma colaboração com a empresa matriz da Cambridge Analytica, a SCL. Kogan convidou Kosinski e Stillwell para participar de seu projeto, mas não deu certo. Kosinski teria suspeitado que Kogan e Chanceler poderiam ter engenharia reversa do modelo "curtir" do Facebook para Cambridge Analytica. Kogan negou isso, dizendo que seu projeto “construiu todos os nossos modelos usando nossos próprios dados, coletados usando nosso próprio software. ”

O que Kogan e Chanceler realmente fizeram?

À medida que acompanhei os desenvolvimentos da história, ficou claro que Kogan e o Chanceler haviam, de fato, coletado muitos dados próprios por meio desse aplicativo de vida realista. Eles certamente poderiam ter construído um modelo SVD preditivo como o que foi publicado na pesquisa publicada por Kosinski e Stillwell.

Então eu enviei um email para Kogan para perguntar se era isso que ele tinha feito. Um pouco para minha surpresa, ele escreveu de volta.

"Nós não usamos exatamente o SVD", escreveu ele, observando que o SVD pode ter dificuldades quando alguns usuários têm muito mais "curtidas" do que outros. Em vez disso, Kogan explicou: "A técnica foi algo que realmente nos desenvolvemos ... Não é algo que está no domínio público". Sem entrar em detalhes, Kogan descreveu seu método como "um passo múltiplo". co-ocorrência abordagem."

No entanto, sua mensagem confirmou que sua abordagem era de fato semelhante ao SVD ou a outros métodos de fatoração de matriz, como na competição do Prêmio Netflix, e ao modelo do Facebook Kosinki-Stillwell-Graepel. A redução de dimensionalidade dos dados do Facebook foi o cerne de seu modelo.

Quão preciso foi?

Kogan sugeriu que o modelo exato usado não importa muito - o que importa é a exatidão de suas previsões. De acordo com Kogan, a “correlação entre as pontuações previstas e as reais… estava em torno de [30 por cento] para todas as dimensões da personalidade”. Em comparação, as pontuações anteriores da Big Five de uma pessoa são sobre 70 para 80 por cento de precisão na previsão de suas pontuações quando eles retomam o teste.

As afirmações de exatidão de Kogan não podem ser verificadas independentemente, é claro. E qualquer um no meio de tal escândalo de alto perfil poderia ter incentivo para subestimar sua contribuição. No dele aparição na CNNKogan explicou a um cada vez mais incrédulo Anderson Cooper que, na verdade, as modelos não funcionaram muito bem.

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan responde a perguntas na CNN.

De fato, a precisão que Kogan afirma parece um pouco baixa, mas plausível. Kosinski, Stillwell e Graepel relataram resultados comparáveis ​​ou ligeiramente melhores, assim outros estudos acadêmicos usando pegadas digitais para prever a personalidade (embora alguns desses estudos tivessem mais dados do que apenas “curtir” no Facebook). É surpreendente que Kogan e o Chanceler se dariam ao trabalho de projetar seu próprio modelo proprietário, se as soluções de prateleira parecessem tão precisas.

É importante ressaltar, porém, que a precisão do modelo nos escores de personalidade permite comparações dos resultados de Kogan com outras pesquisas. Modelos publicados com exatidão equivalente na previsão da personalidade são muito mais precisos na adivinhação de variáveis ​​demográficas e políticas.

Por exemplo, o modelo similar SVD Kosinski-Stillwell-Graepel foi 85 por cento exato na adivinhação da filiação partidária, mesmo sem usar qualquer outra informação de perfil que não seja a de curtir. O modelo de Kogan tinha precisão semelhante ou melhor. Adicionar até mesmo uma pequena quantidade de informações sobre os dados de amigos ou usuários provavelmente aumentaria essa precisão acima de 90 por cento. Os palpites sobre sexo, raça, orientação sexual e outras características provavelmente seriam mais de 90 por cento precisos também.

Criticamente, essas suposições seriam especialmente boas para os usuários mais ativos do Facebook - as pessoas que o modelo era usado principalmente para segmentar. Os usuários com menos atividade para analisar provavelmente não estão muito no Facebook.

Quando a psicografia é principalmente demográfica

Saber como o modelo é construído ajuda a explicar as declarações aparentemente contraditórias da Cambridge Analytica sobre o papel - ou falta dela - aquele perfil de personalidade e psicografia jogou em sua modelagem. Eles são tecnicamente consistentes com o que Kogan descreve.

Um modelo como o de Kogan daria estimativas para todas as variáveis ​​disponíveis em qualquer grupo de usuários. Isso significa que seria automaticamente estimar os escores de personalidade Big Five para todo eleitor. Mas essas pontuações de personalidade são a saída do modelo, não a entrada. Tudo o que o modelo sabe é que certos likes do Facebook e certos usuários tendem a ser agrupados.

Com esse modelo, a Cambridge Analytica poderia dizer que estava identificando pessoas com baixa abertura para experiência e alto neuroticismo. Mas o mesmo modelo, com exatamente as mesmas previsões para todos os usuários, poderia exatamente afirmar que está identificando homens republicanos mais velhos e menos instruídos.

A informação de Kogan também ajuda a esclarecer a confusão sobre se Cambridge Analytica realmente excluiu o seu tesouro de dados do Facebook, quando os modelos construídos a partir dos dados parece ainda estar circulando, e até mesmo sendo desenvolvido ainda.

A ConversaçãoO ponto principal de um modelo de redução de dimensão é representar matematicamente os dados de forma mais simples. É como se o Cambridge Analytica tirasse uma fotografia de alta resolução, redimensionasse para ser menor e depois apagasse o original. A foto ainda existe - e, desde que existam modelos da Cambridge Analytica, os dados também são eficazes.

Sobre o autor

Matthew Hindman, Professor Associado de Mídia e Assuntos Públicos, Universidade George Washington

Este artigo foi originalmente publicado em A Conversação. Leia o artigo original.

Livros relacionados

at InnerSelf Market e Amazon