Como o modelo de segmentação do Facebook da Cambridge Analytica realmente funcionou

: By Matthew Hindman, Universidade George Washington

Obrigado pela visita InnerSelf.com, onde existem 20,000+ artigos que alteram vidas promovendo "Novas Atitudes e Novas Possibilidades". Todos os artigos são traduzidos para Mais de 30 idiomas. Subscrever à InnerSelf Magazine, publicada semanalmente, e ao Daily Inspiration de Marie T Russell. Revista Innerself é publicado desde 1985.

quebrar

Como o modelo de segmentação do Facebook da Cambridge Analytica realmente funcionou Com que precisão você pode ser analisado on-line? Andrew Krasovitckii / Shutterstock.com

O pesquisador cujo trabalho está no centro do Análise de dados do Facebook-Cambridge Analytica e alvoroço de publicidade política revelou que seu método funcionou muito como o Netflix usa para recomendar filmes.

Em um email para mim, o acadêmico da Universidade de Cambridge, Aleksandr Kogan, explicou como seu modelo estatístico processou os dados do Facebook para o Cambridge Analytica. A precisão que ele afirma sugere que funciona tão bem quanto métodos estabelecidos de seleção de eleitores com base em dados demográficos, como raça, idade e sexo.

Se confirmada, a explicação de Kogan significaria que a modelagem digital que Cambridge Analytica usou foi dificilmente a bola de cristal virtual alguns reivindicaram. No entanto, os números que Kogan fornece também mostra o que é - e não é - realmente possível by combinando dados pessoais com aprendizado de máquina para fins políticos.

No entanto, em relação a uma preocupação pública importante, os números de Kogan sugerem que as informações sobre as personalidades dos usuários ou “psicografiaFoi apenas uma parte modesta de como o modelo visava os cidadãos. Não era um modelo de personalidade estritamente falando, mas sim um que resumia demografia, influências sociais, personalidade e tudo o mais em um grande bloco correlacionado. Essa abordagem de absorver toda a correlação e chamar de personalidade parece ter criado uma ferramenta de campanha valiosa, mesmo que o produto que está sendo vendido não estivesse exatamente como foi faturado.

A promessa de segmentação por personalidade

Na esteira das revelações que os consultores de campanha da Trump, Cambridge Analytica, usaram dados de 50 milhões de usuários do Facebook para atingir a propaganda política digital durante a eleição presidencial dos EUA, o Facebook tem perdeu bilhões em valor de mercado de ações, governos em ambos os lados do Atlântico investigações abertase uma nascente movimento social está chamando os usuários para #DeleteFacebook.

Mas uma questão-chave permaneceu sem resposta: o Cambridge Analytica era realmente capaz de direcionar mensagens de campanha aos cidadãos com base em suas características de personalidade - ou até mesmodemônios interiores”, Como um denunciante da empresa alegou?

Se alguém soubesse o que a Cambridge Analytica fez com seu enorme acervo de dados do Facebook, seria Aleksandr Kogan e Joseph Chancellor. isso foi sua startup Global Science Research que coletou informações de perfil de Usuários do 270,000 Facebook e dezenas de milhões de seus amigos usando um aplicativo de teste de personalidade chamado "thisisyourdigitallife".

Parte da minha própria pesquisa concentra-se na compreensão aprendizado de máquina métodos e meu próximo livro discute como as empresas digitais usam modelos de recomendação para criar audiências. Eu tinha um palpite sobre como o modelo de Kogan e Chanceler funcionava.

Então eu enviei um email para Kogan para perguntar. Kogan ainda é um pesquisador na Universidade de Cambridge; seu colaborador Chanceler agora trabalha no Facebook. Em uma notável demonstração de cortesia acadêmica, Kogan respondeu.

Sua resposta requer alguma descompactação e algum histórico.

Do Prêmio Netflix à “psicometria”

Na 2006, quando ainda era uma empresa de DVD por email, a Netflix oferecia recompensa de US $ 1 milhões para quem desenvolveu uma maneira melhor de fazer previsões sobre as classificações de filmes dos usuários do que a empresa já tinha. Um concorrente top surpresa foi um Desenvolvedor de software independente usando o pseudônimo Simon Funk, cuja abordagem básica foi finalmente incorporada em todas as entradas das principais equipes. Funk adaptou uma técnica chamada “decomposição de valor singular”, Condensando as classificações dos usuários de filmes em série de fatores ou componentes - essencialmente um conjunto de categorias inferidas, classificadas por importância. Como funk explicado em uma postagem no blog,

“Assim, por exemplo, uma categoria pode representar filmes de ação, com filmes com muita ação no topo e filmes lentos na parte inferior, e correspondentemente usuários que gostam de filmes de ação no topo, e aqueles que preferem filmes lentos no cinema. inferior."

Fatores são categorias artificiais, que nem sempre são como o tipo de categorias que os humanos criariam. o fator mais importante no modelo inicial do Netflix do Funk foi definido por usuários que adoravam filmes como “Pearl Harbor” e “The Wedding Planner” e também odiavam filmes como “Lost in Translation” ou “Eternal Sunshine of the Spotless Mind”. Seu modelo mostrou como o aprendizado de máquina pode encontrar correlações entre grupos de pessoas e grupos de filmes que os humanos nunca identificariam.

A abordagem geral do Funk usou os fatores 50 ou 100 mais importantes para usuários e filmes para adivinhar como cada usuário avaliaria cada filme. Este método, frequentemente chamado redução de dimensionalidade ou fatoração de matriz, não era nova. Pesquisadores de ciência política mostraram que técnicas semelhantes usando dados de votação nominal poderia prever os votos dos membros do Congresso com uma precisão percentual de 90. Na psicologia, o “Cinco grandesO modelo também havia sido usado para prever o comportamento agrupando questões de personalidade que tendiam a ser respondidas de maneira semelhante.

Ainda assim, o modelo de Funk foi um grande avanço: permitiu que a técnica funcionasse bem com grandes conjuntos de dados, mesmo aqueles com muitos dados ausentes - como o conjunto de dados Netflix, em que um usuário típico classificava apenas algumas dúzias de filmes na empresa. biblioteca. Mais de uma década depois do final do concurso do Prêmio Netflix, Métodos baseados em SVDou modelos relacionados para dados implícitosainda são a ferramenta preferida de muitos sites para prever o que os usuários lerão, assistirão ou comprarão.

Esses modelos podem prever outras coisas também.

Facebook sabe se você é um republicano

Na 2013, os pesquisadores da Universidade de Cambridge Michal Kosinski, David Stillwell e Thore Graepel publicaram um artigo sobre o poder preditivo dos dados do Facebook, usando informações coletadas por meio de um teste de personalidade online. Sua análise inicial foi quase idêntica à usada no Prêmio Netflix, usando o SVD para categorizar os usuários e as coisas que eles “gostavam” nos principais fatores 100.

O artigo mostrou que um modelo de fator feito apenas com os usuários do Facebook "curtiu" foi 95 por cento exato na distinção entre respondentes negros e brancos, 93 por cento precisos em distinguir homens de mulheres e 88 por cento precisos em distinguir pessoas que identificaram como homossexuais masculinos que se identificaram como heterossexuais. Pode até mesmo distinguir corretamente os republicanos dos democratas 85 por cento do tempo. Também foi útil, embora não tão preciso, prevendo as pontuações dos usuários no teste de personalidade "Big Five".

Houve protesto publico em resposta; dentro de semanas o Facebook teve fez os gostos dos usuários privados por padrão.

Kogan e Chancellor, também pesquisadores da Universidade de Cambridge na época, estavam começando a usar os dados do Facebook para segmentação eleitoral como parte de uma colaboração com a empresa matriz da Cambridge Analytica, a SCL. Kogan convidou Kosinski e Stillwell para participar de seu projeto, mas não deu certo. Kosinski teria suspeitado que Kogan e Chanceler poderiam ter engenharia reversa do modelo "curtir" do Facebook para Cambridge Analytica. Kogan negou isso, dizendo que seu projeto “construiu todos os nossos modelos usando nossos próprios dados, coletados usando nosso próprio software. ”

O que Kogan e Chanceler realmente fizeram?

À medida que acompanhei os desenvolvimentos da história, ficou claro que Kogan e o Chanceler haviam, de fato, coletado muitos dados próprios por meio desse aplicativo de vida realista. Eles certamente poderiam ter construído um modelo SVD preditivo como o que foi publicado na pesquisa publicada por Kosinski e Stillwell.

Então eu enviei um email para Kogan para perguntar se era isso que ele tinha feito. Um pouco para minha surpresa, ele escreveu de volta.

"Nós não usamos exatamente o SVD", escreveu ele, observando que o SVD pode ter dificuldades quando alguns usuários têm muito mais "curtidas" do que outros. Em vez disso, Kogan explicou: "A técnica foi algo que realmente nos desenvolvemos ... Não é algo que está no domínio público". Sem entrar em detalhes, Kogan descreveu seu método como "um passo múltiplo". co-ocorrência abordagem."

No entanto, sua mensagem confirmou que sua abordagem era de fato semelhante ao SVD ou a outros métodos de fatoração de matriz, como na competição do Prêmio Netflix, e ao modelo do Facebook Kosinki-Stillwell-Graepel. A redução de dimensionalidade dos dados do Facebook foi o cerne de seu modelo.

Quão preciso foi?

Kogan sugeriu que o modelo exato usado não importa muito - o que importa é a exatidão de suas previsões. De acordo com Kogan, a “correlação entre as pontuações previstas e as reais… estava em torno de [30 por cento] para todas as dimensões da personalidade”. Em comparação, as pontuações anteriores da Big Five de uma pessoa são sobre 70 para 80 por cento de precisão na previsão de suas pontuações quando eles retomam o teste.

As afirmações de exatidão de Kogan não podem ser verificadas independentemente, é claro. E qualquer um no meio de tal escândalo de alto perfil poderia ter incentivo para subestimar sua contribuição. No dele aparição na CNNKogan explicou a um cada vez mais incrédulo Anderson Cooper que, na verdade, as modelos não funcionaram muito bem.

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan responde a perguntas na CNN.

De fato, a precisão que Kogan afirma parece um pouco baixa, mas plausível. Kosinski, Stillwell e Graepel relataram resultados comparáveis ou ligeiramente melhores, assim outros estudos acadêmicos usando pegadas digitais para prever a personalidade (embora alguns desses estudos tivessem mais dados do que apenas “curtir” no Facebook). É surpreendente que Kogan e o Chanceler se dariam ao trabalho de projetar seu próprio modelo proprietário, se as soluções de prateleira parecessem tão precisas.

É importante ressaltar, porém, que a precisão do modelo nos escores de personalidade permite comparações dos resultados de Kogan com outras pesquisas. Modelos publicados com exatidão equivalente na previsão da personalidade são muito mais precisos na adivinhação de variáveis demográficas e políticas.

Por exemplo, o modelo similar SVD Kosinski-Stillwell-Graepel foi 85 por cento exato na adivinhação da filiação partidária, mesmo sem usar qualquer outra informação de perfil que não seja a de curtir. O modelo de Kogan tinha precisão semelhante ou melhor. Adicionar até mesmo uma pequena quantidade de informações sobre os dados de amigos ou usuários provavelmente aumentaria essa precisão acima de 90 por cento. Os palpites sobre sexo, raça, orientação sexual e outras características provavelmente seriam mais de 90 por cento precisos também.

Criticamente, essas suposições seriam especialmente boas para os usuários mais ativos do Facebook - as pessoas que o modelo era usado principalmente para segmentar. Os usuários com menos atividade para analisar provavelmente não estão muito no Facebook.

Quando a psicografia é principalmente demográfica

Saber como o modelo é construído ajuda a explicar as declarações aparentemente contraditórias da Cambridge Analytica sobre o papel - ou falta dela - aquele perfil de personalidade e psicografia jogou em sua modelagem. Eles são tecnicamente consistentes com o que Kogan descreve.

Um modelo como o de Kogan daria estimativas para todas as variáveis disponíveis em qualquer grupo de usuários. Isso significa que seria automaticamente estimar os escores de personalidade Big Five para todo eleitor. Mas essas pontuações de personalidade são a saída do modelo, não a entrada. Tudo o que o modelo sabe é que certos likes do Facebook e certos usuários tendem a ser agrupados.

Com esse modelo, a Cambridge Analytica poderia dizer que estava identificando pessoas com baixa abertura para experiência e alto neuroticismo. Mas o mesmo modelo, com exatamente as mesmas previsões para todos os usuários, poderia exatamente afirmar que está identificando homens republicanos mais velhos e menos instruídos.

A informação de Kogan também ajuda a esclarecer a confusão sobre se Cambridge Analytica realmente excluiu o seu tesouro de dados do Facebook, quando os modelos construídos a partir dos dados parece ainda estar circulando, e até mesmo sendo desenvolvido ainda.

O ponto principal de um modelo de redução de dimensão é representar matematicamente os dados de forma mais simples. É como se o Cambridge Analytica tirasse uma fotografia de alta resolução, redimensionasse para ser menor e depois apagasse o original. A foto ainda existe - e, desde que existam modelos da Cambridge Analytica, os dados também são eficazes.

Sobre o autor

Matthew Hindman, Professor Associado de Mídia e Assuntos Públicos, Universidade George Washington

Este artigo foi originalmente publicado em A Conversação. Leia o artigo original.

Livros relacionados

at InnerSelf Market e Amazon

quebrar

Obrigado pela visita InnerSelf.com, onde existem 20,000+ artigos que alteram vidas promovendo "Novas Atitudes e Novas Possibilidades". Todos os artigos são traduzidos para Mais de 30 idiomas. Subscrever à InnerSelf Magazine, publicada semanalmente, e ao Daily Inspiration de Marie T Russell. Revista Innerself é publicado desde 1985.

Idiomas disponíveis

siga InnerSelf on

Autores InnerSelf

uma mulher alegre segurando um guarda-sol

Inspiração diária do InnerSelf: 18º de abril de 2024

Júlia Paulette Hollenbery

A Inspiração Diária é uma mensagem curta para ajudar a definir o tom do dia. Ele está vinculado a um artigo mais longo para informações adicionais e…

menino parado na água, na beira das ondas ondulando

Estamos na ponta do iceberg da energia sutil

Yury Kronn, Ph.D.

Não podemos progredir como civilização, mesmo como espécie, sem a compreensão e o conhecimento da energia subtil. E, o mais importante, o mais…

linda mulher lá fora, deitada na grama sorrindo

Pessoas atraentes são realmente mais confiáveis?

Astrid Hopfensitz, EM Lyon Business School

No mercado de trabalho ferozmente competitivo de hoje, as vantagens económicas da beleza são inegáveis. Numerosos estudos mostraram que atraente…

Filtrando 'produtos químicos para sempre' prejudiciais: maneiras de limpar sua água potável

Kyle Doudrick, Universidade de Notre Dame

Remover o PFAS da água pública custará bilhões e levará tempo – aqui estão maneiras de filtrar alguns “produtos químicos eternos” prejudiciais em casa.

criança brincando com ferramenta educacional

A Educação Montessori está à altura de suas reivindicações?

Alison Demangeon e Youssef Tazouti, Universidade de Lorena

Nascidos no início do século XX, os métodos de ensino Montessori têm desfrutado de popularidade crescente na Europa nos últimos 20 anos. Mas…

MAIS LEIA

O ressentimento branco rural está minando a democracia?

Thomas F. Schaller, Universidade de Maryland

Por que o ressentimento dos americanos brancos rurais é uma ameaça à democracia...

A prescrição Perma: cinco passos para um bem-estar duradouro

Ben Gibson e Victoria Ruby-Granger, Universidade De Montfort

O modelo de bem-estar de cinco passos que realmente funciona – e a psicologia por trás dele...

imagem de uma mulher em uma trilha em campo aberto segurando uma mala

Você está sendo afetado pelo trauma de seus antepassados!

Pedro A. Levine

Traumas de pesadelo podem ser transmitidos por várias gerações. Na verdade, estes engramas de memória implícita tiveram um impacto profundo na minha vida,…

Revelando as razões ocultas pelas quais as crianças riem

Carlo Valerio Bellieni, Universidade de Siena

Por que as crianças riem? Nem sempre é porque estão felizes...

Jovem toca violão enquanto usa capacete coberto por eletrodos que medem atividade cerebral

Da prática à performance: a ciência do fluxo criativo

John Kounios e Yvette Kounios

Exames cerebrais de músicos de jazz da Filadélfia revelam segredos para alcançar o fluxo criativo...

Paradoxo dos animais de estimação: como compartilhar um quarto afeta o sono

Brian N. Chin, Trinity College

Compartilhar o quarto com seus animais de estimação pode estar impedindo você de ter uma boa noite de sono?

ÚLTIMAS