Como seus amigos no Twitter podem lhe dar seu anonimato

À medida que você navega na internet, os anunciantes on-line rastreiam quase todos os sites que você visita, acumulando uma grande quantidade de informações sobre seus hábitos e preferências. Quando você visita um site de notícias, eles podem ver que você é fã de basquete, óperas e romances de mistério e, consequentemente, selecionam anúncios adaptados ao seu gosto.

Os anunciantes usam essas informações para criar experiências altamente personalizadas, mas normalmente não sabem exatamente quem você é. Eles observam apenas sua trilha digital, não sua própria identidade, e assim você pode sentir que manteve um grau de anonimato.

Mas, em um artigo, eu coautoria com Ansh Shukla, Sharad Goel e Arvind Narayanan, mostramos que esses registros anônimos de navegação na web podem, na verdade, estar vinculados a identidades do mundo real.

Para testar nossa abordagem, construímos um site onde as pessoas poderiam doar seu histórico de navegação para os propósitos deste estudo. Em seguida, tentamos ver se poderíamos vincular seus históricos aos perfis do Twitter usando apenas dados disponíveis publicamente. Setenta e dois por cento das pessoas que tentamos re-denominar foram identificadas corretamente como o principal candidato nos resultados de pesquisa, e 81 por cento estavam entre os melhores candidatos 15.

privacy2 2 8Capturas de tela do site do deanonymization.

Isso é, até onde sabemos, a maior demonstração de desnomonização até hoje, já que ele seleciona o usuário correto de centenas de milhões de possíveis usuários do Twitter. Além disso, nosso método exige apenas que uma pessoa clique nos links que aparecem em seus feeds de mídia social, e não que eles postem qualquer conteúdo - por isso mesmo as pessoas que são cuidadosas com o que compartilham na Internet ainda estão vulneráveis ​​a esse ataque.


innerself assinar gráfico


Como Funciona

Em alto nível, nossa abordagem é baseada em uma observação simples. Cada pessoa tem uma rede social altamente distintiva, composta por familiares e amigos da escola, do trabalho e de vários estágios de sua vida. Como conseqüência, o conjunto de links em seus feeds do Facebook e Twitter é altamente distinto. Clicar nesses links deixa uma marca no seu histórico de navegação.

Ao olhar para o conjunto de páginas da Web que um indivíduo visitou, pudemos escolher feeds de mídia social semelhantes, gerando uma lista de candidatos que provavelmente geraram esse histórico de navegação na web. Dessa maneira, podemos vincular a identidade do mundo real a um conjunto quase completo de links que eles visitaram, incluindo links que nunca foram publicados em qualquer site de mídia social.

Executar esta estratégia envolve dois desafios principais. A primeira é teórica: como você quantifica o quão semelhante é um feed de mídia social específico para um dado histórico de navegação na web? Uma maneira simples é medir a fração de links no histórico de navegação que também aparecem no feed. Isso funciona razoavelmente bem na prática, mas exagera semelhanças com feeds grandes, já que eles simplesmente contêm mais links. Em vez disso, adotamos uma abordagem alternativa. Apresentamos um modelo estilizado e probabilístico do comportamento de navegação na Web e, em seguida, calculamos a probabilidade de um usuário com esse feed de mídia social gerar o histórico de navegação observado. Em seguida, escolhemos o feed de mídia social mais provável.

O segundo desafio envolve identificar os feeds mais semelhantes em tempo real. Aqui nos voltamos para o Twitter, uma vez que os feeds do Twitter (em contraste com o Facebook) são em grande parte públicos. No entanto, mesmo que os feeds sejam públicos, não podemos simplesmente criar uma cópia local do Twitter contra a qual podemos executar nossas consultas. Em vez disso, aplicamos uma série de técnicas para reduzir drasticamente o espaço de pesquisa. Em seguida, combinamos técnicas de cache com rastreamentos de rede sob demanda para construir os feeds dos candidatos mais promissores. Neste conjunto reduzido de candidatos, aplicamos nossa medida de similaridade para produzir os resultados finais. Dado um histórico de navegação, normalmente podemos realizar todo este processo em segundos de 60.

Nosso método é mais preciso para pessoas que navegam no Twitter mais ativamente. Noventa por cento dos participantes que clicaram no 100 ou mais links no Twitter podem ser compatíveis com sua identidade.

Muitas empresas têm os recursos de rastreamento para realizar um ataque como este, mesmo sem o consentimento do participante. Tentamos desnonymizar cada um dos participantes do experimento usando apenas as partes de seus históricos de navegação que eram visíveis para empresas de rastreamento específicas (porque as empresas têm rastreadores nessas páginas). Descobrimos que várias empresas tinham recursos para identificar com precisão os participantes.

privacidade 2 8Outros estudos de desnomonização

Diversos outros estudos utilizaram pegadas publicamente disponíveis para desnatar dados sensíveis.

Talvez o estudo mais famoso ao longo destas linhas tenha sido realizado por Latanya Sweeney na Universidade de Harvard em 2002. Ela descobriu que 87 por cento dos americanos eram exclusivamente identificáveis com base em uma combinação de seu código postal, sexo e data de nascimento. Esses três atributos estavam disponíveis tanto em dados de registro de eleitores públicos (que ela comprou por US $ 20) quanto em dados médicos anônimos (que eram amplamente distribuídos, porque as pessoas achavam que os dados eram anônimos). Ao conectar essas fontes de dados, ela encontrou os registros médicos do governador de Massachusetts.

Em 2006, Netflix criou um concurso para melhorar a qualidade de suas recomendações de filmes. Eles lançaram um conjunto de dados anônimos da classificação de filmes das pessoas e ofereceram US $ 1 milhões para a equipe que poderia melhorar seu algoritmo de recomendação em 10 por cento. Cientistas da computação Arvind Narayanan e Vitaly Shmatikov notou que os filmes que as pessoas assistiam eram muito distintos, e a maioria das pessoas no conjunto de dados era exclusivamente identificável com base em um pequeno subconjunto de seus filmes. Em outras palavras, com base nas escolhas de filmes da Netflix e nas análises do IMDB, os pesquisadores conseguiram determinar quem eram os usuários da Netflix.

Com o surgimento das mídias sociais, mais e mais pessoas estão compartilhando informações que parecem inócuas, mas na verdade revelam muitas informações pessoais. Um estudo liderado por Michal Kosinski na Universidade de Cambridge usou o Facebook gosta de prever pessoas orientação sexual, visões políticas e traços de personalidade.

Outra equipe, liderada por Gilbert Wondracek na Universidade de Tecnologia de Viena, construímos uma “máquina de desnomonização” que descobriu de quais grupos as pessoas faziam parte da rede social Xing, e usaram isso para descobrir quem eram - já que os grupos dos quais você faz parte são suficientes para identificar exclusivamente você.

O que você pode fazer

A maioria desses ataques é difícil de defender, a menos que você pare de usar a internet ou participe da vida pública.

Mesmo se você parar de usar a internet, as empresas ainda poderão coletar dados sobre você. Se vários de seus amigos fizerem o upload de seus contatos telefônicos para o Facebook e seu número estiver em todas as listas de contatos, o Facebook poderá fazer previsões sobre você, mesmo que você não use o serviço deles.

A melhor maneira de se defender contra algoritmos de desnomonização como o nosso é limitar o conjunto de pessoas que têm acesso aos seus dados de navegação anônimos. Extensões do navegador como Ghostery bloquear rastreadores de terceiros. Isso significa que, mesmo que a empresa cujo website esteja visitando saiba que você está visitando, as empresas de publicidade que exibem anúncios em suas páginas não poderão coletar seus dados de navegação e agregá-los em vários sites.

Se você é um webmaster, pode ajudar a proteger seus usuários, permitindo que eles naveguem pelo site usando HTTPS. A navegação usando HTTP permite que invasores obtenham seu histórico de navegação farejando o tráfego de rede, o que permite que eles realizem esse ataque. Muitos sites já mudaram para HTTPS; Quando repetimos nosso experimento de desdenonização da perspectiva de um farejador de tráfego de rede, apenas 31 por cento dos participantes poderia ser desnonymized.

No entanto, há muito pouco que você pode fazer para se proteger contra ataques de desanonimização em geral, e talvez o melhor curso de ação seja ajustar as expectativas. Nada é privado nesta era digital.

Sobre o autor

Jessica Su, Ph.D. Estudante em Stanford, Universidade de Stanford

Este artigo foi originalmente publicado em A Conversação. Leia o artigo original.

Livros relacionados

at InnerSelf Market e Amazon