Ghostery и Cliqz: Как идентифицировать пользователя по его метаданным в Twitter?

  • Специалисты по безопасности из института Алана Тьюринга и Лондонского университета провели довольно занятный эксперимент: сперва они отобрали 10 тыс. пользователей Twitter и попытались разобраться, по каким данным их можно идентифицировать, а затем написали специальный алгоритм, который с 95% вероятностью сможет найти вас по обрывкам метаданных одного их ваших твиттов. Способов защиты пока не существует. Перевод заметки Cliqz и Ghostery.


Насколько просто идентифицировать пользователя, основываясь лишь на общедоступных данных его Твиттера?

Британские учёные смогли найти конкретного пользователя в группе из 10 тыс. учётных записей Twitter, просто проанализировав его метаданные. Точность идентификации составила 96,7%, а метаданные, которые использовались в исследовании, доступны любому желающему через API сервиса.

Знаете ли вы, что публикуя даже самый короткий твитт, вы передаёте сайту до 144 фрагментов своих метаданных, по которым вас легко идентифицировать? "Вы – это ваши метаданные: Идентификация пользователей социальных сетей с помощью их метаданных" – это результат совместной работы института Алана Тьюринга и Лондонского университета. По заверениям исследователей в каждом твитте, помимо фактического его содержания, содержится около 144 видов сопутствующих метаданных, которые без особых проблем доступны через Twitter API. В этих данных содержится информация об аккаунте, с которого был размещён конкретный твитт, самом сообщении (например, времени, когда оно было опубликовано, количестве просмотров и т. д.), других твиттах, содержащихся в сообщении, прикреплённых к твитту файлах (например, URL-адресах или хэштегах), пользователях, которые упомянуты в сообщении, и т. д. Даже если вы не афишируете свою личность, этой информации вполне достаточно для того, чтобы без особых проблем отследить все ваши твитты и восстановить по фрагментам вашу повседневную жизнь.

Обезличивание данные ничего не изменит

В ходе исследования было написано три независимых друг от друга самообучающихся алгоритма. Каждый из них проанализировал 5 млн. учётных записей пользователей Twitter. Затем исследователи загрузили в систему 14 фрагментов метаданных собственных твиттов (в них содержалась информация о времени создания учётной записи, времени публикации нужного твитта, количестве избранных записей, числе подписок и подписчиков).

Этих данных оказалось достаточно, чтобы алгоритм нашёл конкретного пользователя в группе из 10 тыс. человек с точностью 96,7%. Даже когда учёные намеренно удаляли до 40% метаданных, оставшейся информации было достаточно для того, чтобы идентифицировать пользователя с точностью до 95%. Другими словами, даже если Twitter начнёт обезличивать эти данные, ситуация не изменится: оставшейся информации всё равно будет достаточно для идентификации.

Метаданные знают о вас гораздо больше, чем вы думаете

"Людям же кажется, что поскольку их данные хранятся на удалённом сервере, использовать их для идентификации невозможно. Но это не так!", – объяснила журналистам онлайн-издания Wired один из авторов публикации Беатрис Перес из Лондонского университета. Никто в здравом уме не станет сообщать незнакомцу свой адрес. Но если незнакомец спросит вас, как часто вы включаете или выключаете свет в спальне, вы, возможно ответите. Что в этом такого? Точно также работают и метаданные. "Людям кажется, что всё это не имеет почти никакого значения. А раз так, зачем это скрывать? Но ведь этой информации достаточно, чтобы узнать, когда вы бываете дома", – продолжает Перес. Большинство людей просто не осознаёт, насколько легко идентифицировать их с помощью метаданных.

Исследователи надеются, что их публикация повысит осведомлённость рядовых пользователей о рисках, связанных со сбором и хранением метаданных. Ведь несмотря на то, что исследование касалось лишь сервиса микроблогов Twitter, проблема касается и других сайтов, которые генерируют метаданные с аналогичными характеристиками. Ситуация накаляется, если метаданные доступны любому желающему (например, через API сервиса). В случае с Twitter практически любому злоумышленнику под силу идентифицировать любого пользователя сервиса.

В отличие от большинства компаний Cliqz не хранит никаких ваших данных, о которым вас можно было бы идентифицировать. Это связано с особенностями архитектуры нашего сервиса. Мы убеждены, что это лучшая защита от любых потенциальных утечек.

редактор блога Ghostery и Cliqz
11 июля 2018 г.

  • Расширение Ghostery с недавних пор принадлежит немецкому браузеру Cliqz. Формально Ghostery и Cliqz по-прежнему разрабатываются разными командами, но разобраться, кому именно принадлежат те или иные заслуги, теперь довольно сложно, – прим.

За сим всё...
Рассказать друзьям через AddThis или Shareaholic
Translate via GoogleYandexBing or Promt
Перевод оригинальной публикаций Wired
Другие публикации Ghostery и Cliqz
The same in English

Комментарии

Популярные сообщения из этого блога

Расширяем функционал браузера без расширений

Быстрый перевод без установки дополнительных расширений

Почему браузер закрывается без причины? Советы от разработчиков Maxthon