Wired: Как метаданные Twitter угрожают вашей конфиденциальности?

  • Специалисты по безопасности из института Алана Тьюринга и Лондонского университета провели довольно занятный эксперимент: сперва они отобрали 10 тыс. пользователей Twitter и попытались разобраться, по каким данным их можно идентифицировать, а затем написали специальный алгоритм, который с 95% вероятностью сможет найти вас по обрывкам метаданных одного их ваших твиттов. Способов защиты пока не существует. Перевод заметки Wired.


Метаданные Twitter могут обернуться настоящим кошмаром для каждого пользователя, который обеспокоен вопросом конфиденциальности

Метаданные повсюду. Всё, что вы твиттите, каждый снимок, который вы выкладываете в Instagram, каждое обновление статуса на Facebook. Зачастую вы даже не подозреваете, как много информации скрыто в каждой вашей публикации. Именно поэтому эти данные так ценны для органов правопорядка, ведь с их помощью можно идентифицировать пользователя, который скрывает или просто не афиширует свою личность, а банальное селфи, сделанное не в то время или не в том месте, может разрушить ваше алиби.

И метаданные Twitter – это как раз та штука, с помощью которой каждого из нас можно идентифицировать. Причём точность такой идентификации чрезвычайно высока. По крайней мере этого мнения придерживаются исследователи из института Алана Тьюринга и Лондонского университета. Оказывается, каким бы анонимным не казался вам Twitter, каждое ваше сообщение может выдать вашу личность. Ошибки случаются, но крайне редко. И всё, что для этого нужно – это лишь ваши метаданные.

Для участия в исследовании было отобрано 10 000 пользователей Twitter. Специалисты пытались идентифицировать пользователя, используя лишь метаданные, привязанные к его твитту. И в 96.7% случаев им это удавалось. Даже если метаданные точны лишь на 60%, этого вполне достаточно, чтобы идентифицировать конкретного пользователя с точностью более 95%.

"Метаданные – это намного больше, чем та информация, которая фактически содержится в вашем твитте", – объясняет Саввас Заннеттоу, аспирант из Технологического университета Кипра. "Людям же кажется, что поскольку их данные хранятся на удалённом сервере, использовать их для идентификации невозможно. Но это не так!", – добавляет соавтор статьи Беатрис Перес из Лондонского университета.

Никто в здравом уме не станет сообщать незнакомцу свой адрес. Но если незнакомец спросит вас, как часто вы включаете или выключаете свет в спальне, вы, возможно ответите. Что в этом такого? Точно также работают и метаданные. "Людям кажется, что всё это не имеет почти никакого значения. А раз так, зачем это скрывать? Но ведь этой информации достаточно, чтобы узнать, когда вы бываете дома", – продолжает Перес.

И Заннетоу с ней полностью согласен: "Это довольно распространённое заблуждение. Среднестатистический пользователь не понимает, как легко его можно идентифицировать с помощью метаданных". По их мнению, большинство пользователей Twitter и понятия не имеют о том, как много информации содержится в твитте длиною всего в две сотни символов. И все эти данные доступны через API сайта.

Анонимность не поможет

Специалисты использовали базу из 5 млн. пользователей Twitter, а потом прогнали 14 фрагментов метаданных из собственных твиттов (в эксперименте использовалась информация о времени размещения публикации, дате регистрации учётной записи, количестве избранных твиттов, а также информация о числе подписчиков и подписок) через три различных алгоритма машинного обучения.

По мнению исследователей, самым эффективным и точным оказался самый простой способ идентификации. И это доказывает, что, имея на руках лишь фрагменты метаданных, можно с почти абсолютной точностью идентифицировать любого пользователя Twitter.

Алгоритм анализирует имеющиеся у него данные пользователя и пытается обнаружить в них определённые патерны поведения. Потом ИИ выпускают "на волю", где он ищет подходящих "кандидатов", из которых и выбирает конкретного пользователя, которые наиболее точно подходит под его представления о нужном пользователе.

"Если социальная сеть попытается обезличить эти данные, это всё равно не решит проблему, – считает Перес. – К тому же из-за специфики информации обезличить такие данные будет весьма непросто". Любые попытки удалить из метаданны личную информацию о пользователе тщетны, ведь мы всегда можем использовать несколько видом имеющихся у нас данных, и этого будет вполне достаточно для весьма точной идентификации.

Перес и её коллеги несколько раз пытались запутать систему, выборочно удаляя некоторые части метаданных. В теории это должно было запутать алгоритм и существенно усложнить его работу. "Даже если бы у нас была лишь размытая информация о пользователе, мы бы всё равно смогли найти его и идентифицировать", – заявляет Перес. Скорость идентификации пользователя оставалась стабильно высокой вплоть до того момента, пока исследователи не удалили абсолютно все данные и идентификация стала невозможной.

Возможно, после вступления в силу нового регламента хранения данные GDPR ситуация начнёт постепенно меняться. "Я думаю, нам следует уделять метаданным чуть больше внимания, – говорит консультант по защите данных Пэт Уолш. Данные должны быть защищены изначально и по умолчанию. Как раз об этом говорится в 25-й статье GDPR. Это касается и минимизации тех данных, которые может собирать и обрабатывать компания. Новый регламент запрещает сбор данных, если они необязательны для нормальной работы сервиса. 

Но гораздо важнее, как именно компании хранят данные, по которым нас так легко идентифицировать. Ведь этих данные слишком много и они могут быть слишком опасны для рядового пользователя. Ещё важнее, как сами пользователи будут воспринимать сложившуюся ситуацию. "Разумеется, каждый пользователь должен быть обеспокоен собственной конфиденциальностью, – говорит Заннетоу, – вот только я настроен скептически и почему-то не верю, что завтра что-то изменится"...

9 июля 2018 г.

Рассказать друзьям через AddThis или Shareaholic
Translate via GoogleYandex or Bing
The same in English

Комментарии

Популярные сообщения