Данный пост является частью серии, посвящённой «большим данным» (Big Data), публикуемой на этой и частично на следующей неделе. Первый пост доступен здесь.
Сеть универмагов Target попала в заголовки СМИ в начале этого года в связи с колоссальной утечкой пользовательских платёжных данных: используя хитроумный и скрытный PoS-зловред, злоумышленники смогли похитить информацию о примерно 70 миллионах людей. Но двумя годами ранее Target была посвящена значительная часть статьи в New York Times — «Как компании узнают ваши секреты». Аналитики и маркетологи Target нашли способ идентифицировать будущих матерей с тем, чтобы бомбить их предложениями и рекламой, относящимися к их положению: витамины, одежда для беременных и так далее. Будущие матери — это золотая жила для торговцев, поскольку являются «гарантированными покупателями» (по объективным причинам).
Алгоритм Target, выявлявший беременных, оказался слишком точен.
Tweet
У Target есть обширная (даже очень, как нетрудно представить) база данных на покупателей. Аналитики компании смогли создать модель, которая позволяла им — по ряду косвенных признаков и изменениям по ассортименту приобретаемой ими продукции — выявлять «скорее всего беременных» женщин. Например, некоторые на первых 20 неделях беременности увеличивают количество закумаемых пищевых добавок и витаминов с содержанием кальция, магния и цинка, переключаются на мыло без запаха и так далее.
http://instagram.com/p/pqz60Mv0Do/
Эта модель «выявления беременности» (безо всяких, понятно, «усилий» со стороны самих покупательниц) оказалась очень точной. Даже, пожалуй, слишком точной. Однажды в один из магазинов Target заявился разъярённый отец старшеклассницы, потребовал встречи с менеджером и задал вопрос, как так случилось, что его несовершеннолетняя дочь получила рекламный пакет для будущих матерей? Через несколько дней, однако, тот же самый сердитый отец извинялся перед представителями магазина: он только что узнал, что его дочь действительно на сносях.
Аналитический алгоритм Target узнал об этом раньше него. В общем-то, большая победа для маркетологов Target. Правда, остаётся вопрос, а каково было самой девушке? У неё наверняка имеются свои соображения о тайне частной жизни, отличные от «воззрений» аналитической машины Target.
Как видим, Большие Данные позволяют выкапывать колоссальные объёмы персональной информации о каждом из нас, даже такой сугубо личной, как беременность и т.д. Нетрудно представить себе, как эта информация может быть использована для чего-то куда менее «невинного», чем рассылка рекламных предложений купить что-то очень нужное вот прямо сейчас: как насчёт промышленного шпионажа, например?
Мы нередко слышим истории о том, как злоумышленники собирают любые персональные даные о работниках компании, которую они собираются атаковать, чтобы обеспечить успех будущей спиэр-фишинговой кампании, — за этим последует «укрепление позиций» в ИТ-инфраструктуре мишени и кража любых нужных данных. Почему бы не использовать Большие Данные с той же целью?
Понятно, что Большие Данные, их обработка и анализ — это не пирожок на полке: не каждый мелкий злоумышленник может взять да и воспользоваться этим достижением человеческого прогресса. Однако, скажем, 10-15 лет назад глобальный кибершпионаж относился к числу самых смелых идей фантастов. Однако в 2012-м мы ухватили за красный рукав Flame.
Глобальный кибершпионаж был смелой фантазией. Был.
Tweet
Другими словами, когда дело доходит до яростной конкуренции между транснациональными корпорациями или скрытой кибервойны между враждующими нациями, использование Больших Данных для подготовки широкомасштабной кибератаки — с использованием личных данных в качестве рычага Архимеда — это уже далеко не фантастика. Особенно если учитывать, какое количество личных данных сами люди — и работники ИТ-корпораций разного уровня тоже — выкладывают в социальные сети.
Помимо этого, где гарантии, что анализ Больших Данных каким-то образом не позволит узнавать чужие коммерческие тайны? В 2012 году Стив Дёрбин, вице-президент Information Security Forum, писал в Gigaom:
«Организации являются частью довольно сложных, транснациональных и взаимозависимых каналов поставок, и это может оказываться их самым слабым звеном. Информация, которая поддерживает целостность этих каналов поставок, находится в диапазоне от самых приземлённых данных до торговых и коммерческих тайн и интеллектуальной собственности — утеря их может привести к репутационному ущербу, и финансовым, а то и юридическим последствиям. Информационная безопасность играет ключевую роль в координировании контрактных обязательств и поставок в рамках деловых отношений, включающих структуры, оказывающие услуги аутсорсинга, оффшорные компании, поставщиков и «облачных» провайдеров.»
Другими словами, ослабь информационную хватку — и, возможно, потеряешь всё. Чем больше данных, тем сильнее должна быть хватка. Остаётся вопрос, как это сделать на практике.
Продолжение следует.