Мы периодически рассказываем о том, что эффективность наших продуктов — это во многом заслуга принципа HuMachine Intelligence, который является основой истинной безопасности. И суть этого принципа заключается в сплаве трех основ — больших данных, машинного обучения и экспертных навыков наших аналитиков. Но что стоит за этими словами? Давайте мы попробуем объяснить это, не вдаваясь в технические подробности.
Big Data & Threat Intelligence
Термин «большие данные» нельзя воспринимать буквально, как некий массив информации, лежащий мертвым грузом. Это не просто некая база — это совокупность технологий, позволяющих мгновенно обрабатывать огромные массивы данных о вредоносных, чистых и потенциально-вредоносных объектах для извлечения знаний об угрозах (Threat Intelligence) из массы накопленных данных. В нашем случае под большими данными понимается, во-первых, обширная коллекция вредоносных объектов, во-вторых, распределенная сеть Kaspersky Security Network, поставляющая вредоносные объекты и многочисленные многоаспектные данные об угрозах со всего мира, а в-третьих, разнообразные инструменты категоризации, обрабатывающие эти данные.
Коллекция вредоносных объектов
Мы уже более 20 лет занимаемся компьютерной безопасностью и за все это время проанализировали огромное количество объектов. Информация о них надежно хранится в наших базах данных. Причем когда мы говорим об «объектах», мы подразумеваем не только файлы или куски кода, но и URL-адреса, сертификаты, логи исполнения чистых и вредоносных программ. И хранится оно все не просто с пометками «опасно» или «безопасно» — в базах лежат данные о связях между объектами. С какого сайта был скачан файл, какие еще файлы качались с этого сайта и так далее.
Kaspersky Security Network (KSN)
Строго говоря, KSN — это наш облачный сервис для обеспечения безопасности. И одна из его функций — оперативно блокировать новые угрозы у пользователей. Одновременно с этим он позволяет всем и каждому участвовать в повышении глобального уровня безопасности, отправляя деперсонифицированные метаданные об угрозах в облако. Мы изучаем угрозу под разными углами и отправляем в базы данных те ее аспекты, которые позволят нашим экспертным системам качественно обнаруживать эту угрозу и подобные ей. Таким образом, наша коллекция постоянно пополняется свежими данными в реальном времени.
Инструменты категоризации
По сути, это внутренние технологии, которые позволяют эффективно обрабатывать коллекцию: регистрировать те самые связи между вредоносными объектами и учитывать наследственность различных семейств вредоносов.
Технологии машинного обучения
В двух словах рассказать о том, что такое машинное обучение и как оно применяется в «Лаборатории Касперского», достаточно сложно. Начать хотя бы с того, что у нас практикуется использование принципа многослойности, так что алгоритмы машинного обучения применяются в различных подсистемах и на разных уровнях.
Статическое детектирование
Наши системы ежедневно получают сотни тысяч объектов, которые надо оперативно проанализировать и определить, опасны они или нет. Так что еще более 10 лет назад мы поняли, что без автоматизации тут не обойтись. Первая задача, которую в итоге решили при помощи технологии машинного обучения, звучала так: при получении подозрительного файла нам необходимо было понять, не похож ли он на уже имеющийся у нас вредоносный файл. И эта задача была решена. Мы создали программу, которая анализировала всю коллекцию, а потом, когда ей на вход подавался новый исследуемый файл, она сообщала, на что он похож больше всего. В основе этого подхода лежала наша уникальная технология анализа.
Вскоре стало понятно, что нам мало просто знать, похож объект на другие вредоносные или нет. Нам была нужна технология, которая позволит системе самостоятельно выносить окончательный вердикт. И такая технология была построена на основе решающих деревьев. Обучаясь на нашей обширной коллекции вредоносных объектов, она выявляет множество критериев, определенные сочетания которых могут служить признаками, однозначно характеризующими новый файл как опасный. Принцип работы этой технологии таков: при анализе файла математическая модель задает антивирусному движку вопросы:
- А файл больше 100 килобайт?
- А раз да, то файл упакован?
- А раз нет, то в файле имена секций человеческие или мусорные?
- А раз да, то… и так далее.
Ответив на все вопросы, антивирусный движок получает от матмодели вердикт «файл чист» или наоборот, «опасен!»
Поведенческая математическая модель
Однако, поскольку мы сторонники принципа многослойности защитных технологий, наши математические модели применяются и для динамического детектирования. По сути, математическая модель может анализировать поведение исполняемого файла уже после его запуска. Строить и обучать модель можно по тем же принципам, что и матмодели статического детектирования, только в качестве «обобщающего материала» использовать логи исполнения вредоносов. Правда тут есть одно существенное отличие — все-таки мы говорим о работе в полевых условиях, так что мы не можем позволить себе дожидаться, пока код полностью отработает — решение нужно принять после анализа минимального количества действий. В данный момент такая технология, основанная на deep learning, работает у нас в пилотном режиме и показывает отличные результаты.
Экспертные знания человека
Специалисты по машинному обучению сходятся во мнении: какой бы умной ни была математическая модель, ее всегда при желании может обойти человек. Особенно если человек креативный, имеет возможность посмотреть, как эта технология устроена, или у него много времени на многочисленные опыты. Поэтому, во-первых, модель должна быть обновляемой по частям, во-вторых, инфраструктура должна работать, как часы, а в-третьих, за роботом должен присматривать человек. Именно так у нас все и устроено.
Anti-Malware Research (AMR)
Когда-то, лет 20 назад, AMR (лаборатория антивирусных исследований) работала вообще без помощи автоматических систем. Сейчас же большинство угроз детектируются экспертными системами, обученными исследователями лаборатории. Конечно, возникают случаи, когда система не может однозначно вынести вердикт. Или понимает, что объект вредоносен, но не может отнести его к какому-то уже известному семейству. В таком случае она сигнализирует дежурному аналитику из AMR, предоставляет ему полный набор индикаторов, и тот принимает решение самостоятельно.
Detection Methods Analysis Group
В рамках лаборатории антивирусных исследований (AMR) есть выделенное исследовательское подразделение, созданное в 2007-м году специально для работы над системами машинного обучения. В настоящий момент только его руководитель имеет опыт вирусного аналитика, остальные сотрудники чистые data scientist’ы.
Global Research and Analysis Team (GReAT)
И, наконец, наша команда GReAT. Исследователи из этой команды расследуют наиболее сложные угрозы – APT, кампании кибершпионажа, глобальные киберэпидемии, шифровальщиков-вымогателей. Кроме того, они следят за новейшими веяньями в подпольном киберпреступном мире. Их уникальные знания о техниках, инструментах и схемах проведения атак злоумышленниками позволяет нам разрабатывать средства защиты, способные защитить от самых изощренных угроз.
Разумеется, мы не рассказали и о половине наших технологий и отделов, которые задействованы в развитии наших решений. Есть множество других экспертов и различных методов машинного обучения, однако мы надеемся, что и этот пример хорошо иллюстрирует, в чем заключается принцип HuMachine Intelligence.