Я понимаю, почему вы начали читать эту статью, поэтому предупреждаю сразу — до порно мы доберемся только в третьем абзаце. Тем более что официально соответствующий человек в «Лаборатории Касперского» называется благородно и нейтрально — контент-аналитик. В общих словах задача контент-аналитика — создавать базы контентной фильтрации, которые потом используются в продуктах нашей компании. Фильтры входят в состав продуктов как для домашних пользователей, так и для корпоративных клиентов. Соответственно, в первом случае нужный модуль называется Родительский контроль, во втором — Веб-контроль. Используя инструменты Родительского контроля, пользователь может ограничить доступ детей к нежелательным сайтам в Сети. Для этого про каждый сайт нужно знать, к какой категории он относится и какого рода контент там хранится. Именно эта информация и содержится в наших базах.
Конечно, вручную наполнять базу фильтрации невозможно — по свежим данным Google, в Интернете существует примерно 15 млрд веб-страниц. Поэтому основной объем сканирования осуществляют роботы. Они анализируют в нашем «облаке» KSN весь собранный контент в Интернете и автоматически выносят тот или иной вердикт каждому сайту. На основе облачных вердиктов работают продукты для мобильных устройств (например, Safe Browser для iOS), ну и конечно, остальные продукты компании также используют облачные вердикты в работе компонентов контентной фильтрации. Задача аналитика — научить роботов правильно категоризировать контент в Интернете. Робот должен оценивать ключевые слова и словосочетания, встречающиеся на странице и в служебных данных, картинки и на основе этого анализа принимать решение о том, относится ли контент на этом сайте к той или иной категории или нет. Если в коде сайта встречаются, например, такие словосочетания, как «смотреть порно онлайн», «бесплатное порно», большое количество картинок с телесной цветовой гаммой и т.д., то по сумме таких критериев робот детектирует ресурс как «Порнография и эротика».
По долгу службы веб-контент-аналитикам приходится просматривать тот самый «нежелательный контент», поэтому среди коллег нас нередко называют порноаналитиками. Но надо заметить, что помимо сайтов для взрослых мы работаем и над другими категориями, самыми опасными из которых являются:
- Наркотики.
- Жестокость и насилие.
- Оружие.
- Азартные игры.
- Нецензурная лексика.
Как правило, эти категории при включении компонента Родительский/Веб-контроль отмечены как запрещаемые администратором по умолчанию.
Казалось бы, смотреть порно — ну просто работа мечты! Но не все так сладко. Во-первых, порноконтент бывает разный, и мало кому понравятся некоторые разновидности фетишизма, зоофилия и прочие малоприятные вещи. Во-вторых, нужно обладать крепкой психикой, умением абстрагироваться и здравым цинизмом при работе над категорией «Жестокость и насилие». Все эти личные качества уточняются у кандидатов на позицию веб-контент-аналитика еще на собеседовании.
И на этом наша работа не заканчивается… Сложно описать все детали рабочего процесса и тонкости поиска всего самого жаркого в Интернете, но в целом наш рабочий день выглядит так:
- Утренняя проверка почты.
Лично мне это помогает настроиться на рабочий процесс и оценить примерный объем всех дел на сегодня.
- Статус-митинг.
Каждый день утром, в 11 часов, наша команда собирается в переговорке и обсуждает все, что было сделано вчера и что предстоит сделать сегодня. Это обязательная часть рабочего процесса, которая очень дисциплинирует и обеспечивает прозрачность в работе команды.
- Кофе-брейк.
Работа работой, а утренний кофе никто не отменял.
- Запросы от пользователей.
Ежедневно в службу технической поддержки приходят десятки запросов от пользователей, касающихся неправильной блокировки сайтов нашими модулями контентной фильтрации. Такие проблемы пересылаются нашей команде контент-аналитиков, мы их разбираем, решаем и отвечаем пользователям. Также мы занимаемся вопросами неправильной работы Анти-Баннера в продуктах. Официально на каждый запрос можно отвечать три рабочих дня, но, безусловно, чем быстрее, тем лучше.
- Работа над категориями.
Основная часть рабочего процесса контент-аналитика — создание новых категорий и поддержка старых. В данный момент мы поддерживаем 15 категорий и 7 языков.
Поэтому основным критерием отбора кандидатов на позицию веб-контент-аналитика является знание второго иностранного языка помимо английского, соответственно, очень приветствуются кандидаты с филологическим, лингвистическим образованием и, безусловно, аналитическим складом ума. В итоге получается, что кандидат должен быть и «физиком», и «лириком», что встречается не так уж и часто.
- Live test.
Для категоризации контента роботы используют базы, которые создаются и поддерживаются контент-аналитиками. И, конечно, перед выпуском новые базы проходят несколько тестов. Одним из самых важных является тест баз на «живых», топовых сайтах. Над этим тестом аналитики работают ежедневно. Каждое утро формируется список самых популярных мировых сайтов и тех, которых еще нет в нашем тестовом списке, он отправляется контент-аналитикам на категоризацию. Аналитики присуждают новым сайтам свой вердикт и вручную обновляют тест, который заключается в том, чтобы категории, присуждаемые сайтам роботами, совпали с вердиктом аналитика. А так как контент на сайтах может меняться, соответственно, и работать с таким тестом приходится постоянно. Как правило, мы запускаем «живой» тест три раза в день: утром, днем и вечером — и работаем с ним по очереди.
- Передача опыта.
Сотрудники нашей группы также выступают экспертами в вопросах защиты детей от нежелательного контента в Интернете, пишут об этом статьи, посты, дают интервью и выступают на конференциях.
Тем не менее, сколько бы ни было статей, выступлений и интервью на эту тему, она все еще продолжает оставаться острой и актуальной.
Конечно, есть миллион способов найти ресурсы с сомнительным содержанием. Родительский и Веб-контроль не панацея, но тем не менее мы всеми силами стараемся помочь пользователям оградить себя, своих близких или подчиненных от опасностей в Интернете, предоставляя им такие инструменты.