Когда сталкиваются PR и реальность: правда о машинном обучении в сфере кибербезопасности

Псевдоразработчики обычно ссылаются на машинное обучение (МО) как на свой самый востребованный продукт и самое главное преимущество. Однако если МО выполнено правильно, то оно сталкивается с массой проблем и ограничений.

ESET потратил много лет на усовершенствование автоматизированного обнаружения (так мы называем МО в контексте кибербезопасности). Вот несколько самых больших проблем, которые мы обнаружили и преодолели в процессе внедрения этой технологии в наших решениях для бизнеса и дома.

Во-первых, для использования машинного обучения необходимо большое количество вводных данных, которые должны быть корректно отмечены. В кибербезопасности это означает огромное количество примеров, разделенных на две группы: вредоносные и чистые. Нам понадобилось три десятка лет, чтобы собрать такие данные и обучить нашу систему МО.

Откуда недавно появившиеся псевдоразработчики смогли взять такой объем данных? Нет других способов создать достаточно большую или надежную базу данных, кроме как просто использовать результаты чужих исследований.

Каков вопрос, таков ответ

Даже если в алгоритм МО внести огромное количество данных, все равно нет гарантии того, что он корректно определит все новые примеры, с которыми столкнется. В любом случае необходимо подтверждение со стороны человека. Без этого даже одно вводное значение может вызвать эффект снежного кома и, скорее всего, приведет решение к полному провалу.

Похожая ситуация складывается и в случае, если алгоритм использует свои же исходные данные в качестве вводных значений. Любая ошибка в будущем усиливается и увеличивается, а неправильный результат создает цикл и дополнительный «мусор» (ложные срабатывания, промахи или вредоносные элементы), из-за которого необходимо повторно вводить решение.

Некоторые псевдоразработчики защитного ПО утверждают, что подобные ситуации не могут произойти с их алгоритмом машинного обучения, поскольку они могут идентифицировать каждый пример до начала его работы, и просчитать с помощью обычной «математики» вредоносный он или нет.

Однако, известный математик, криптоаналитик и компьютерный ученый Алан Тьюринг (Alan Turing) (человек, который взломал код нацистской Энигмы о время Второй Мировой войны в Блетчли Парк в Англии) доказал, что это невозможно. Даже безупречно работающая машина не всегда способна определить приведет ли неизвестное вводное значение к нежелательному поведению в будущем, в случае Тьюринга, создаст бесконечный машинный цикл.

Компьютерный ученый Фред Коэн (Fred Cohen), создавший определение компьютерного вируса, был на один шаг впереди, продемонстрировав, что эта, так называемая, «проблема остановки» также касается и кибербезопасности. Он назвал ее «неразрешимой задачей», когда нельзя определить только по внешнему виду программы, будут ли ее действия вредоносными. Такая же проблема возникает и для будущих вводных значений или особых настроек, которые могут сделать программу вредоносной.

Как это относится к нынешнему состоянию кибербезопасности? Если разработчик утверждает, что его алгоритм машинного обучения может отметить каждый пример до начала его работы и определить, вредоносный он или нет, тогда алгоритм также должен предварительно заблокировать огромный объем неразрешимых элементов, забросав отделы ИТ-компаний ложными срабатываниями.

Другой опцией должно быть менее агрессивное обнаружение с небольшим количеством ложных срабатываний. И все же, если будет применяться только технология машинного обучения, то уровень обнаружения упадет гораздо ниже обещанных «100%» эффективности идеального решения.

Правила «игры» в кибербезопасность могут измениться в любую минуту

Это приводит нас к одному из самых серьезных ограничений в применении технологии МО в сфере кибербезопасности – образованный противник. Тридцать лет опыта в этой сфере показали нам, что противостояние такому оппоненту, а именно человеческому разуму, – это игра в кошки-мышки, у которой нет конца. Каждый раз, когда мы защищаем наших клиентов от вредоносного ПО, злоумышленники пытаются найти способы, как обойти наши решения. Мы повышаем уровень защиты, они ищут дыры, и процесс не прекращается.

Постоянно меняющаяся среда кибербезопасности не дает возможности создать универсальное защитное решение до тех пор, пока нам не придется признать отсутствие прогресса с обеих сторон, черной и белой. ESET считает, что необходимо адаптироваться и реагировать на развивающиеся реально существующие угрозы, а не на какой-то постоянный воображаемый эквивалент.

Вы можете возразить, что машины в своем развитии дойдут до уровня, на котором смогут победить людей в их собственной игре (например, алгоритм AlphaGo от Google), и вы будете правы. Тем не менее, эти алгоритмы очень узкоспециализированы и работают в определенных правилах. В кибербезопасности у злоумышленников нет правил. И что еще хуже, они способны изменить все игровое поле без предупреждения.

Чтобы сражаться с оппонентом так называемой общей образованности, защитное решение должно быть построено на алгоритме такого же уровня, способном адаптироваться к новой среде и новым проблемам. Нынешнее слабое (или узкоспециализированное) МО просто не готово для выполнения такой задачи.

Если решение кибербезопасности будет основано только на МО, то первая удачная атака вредоносных актеров оставит вашу компанию полностью беззащитной перед армией киберпреступников. Решения от ESET обладают не только функциями МО. Мы используем комплексные технологии, которые обычно отсутствуют в продуктах псевдоразработчиков, чтобы с помощью высокого уровня защиты и низкого уровня ложных срабатываний перекрыть доступ преступникам.

Серия включает: