Языки

Система анализа битовых последовательностей

Актуальность задачи

Анализ битовых последовательностей является актуальной задачей при исследовании неизвестных форматов данных, протоколов и т.п. без наличия априорной информации. Применение методов математического, в частности, статистического, спектрального и кратномасштабного анализа, а также искусственных нейронных сетей при верно выбранных методах визуализации результатов позволяют значительно повысить эффективность работы оператора.
При анализе перехваченного трафика возникает множество задач (разбиение на пакеты, классификация используемых протоколов, выделение и классификация полей пакетов, получение информации об участниках, определение типа трафика и т.д.), решение которых при доступности спецификаций протоколов тривиально. Однако при перехвате модифицированных известных протоколов либо неизвестных протоколов (примерами которых являются закрытые протоколы прикладного уровня), а также исследовании бинарных файлов неизвестного либо закрытого формата ана-лиз последовательностей на основе априорных данных невозможен.

Полученные результаты и направление исследований

На кафедре БИТ ТТИ ЮФУ разработана система анализа битовых последовательностей, позволяющая:
1. Локализовать границы в бинарной последовательности.
Первой задачей при анализе бинарных последовательностей дампов протоколов является локализация границ пакетов протоколов. Соответствующей задачей при анализе неизвестного формата файла является определение границ секций данных. Использование предварительно обученной нейросети позволяет производить обнаружение границ в автоматическом режиме.
2. Выделить служебные поля в бинарных файлах и заголовки в дампах протоколов. Повышение точности определения границ пакетов и функциональных полей заголовков осуществляется на основе пакетного анализа дампа и минимизации ошибки предсказания групп полей. Производится также выделение полей со сходной функциональностью (поля длин пакетов, поля идентифицирующие респондентов и т.д.) в заголовках протоколов.
3.Классифицировать неизвестную битовую последовательность по формату данных. Классификация данных, в частности, зашифрованного, скомпрессированного и открытого текстов осуществляется при помощи нейросетевых методов.
На данный момент существует система, реализующая все три пункта описанных выше анализа. Для повышения гибкости и функциональных возможностей системы введется работа по дальнейшему развитию системы, в частности использованию мультифрактального формализма для анализа структуры последовательности.