О соревновании: Data Fusion Contest 2023 — уникальное соревнование по машинному обучению в новом формате. 2 задачи, 2 турнира и призовой фонд — 2 000 000 рублей!
Вас ждёт уникальное соревнование по атакам и защите моделей машинного обучения в турнирном формате:
В задаче Атака участники будут создавать атаки на нейросеть, обученную на данных транзакций.
В задаче Защита — наоборот, учиться защищать свои модели от заранее оговоренного вида атак.
Призеров определят Турниры — лучшие команды обеих задач столкнутся друг с другом за призовой фонд в 2 000 000 рублей!
В этом году соревнование посвящено теме Adversarial Machine Learning (состязательное машинное обучение). Для соревнования был сформирован синтетический датасет на обезличенных данных, при этом данные генерировались таким образом, чтобы сохранить необходимую для решения задачи информацию о пользовательском поведении.
Задачи соревнования: Задача #1 Атака В задаче Атака участники будут создавать атаки на нейросеть, обученную на данных транзакций. В распоряжении участников имеется заранее обученная модель классификатора, пример сформированного файла с атаками, а также данные для обучения и тестирования. Необходимо построить алгоритм, способный наиболее эффективно искажать предсказания предоставленной вам модели на тестовых данных. Атака имеет ряд ограничений: можно менять не более 10 транзакций из 300; у транзакций можно менять только их сумму и/или MCC код; суммы в измененных транзакциях должны укладываться в заранее известные ограничения. Метрика: ROC-AUC Diff Формат решения: Размеченный файл Призовой фонд - 1000 000 рублей
Задача #2 Защита В задаче Защита — наоборот, учиться защищать свои модели от заранее оговоренного вида атак. В распоряжении участников имеется заранее обученная модель классификатора, пример сформированного файла с атаками, а также данные для обучения и тестирования. Необходимо построить решение, которое будет решать задачу классификации с сопоставимым или лучшим качеством, но при этом будет лучше защищено от атак вида изменений во входных данных. Можно использовать как предоставленную модель, так и обучить новую, при выполнении ограничений на ресурсы и время работы модели. Метрика: Mean Harm ROC-AUC Формат решения: Контейнер с кодом Призовой фонд - 1000 000 рублей
Дополнительные активности:
Номинация COMPANION Награда за лучшие публичные решения по обеим задачам, опубликованные участниками до окончания каждой фазы соревнования. Номинация публичная, в ней участвуют только открытые решения и материалы участников соревнований.
Регулярная активность WORKSHOPS Регулярные митапы, гостевые лекции, воркшопы и разборы инструментов для участников Data Fusion 2023. Соревнование - это ещё и отличная возможность прокачать свои навыки анализа данных.
Регулярная активность GIFTS Множество сувениров за активное участие в Data Fusion Contest 2023. Из всех активностей Data Fusion Contest 20232 формируется общий рейтинг для розыгрыша мерча Data Fusion, а также сувениров от сообщества ODS.AI.
Уникальность задачи Участникам предоставляется возможность для проверок своих идей по части адверсальных атак и защиты от них моделей глубокого обучения на последовательностях транзакций. Нейронные сети все чаще используют для решения различных бизнес-задач, и исследование их устойчивости является актуальным с практической стороны вызовом.
Впервые соревнование по машинному обучению проводится в полностью автоматическом режиме на широкую аудиторию участников, включая проведение турниров между ними. Благодаря такому формату, задача атаки на модели машинного обучения становится не только ценной тестовой средой, но и полноценным межкомандным соревнованием.
Этап 1 Отправка сабмитов Квалификация на Турнир 1 7 февраля – 5 марта, 2023 Определение победителей 6 марта – 11 марта, 2023
Этап 2 Квалификация на Турнир 2 6 марта – 2 апреля, 2023 Определение победителей 3 апреля – 13 апреля, 2023
Награждение победителей на конференции Data Fusion 14 апреля, 2023
Также участников ждет много мерча и подарков, онлайн-митапы с воркшопами и возможность круто прокачаться в новых DS/ML методах. Присоединяйтесь!
Легенда Ключевой особенностью соревнования Data Fusion Contest 2023 – его турнирный формат. В соревновании есть 2 тесно связанные задачи: Атака и Защита. Можно участвовать в любой из них, в том числе в обеих задачах сразу. Обе задачи строятся на общих вводных и материалах:
В обеих задач используется один и тот же набор данных транзакций с разметкой;
В соревновании используется только один механизм атаки через искажение входных данных транзакций;
Модель для атаки является и мишенью в задаче Атаки, и отправной точкой в задаче Защиты;
Обе задачи работают с моделями бинарной классификации одной и той же целевой переменной (риск дефолта по кредиту).
Несмотря на схожесть по материалам, обе задачи имеют принципиальные отличия:
Формат решений: в задаче Атака формат решений – .csv файлы; в задаче Защита – архивы с моделями и кодом;
Метрики: в задаче Атака считается разница ROC-AUC относительно атакованной модели; в задаче Защита считается среднее гармоническое ROC-AUC на исходных и на атакованных данных.
Подходы: искать наилучшие правки в различные семейства моделей в противовес повышению устойчивости моделей.
Турниры
Если бы речь шла про обычный формат соревнований, то участники каждой из задач соревновались в первую очередь с материалами организаторов:
В задаче Атака – готовили атаки только против заранее подготовленной модели организаторов;
В задаче Защита – защищали модели от заранее подготовленных организаторами атак.
Чтобы участники соревновались друг с другом, в соревновании организуются турниры:
Суть турниров в том, что лучшие решения обеих задач запускаются друг против друга:
Решения задачи Атака теперь атакуют не модель организаторов, а решения из задачи Защита;
Решения задачи Защита теперь вместо атак организаторов запускаются на решениях из задачи Атака;
Турниров пройдет 2: промежуточный турнир в середине соревнования и финальный турнир в конце соревнования;
Весь призовой фонд присуждается по итогам турниров.
Для турниров будут использоваться отдельные новые наборы данных, подобно тому, как решения запускаются на приватных тестовых данных. Данные будут иметь тот же формат и размер, чтобы решения задачи Защиты корректно работали на решениях задачи Атака на новых данных.
Проведение турнира Чтобы турниры можно было провести за разумное время, для участия в турнирах происходит отбор 10 команд с лучшими результатами на лидербордах каждой из задач. Проведение турнира выглядит следующим образом:
В турниры отбираются по 10 команд из каждой задачи (итого 20 команд);
От каждой отобранной команды участвует два решения (итого 40 решений);
Каждое решение одной задачи запускается против каждого решения второй задачи (итого 20*20 = 400 запусков);
Для каждого решения считаются те же метрики, что и в задаче этого решения: разность ROC-AUC для Атаки и среднее гармоническое ROC-AUC для Защиты;
Для каждого из решений команды результатом этого решения является обычное среднее по 20 запускам против всех решений противоположной задачи;
Итоговым результатом каждой команды является лучшее из двух их решений;
После окончания каждого турнира, в каждой из задач публикуется по новому лидерборду с результатами турнира тех, кто в нем участвовал: отдельный лидерборд в задаче Атака (с 10 участникам турнира из задачи Атака) и отдельный лидерборд в задаче Защита (с 10 участникам турнира из задачи Защита).
Участие в турнирах Чтобы попасть на турнир необходимо выполнение двух условий:
(общее) Ваша команда попала в топ-10 на лидерборде, используемом для отбора на турнир. Для промежуточного турнира это топ-10 по публичному лидерборду задач по состоянию на 06.03.2023 0:00 (московское время). Для финального турнира это топ-10 по приватному лидерборду задач по состоянию на 03.04.2023 12:00 (московское время).
(только для задачи Атака) Если ваша команда попала в топ-10, необходимо запустить выбранные решения на новых турнирных данных. Данные будут переданы напрямую представителями организатора. Запустить решения и передать результат необходимо в течение 24 часов. Это необходимо сделать в обоих турнирах.
Со стороны участников задачи Защита никаких дополнительных действий не требуется.
Общий таймлайн соревнования и турниров выглядит следующим образом: