Кредитный скоринг – важнейшая банковская задача. Стандартным подходом к ее решению является построение классических моделей машинного обучения, таких как логистическая регрессия и градиентный бустинг, на табличных данных, в том числе используя агрегации от каких-нибудь последовательных данных, например, транзакционных историй клиентов. Альтернативный подход заключается в использовании последовательных данных “как есть”, подавая их на вход рекуррентной нейронной сети. В этом соревновании участникам предлагается решить задачу кредитного скоринга клиентов Альфа-Банка, используя только данные кредитных историй.
Датасет соревнования устроен таким образом, что кредиты для тренировочной выборки взяты за период в М месяцев, а кредиты для тестовой выборки взяты за последующие K месяцев. Каждая запись кредитной истории содержит самую разнообразную информацию о прошлом кредите клиента, например, сумму, отношение клиента к кредиту, дату открытия и закрытия, информацию о просрочках по платежам и др. Все публикуемые данные тщательно анонимизированы. Целевая переменная – бинарная величина, принимающая значения 0 и 1, где 1 соответствует дефолту клиента по кредиту.
Проверка решений
Метрика соревнования – ROC AUC. Подробнее про метрику можно почитать, например, здесь. Решения принимаются в виде csv-файла с двумя колонками: “id” – уникальный идентификтор и “score” – предсказание дефолта клиента по кредиту. Пример самбита можно найти в файле sample_submission.csv. Промежуточные итоги подводятся на public-части тестовой выборки. Победители и призеры определяются на private-части тестовой выборки. И промежуточную, и окончательную таблицу лидеров можно найти во вкладке Таблица лидеров. Для получения денежных призов победителям и призерам соревнования необходимо прислать свое решение в виде docker контейнера, содержащего код для обучения и инференса лучшей модели на языке Python.
Объединение в команды
В соревновании разрешено объединение участников в команды до 4 человек. Возможность объединения в команды закрывается за 2 недели до окончания соревнования.
Базовые решения и полезные функции
Чтобы объем данных не стал препятствием для участия пользователей с небольшим количеством доступных вычислительных ресурсов, организаторами подготовлен набор полезных функций для пакетной обработки данных. Кроме того, чтобы помочь участникам быстрее влиться в задачу соревнования, организаторами подготовлены несколько базовых решений задачи. Все эти материалы можно найти в репозитории по ссылке.
Улучшить нейросетевой бэйзлайн
Потренироваться в решении задачи кредитного скоринга на последовательных банковских данных можно в учебном Соревновании на данных карточных транзакций. Кроме того, в этом соревновании можно почерпнуть идеи для усовершенствования нейросетевого бейзлайна: к нему опубликован продвинутый нейросетевой бейзлайн, видео с его подробным объяснением, а также статья на хабр. Все участники учебного соревнования получат бесценный опыт для решения основного Соревнования на данных кредитных историй, а победителям и призерам учебного соревнования мы подарим фирменный мерч Альфа-Банка.
Призовой фонд
Призовой фонд разделят авторы 3 решений с наибольшей метрикой на private-части тестовой выборки: 1 место – 300 000 рублей 2 место – 200 000 рублей 3 место – 100 000 рублей
Также подарят фирменный мерч Альфа-Банка участникам, которые первые побьют нейросетевое базовое решение на 2 пункта ROC AUC
Хочешь узнавать о новых хакатонах первым? Подписывайся на нашу группу в ВК: https://vk.com/hackathoncom Также, наш Telegram-бот, где мы присылаем хакатоны по параметрам, которые интересны тебе: https://t.me/hackathons4ubot