Hack.Genesis - хакатон от Phystech.Genesis, сочетающий динамику офлайн-мероприятий с удобствами онлайн-формата. Мы cоздаем атмосферу креативного и технологичного события, где каждый может проявить себя, не выходя из дома.
Hack.Genesis 2024 - это:
Развитие навыков и получение опыта;
Возможность поработать с опытными специалистами;
40-часовое соревнование с другими командами;
Возможность получить денежные и ценные призы.
Зачем участвовать?
250 000 рублей призовой фонд;
Нетворкинг, прокачка навыков и командная работа;
Решение реальной задачи в сжатые сроки.
Задача хакатона:
Формулировка задачи: Создать систему, которая с помощью RAG-подхода сможет детально ответить на вопросы пользователей по сложным финансовым данным.
Проблематика: Достаточно часто открытая финансовая отчетность организаций хранится в PDF-документах и содержит табличные и текстовые данные со специфическим форматированием, а также отсканированные страницы. Данные такого формата плохо поддаются не только автоматической обработке (парсингу), но с трудом обрабатываются обученными специалистами, особенно в большом количестве.
Самым простым решением, очевидно, было бы увеличение количества людей, выделенных на ручную обработку и кросс-валидацию данных из документов, верно? Но как быть, если количество ресурсов ограничено, особенно если не хватает самого ценного - времени?
Образ решения: Именно в такой момент и требуется помощь LLM-моделей и использование подхода RAG, который вовремя и автоматически проверит источники и подготовит необходимые данные для аугментации запроса.
В рамках хакатона участникам предстоит создать pipeline работы с файлами указанного формата. Не забывайте, pipeline - это не просто одно действие, это последовательность, каждый шаг которой должен приближать необходимый результат.
Вам необходимо определить методы получения информации из pdf-файлов различных форматов, разработать с нуля подход, дающий возможность применения этих данных в вопросно-ответной системе на основе любых доступных LLM. Помните, что поставленная задача - это не только проверка технических возможностей ваших pipeline-ов, но бизнес-кейс, который нужно оптимизировать в плане затрат, масштабируемости и удобства интеграции.
Обращаем ваше внимание, что участникам в рамках хакатона будут предоставлен доступ к моделям YandexGPT и Sber GigaChat. Мы ожидаем от участников в том числе сравнительной исследовательской работы по использованию этих LLM в рамках поставленной задачи.
Оптимальный состав команды:
2 DS-специалиста
1 Аналитик
1 DevOps/Architect*
1 DevRel*
* - Привлекать таких специалистов следует в случае полного формирования команды (5 человек), когда полностью закрыты все необходимые компетенции (DS-специалисты и аналитик).
Ограничения: В обязательном порядке использовать:
ЯП, обязательный для использования - Python
Docker (для упаковки приложения)
Обратите внимание, что необходима совместимость с ОС redhat Linux! Помните, что любые технологии, использованные вами, должны быть официально доступны на территории РФ и обладать лицензией, позволяющей свободное коммерческое использование!
Уточнение: Лучшее решение будет определено по доле правильных ответов как на открытую часть вопросов по документам, так и на закрытой части вопросов. В случае одинаковой доли правильных ответов у нескольких команд, победителем станет решение, оптимальное по себестоимости (затраты на API LLM или инференс open-source LLM).
Тестовые данные будут предоставлены участникам непосредственно на хакатоне.
Номинации и призы: 1 место - 120 000 рублей; 2 место - 80 000 рублей; 3 место - 50 000 рублей; А также фановые активности с ценными призами.
Кто может участвовать?
Разработчики;
Аналитики данных;
Продуктологи;
Команды из 3–5 человек.
Таймлайн:
до 28 мая, 23:59 МСК Регистрация. Зарегистрируйся на платформе хакатона в одиночку или сразу командой до 5 человек.
29 - 30 мая Отбор заявок. Пройди отбор и получи приглашение.
31 мая - 2 июня Хакатон. Прими участие в хакатоне при поддержке экспертов.
Расписание:
31 мая 17:00 Церемония открытия хакатона. 17:30 Q&A-сессия по условию задачи. 18:00 Начало работы.