Hack.Genesis - хакатон от Phystech.Genesis, сочетающий динамику офлайн-мероприятий с удобствами онлайн-формата.
Мы cоздаем атмосферу креативного и технологичного события, где каждый может проявить себя, не выходя из дома.
Hack.Genesis 2024 - это:
Зачем участвовать?
Создать систему, которая с помощью RAG-подхода сможет детально ответить на вопросы пользователей по сложным финансовым данным.
Проблематика:
Достаточно часто открытая финансовая отчетность организаций хранится в PDF-документах и содержит табличные и текстовые данные со специфическим форматированием, а также отсканированные страницы. Данные такого формата плохо поддаются не только автоматической обработке (парсингу), но с трудом обрабатываются обученными специалистами, особенно в большом количестве.
Самым простым решением, очевидно, было бы увеличение количества людей, выделенных на ручную обработку и кросс-валидацию данных из документов, верно? Но как быть, если количество ресурсов ограничено, особенно если не хватает самого ценного - времени?
Образ решения:
Именно в такой момент и требуется помощь LLM-моделей и использование подхода RAG, который вовремя и автоматически проверит источники и подготовит необходимые данные для аугментации запроса.
В рамках хакатона участникам предстоит создать pipeline работы с файлами указанного формата. Не забывайте, pipeline - это не просто одно действие, это последовательность, каждый шаг которой должен приближать необходимый результат.
Вам необходимо определить методы получения информации из pdf-файлов различных форматов, разработать с нуля подход, дающий возможность применения этих данных в вопросно-ответной системе на основе любых доступных LLM. Помните, что поставленная задача - это не только проверка технических возможностей ваших pipeline-ов, но бизнес-кейс, который нужно оптимизировать в плане затрат, масштабируемости и удобства интеграции.
Обращаем ваше внимание, что участникам в рамках хакатона будут предоставлен доступ к моделям YandexGPT и Sber GigaChat. Мы ожидаем от участников в том числе сравнительной исследовательской работы по использованию этих LLM в рамках поставленной задачи.
Оптимальный состав команды:
Ограничения:
В обязательном порядке использовать:
Обратите внимание, что необходима совместимость с ОС redhat Linux!
Помните, что любые технологии, использованные вами, должны быть официально доступны на территории РФ и обладать лицензией, позволяющей свободное коммерческое использование!
Уточнение:
Лучшее решение будет определено по доле правильных ответов как на открытую часть вопросов по документам, так и на закрытой части вопросов. В случае одинаковой доли правильных ответов у нескольких команд, победителем станет решение, оптимальное по себестоимости (затраты на API LLM или инференс open-source LLM).
Тестовые данные будут предоставлены участникам непосредственно на хакатоне.
Номинации и призы:
1 место - 120 000 рублей;
2 место - 80 000 рублей;
3 место - 50 000 рублей;
А также фановые активности с ценными призами.
Кто может участвовать?
Регистрация.
Зарегистрируйся на платформе хакатона в одиночку или сразу командой до 5 человек.
29 - 30 мая
Отбор заявок.
Пройди отбор и получи приглашение.
31 мая - 2 июня
Хакатон.
Прими участие в хакатоне при поддержке экспертов.
17:00
Церемония открытия хакатона.
17:30
Q&A-сессия по условию задачи.
18:00
Начало работы.
1 июня
10:00 - 12:00
Чек-поинт №1.
18:00 - 20:00
Чек-поинт №2.
2 июня
10:00
Дедлайн загрузки решений.
15:00
Питчи финалистов.
18:00
Награждение победителей.
Общий призовой фонд - 250 000 рублей!
Формат: онлайн
Регистрация до 28 мая:
Мы cоздаем атмосферу креативного и технологичного события, где каждый может проявить себя, не выходя из дома.
Hack.Genesis 2024 - это:
- Развитие навыков и получение опыта;
- Возможность поработать с опытными специалистами;
- 40-часовое соревнование с другими командами;
- Возможность получить денежные и ценные призы.
Зачем участвовать?
- 250 000 рублей призовой фонд;
- Нетворкинг, прокачка навыков и командная работа;
- Решение реальной задачи в сжатые сроки.
Задача хакатона:
Формулировка задачи:Создать систему, которая с помощью RAG-подхода сможет детально ответить на вопросы пользователей по сложным финансовым данным.
Проблематика:
Достаточно часто открытая финансовая отчетность организаций хранится в PDF-документах и содержит табличные и текстовые данные со специфическим форматированием, а также отсканированные страницы. Данные такого формата плохо поддаются не только автоматической обработке (парсингу), но с трудом обрабатываются обученными специалистами, особенно в большом количестве.
Самым простым решением, очевидно, было бы увеличение количества людей, выделенных на ручную обработку и кросс-валидацию данных из документов, верно? Но как быть, если количество ресурсов ограничено, особенно если не хватает самого ценного - времени?
Образ решения:
Именно в такой момент и требуется помощь LLM-моделей и использование подхода RAG, который вовремя и автоматически проверит источники и подготовит необходимые данные для аугментации запроса.
В рамках хакатона участникам предстоит создать pipeline работы с файлами указанного формата. Не забывайте, pipeline - это не просто одно действие, это последовательность, каждый шаг которой должен приближать необходимый результат.
Вам необходимо определить методы получения информации из pdf-файлов различных форматов, разработать с нуля подход, дающий возможность применения этих данных в вопросно-ответной системе на основе любых доступных LLM. Помните, что поставленная задача - это не только проверка технических возможностей ваших pipeline-ов, но бизнес-кейс, который нужно оптимизировать в плане затрат, масштабируемости и удобства интеграции.
Обращаем ваше внимание, что участникам в рамках хакатона будут предоставлен доступ к моделям YandexGPT и Sber GigaChat. Мы ожидаем от участников в том числе сравнительной исследовательской работы по использованию этих LLM в рамках поставленной задачи.
Оптимальный состав команды:
- 2 DS-специалиста
- 1 Аналитик
- 1 DevOps/Architect*
- 1 DevRel*
Ограничения:
В обязательном порядке использовать:
- ЯП, обязательный для использования - Python
- Docker (для упаковки приложения)
Обратите внимание, что необходима совместимость с ОС redhat Linux!
Помните, что любые технологии, использованные вами, должны быть официально доступны на территории РФ и обладать лицензией, позволяющей свободное коммерческое использование!
Уточнение:
Лучшее решение будет определено по доле правильных ответов как на открытую часть вопросов по документам, так и на закрытой части вопросов. В случае одинаковой доли правильных ответов у нескольких команд, победителем станет решение, оптимальное по себестоимости (затраты на API LLM или инференс open-source LLM).
Тестовые данные будут предоставлены участникам непосредственно на хакатоне.
Номинации и призы:
1 место - 120 000 рублей;
2 место - 80 000 рублей;
3 место - 50 000 рублей;
А также фановые активности с ценными призами.
Кто может участвовать?
- Разработчики;
- Аналитики данных;
- Продуктологи;
- Команды из 3–5 человек.
Таймлайн:
до 28 мая, 23:59 МСКРегистрация.
Зарегистрируйся на платформе хакатона в одиночку или сразу командой до 5 человек.
29 - 30 мая
Отбор заявок.
Пройди отбор и получи приглашение.
31 мая - 2 июня
Хакатон.
Прими участие в хакатоне при поддержке экспертов.
Расписание:
31 мая17:00
Церемония открытия хакатона.
17:30
Q&A-сессия по условию задачи.
18:00
Начало работы.
1 июня
10:00 - 12:00
Чек-поинт №1.
18:00 - 20:00
Чек-поинт №2.
2 июня
10:00
Дедлайн загрузки решений.
15:00
Питчи финалистов.
18:00
Награждение победителей.
Общий призовой фонд - 250 000 рублей!
Формат: онлайн
Регистрация до 28 мая:
Хочешь узнавать о новых хакатонах, соревнованиях первым?
Подписывайся на наши социальные сети:
Подписывайся на наши социальные сети:
Также, подписывайся на наш Telegram-бот, где мы присылаем хакатоны, соревнования по параметрам, которые интересны тебе: