SENSE Group проведет онлайн-хакатон DATA HACK с 5 по 7 августа! А ГК "Иннотех" выступит партнером в битве IT-умов.
Успей зарегистрироваться до 1 августа: https://hcklink.ru/8601 Призовой фонд: 300 000 рублей (по 100 000 рублей в каждом кейсе)
Кейсы
Статический анализатор SparkSQL с возможностью добавления пользовательских правил
Описание:необходимо разработать статический анализатор SparkSQL кода. Грамматика должна расширяться через отдельный BNF файл (https://en.wikipedia.org/wiki/Backus–Naur_form). Есть возможность добавлять пользовательские проверки в коде. Есть ООП интерфейс для использования из кода. Инструмент должен быть быстрым и изолированным. Не использовать Spark сессию. Укладываться в SLA до 5 секунд на 10 запросов. Стек решений: #Python 3.7+, #Библиотека Lark, #Любые необходимые библиотеки, которые не требуют интеграции с внешними системами и БД.
Генератор фейковый данных для сложных запросов
Описание:есть набор dataclasses, описывающий имена таблиц, их столбцы и типы. Требуется генератор фейковых данных при заданном описании таблиц. Большое (100к+ строк на таблицу) количество данных может быть сгенерировано в разумные сроки (до 30 минут на 5 таблиц). Нужен ООП инструментарий, который может обернуть эти классы и настроить некоторые столбцы так, что таблицы будут джоиниться между собой. В определенных столбцах данные нужно генерить по маске (для прохождения where, и т. п.). Будет возможность использовать техники тест дизайна (частотное распределение, граничные значения, эквивалентное разбиение) Стек решений: #Python 3.7+, #Библиотека Faker или любые другие необходимые библиотеки, не требующие интеграции с внешними системами и БД.
Создание прототипа ETL Движка из Postgres, Oracle, ClickHouse в HDFS на Spark
Описание:движок должен быть шаблонизирован через конфигурацию. Простой snapshot с возможностью обогатить техническими столбцами (load_ts, source_name). Инкрементная загрузка с использованием HWM (High WaterMark) или другим методом. Стек решений: #Python 3.7+, #PySpark 2+, #Hadoop 2+, #Postgres, #Oracle, #ClickHouse (см Spark JDBC).
Хочешь узнавать о новых хакатонах первым? Подписывайся на нашу группу в ВК: https://vk.com/hackathoncom Также, наш Telegram-бот, где мы присылаем хакатоны по параметрам, которые интересны тебе: https://t.me/hackathons4ubot