Стажировка Data Engineer | Осенний поток 2025

- Уроков: 60
- Сложность: easy
- Аудитория: Стажировка будет полезна тем, кто стал «вечным студентом» и хочет стать практикующим разработчиком. Также будет полезна тем, кто хочет получить практический опыт решения задач дата инженеринга.
NovaData - образовательная платформа, которая осуществляет подготовку эффективных специалистов в области DE. Мы входим в топ 250 авторов Stepik и являемся единственным кооперативом DE на площадке. За время существования коллектива подготовлено более 15.000 студентов и оценка студентов > 4.9.
Продукт - стажировка!
Стажировка начинается 1 октября и продлится полгода!
Данный продукт является логическим продолжением курса «Data Engineer с нуля до junior», но при этом подходит и тем, кто уже имеет небольшой опыт в смежных областях (SQL, Python, аналитика) и хочет получить полноценный практический опыт и перейти на позицию Middle Data Engineer. Формат полностью онлайн, без привязки ко времени, за исключением вебинаров (будут записи).
Как проходит?
Вебинары проходят несколько раз в неделю!
Количество студентов на потоке — 60.
Количество групп — 2, по 30 студентов.
После покупки курса вас добавят в закрытый телеграм-канал, в котором будут описаны дальнейшие шаги. Есть возможность выбрать день недели, когда будет удобно посещать вебинары. В конце курса у Вас будет целое портфолио с множеством проектов.
В резюме смело сможете указать, что стажировались в NovaData целых полгода!
Если Вы знаете, что у вас слабый компьютер — мы готовы выдать вам настроенную виртуальную машину за доп плату.
Абсолютно все участники стажировки получают мерч и диплом!
Программа стажировки выглядит следующим образом :
1. Первые действия
2. Организация работы
3. Введение в проектную работу (Как устроена командная работа на стажировке, основы работы с Git и репозиториями)
4. Работа с базами данных (Работа с PostgreSQL, работа с ClickHouse, введение в NoSQL и практика)
5. Потоковая обработка данных + настройка алертов (Введение в стриминговую обработку данных, генерация данных в PostgreSQL и загрузка их в ClickHouse через Kafka, борьба с дубликатами в Kafka, настройка алертов и уведомлений, знакомство с Debezium (CDC для PostgreSQL), основы Spark Streaming: Stateful и Stateless задачи, вебинар по задачам стриминга)
6. Батчовая обработка данных + настройка Grafana (Основы HDFS и его особенности, объектные хранилища (например, Amazon S3) и работа с ними, создание дашбордов в Grafana, настройка мониторинга качества данных, индивидуальные задания по расширению функционала хранения, вебинар по ETL-процессам и мониторингу)
7. Работа с инструментами Big Data (Знакомство с Hive и его особенностями, знакомство с Iceberg и концепцией Slowly Changing Dimensions (SCD), установка и настройка Spark, работа с RDD: преобразования и действия, работа с DataFrame и SparkSQL, функции PySpark и оптимизация витрин, практика углубленного использования PySpark, вебинары по работе с Hive, PySpark и SparkSQL)
8. Практическое изучение Airflow и миграция данных (Основы оркестрации данных, переменные, таски и их виды, connections, XCom, sensors в Airflow, генерация DAGов и практика их настройки, миграция данных из PostgreSQL в ClickHouse, вебинары по практике работы с Airflow и миграции данных)
9. Парсинг, очистка и загрузка данных (Основы парсинга данных, работа с библиотеками Requests и BeautifulSoup, задания по созданию парсеров разного уровня сложности, введение в Scrapy и Selenium, очистка и загрузка данных с использованием SQL, Spark и Pandas, вебинар по парсингу и аналитике)
10. Реализация итогового проекта и его защита (Разработка командного или индивидуального проекта, подготовка к публичной защите, вебинары по обсуждению итоговых проектов, публичная защита проектов)
11. Дальнейшее трудоустройство (Составление резюме, презентация собственных навыков и проектов)
Если у Вас возникли вопросы, Вы можете задать их в телеграмм директору NovaData.
-
Необходимо уметь кодить основные конструкции Python (for, while, try/except, основные структуры данных)
-
Нужно знать любой диалект SQL на уровне написания простых запросов (фильтрация, join)
-
git — необходимо уметь создавать репозитории GIT и уметь пушить в удалённый репо (если что - научим)
-
Наличие компьютера с более 8 Гб оперативной памяти и жесткий диск от 128 Гб.