🎓

Стажировка Data Engineer | Осенний поток 2025

Информационные технологии

Уроков: 60
Сложность: easy
Аудитория: Стажировка будет полезна тем, кто стал «вечным студентом» и хочет стать практикующим разработчиком. Также будет полезна тем, кто хочет получить практический опыт решения задач дата инженеринга.

Информационные технологии Платный

Практическая стажировка «Data Engineer с нуля до middle» поможет получить реальные навыки работы с данными и подготовиться к трудоустройству. Вы научитесь работать с базами данных (SQL, NoSQL), строить и оптимизировать ETL-пайплайны, обрабатывать данные с использованием Docker, Pandas, Hive, PySpark, Kafka и Airflow. Вас ждёт работа в команде, 15 вебинаров, поддержка кураторов и финальная защита проекта. Стажировка подходит тем, кто хочет перейти на позицию Middle Data Engineer.

NovaData - образовательная платформа, которая осуществляет подготовку эффективных специалистов в области DE. Мы входим в топ 250 авторов Stepik и являемся единственным кооперативом DE на площадке. За время существования коллектива подготовлено более 15.000 студентов и оценка студентов > 4.9.

Продукт - стажировка!

Стажировка начинается 1 октября и продлится полгода!

Данный продукт является логическим продолжением курса «Data Engineer с нуля до junior», но при этом подходит и тем, кто уже имеет небольшой опыт в смежных областях (SQL, Python, аналитика) и хочет получить полноценный практический опыт и перейти на позицию Middle Data Engineer. Формат полностью онлайн, без привязки ко времени, за исключением вебинаров (будут записи).

Как проходит?

Вебинары проходят несколько раз в неделю!

Количество студентов на потоке — 60.
Количество групп — 2, по 30 студентов.

После покупки курса вас добавят в закрытый телеграм-канал, в котором будут описаны дальнейшие шаги. Есть возможность выбрать день недели, когда будет удобно посещать вебинары. В конце курса у Вас будет целое портфолио с множеством проектов.

В резюме смело сможете указать, что стажировались в NovaData целых полгода!

Если Вы знаете, что у вас слабый компьютер — мы готовы выдать вам настроенную виртуальную машину за доп плату.

Абсолютно все участники стажировки получают мерч и диплом!

Программа стажировки выглядит следующим образом :

1. Первые действия

2. Организация работы

3. Введение в проектную работу (Как устроена командная работа на стажировке, основы работы с Git и репозиториями)

4. Работа с базами данных (Работа с PostgreSQL, работа с ClickHouse, введение в NoSQL и практика)

5. Потоковая обработка данных + настройка алертов (Введение в стриминговую обработку данных, генерация данных в PostgreSQL и загрузка их в ClickHouse через Kafka, борьба с дубликатами в Kafka, настройка алертов и уведомлений, знакомство с Debezium (CDC для PostgreSQL), основы Spark Streaming: Stateful и Stateless задачи, вебинар по задачам стриминга)

6. Батчовая обработка данных + настройка Grafana (Основы HDFS и его особенности, объектные хранилища (например, Amazon S3) и работа с ними, создание дашбордов в Grafana, настройка мониторинга качества данных, индивидуальные задания по расширению функционала хранения, вебинар по ETL-процессам и мониторингу)

7. Работа с инструментами Big Data (Знакомство с Hive и его особенностями, знакомство с Iceberg и концепцией Slowly Changing Dimensions (SCD), установка и настройка Spark, работа с RDD: преобразования и действия, работа с DataFrame и SparkSQL, функции PySpark и оптимизация витрин, практика углубленного использования PySpark, вебинары по работе с Hive, PySpark и SparkSQL)

8. Практическое изучение Airflow и миграция данных (Основы оркестрации данных, переменные, таски и их виды, connections, XCom, sensors в Airflow, генерация DAGов и практика их настройки, миграция данных из PostgreSQL в ClickHouse, вебинары по практике работы с Airflow и миграции данных)

9. Парсинг, очистка и загрузка данных (Основы парсинга данных, работа с библиотеками Requests и BeautifulSoup, задания по созданию парсеров разного уровня сложности, введение в Scrapy и Selenium, очистка и загрузка данных с использованием SQL, Spark и Pandas, вебинар по парсингу и аналитике)

10. Реализация итогового проекта и его защита (Разработка командного или индивидуального проекта, подготовка к публичной защите, вебинары по обсуждению итоговых проектов, публичная защита проектов)

11. Дальнейшее трудоустройство (Составление резюме, презентация собственных навыков и проектов)

Если у Вас возникли вопросы, Вы можете задать их в телеграмм директору NovaData.

Требования:

Необходимо уметь кодить основные конструкции Python (for, while, try/except, основные структуры данных)
Нужно знать любой диалект SQL на уровне написания простых запросов (фильтрация, join)
git — необходимо уметь создавать репозитории GIT и уметь пушить в удалённый репо (если что - научим)
Наличие компьютера с более 8 Гб оперативной памяти и жесткий диск от 128 Гб.