🎓

Data Engineer с нуля до junior: Полная программа

Информационные технологии
Обложка курса Купить за 12000 ₽
  • Уроков: 1
  • Сложность: easy
  • Аудитория: Курс будет полезен всем людям, будь то школьники, студенты, взрослые, пенсионеры, люди, желающие освоить новое направление, желающие поменять род деятельности. На данный момент направление больших данных терпит недостаток кадрового резерва, давайте исправлять это!
Информационные технологии Платный
Это полный набор курсов для погружения в IT направление "Большие данные" как Data Engineer. Включенные сюда дополнительные курсы SQL, Python, PySpark и SQLAlchemy дают ключевые навыки для обработки, трансформации и загрузки данных. Они позволяют эффективно работать с БД, автоматизировать пайплайны и масштабировать обработку данных в распределённых системах. По окончании курса Вам будет предложено решить финальное задание на выбор, которое пойдет в Ваше портфолио и отразит все знания, полученные на курсе.

Основная цель курса - освоение профессии data engineer с нуля, без каких-либо начальных знаний. Прорабатывается весь инструментарий стека (SQL, Scala, Bash, Hadoop, Linux, Python, Pandas, Airflow и GIT). Курс поможет Вам получить нужный багаж знаний для успешного трудоустройства на грейд (Junior). Дополнительные курсы по SQL, Python, PySpark и SQLAlchemy необходимы data engineer для построения надёжных и масштабируемых систем обработки данных. SQL помогает извлекать и анализировать данные из БД, Python — автоматизировать задачи и управлять пайплайнами, PySpark — обрабатывать большие объёмы данных в распределённых средах, а SQLAlchemy — создавать и взаимодействовать с базами на уровне кода. Вместе они формируют основу профессионального инструментария. Во время прохождения курса Вам будут доступны лекционные и практические задания : 

  1. Лекционные материалы позволят Вам углубиться в тему и приобрести багаж знаний для решения практики.
  2. Практические материалы представляют из себя тесты после каждой лекции, задания на написание кода и финальное выпускное задание на выбор. Каждое задание проверяется преподавателями вручную.

Cодержание курса Data Engineer

  1. Знакомство с платформой и сдача практических задач
  2. Что такое информация, данные и BigData?
  3. Теория баз данных
  4. Обустраиваем рабочее место | Docker | VB
  5. Введение в SQL
  6. Система контроля версий GIT
  7. Столбцовые (колоночные) базы данных. Введение в ClickHouse
  8. DWH - Data WareHouse
  9. NoSQL хранилища данных
  10. Озера данных
  11. Введение в Linux | Bash | cURL
  12. Распределенная файловая система HDFS
  13. Программирование на Python
  14. Алгоритмы и сортировки, big O
  15. Обработка данных с использованием движка PySpark
  16. Инструменты стека Hadoop
  17. Углубленное изучение Spark
  18. Программирование на Scala
  19. Введение в Pandas и работа с API
  20. Оркестраторы рабочих процессов при работе с большими данными
  21. Знакомство с Kafka
  22. Мониторинг витрин и приложений
  23. Инструменты командной работы
  24. Разбор основных вопросов на собеседованиях
  25. Итоговая работа

Содержание курса Python Engineer 

  1. Общая информация
  2. Введение
  3. Начало Python
  4. Условные операторы, циклы и try/except
  5. Строки
  6. Списки и кортежи
  7. Словари и множества
  8. Функции
  9. Модули и пакеты
  10. Random и time
  11. Decimal / Fractions / Complex
  12. IterTools
  13. Введение в PyQt5
  14. Асинхронность и многопоточность
  15. Алгоритмы и сортировки
  16. MatPlotLib
  17. Что такое матрицы и NumPy?
  18. Файлы
  19. ООП
  20. Машинное обучение
  21. NLP
  22. OpenCV
  23. Чат-боты
  24. Что такое SQLAlchemy и Django
  25. Итоговый проект

Содержание курса SQL Engineer 

  1. Знакомство с платформой и сдача практических работ
  2. Что такое базы данных
  3. Проектирование баз данных
  4. Введение в PostgreSQL
  5. Структура SQL-запросов
  6. Команды DML
  7. Запросы на выборку данных
  8. Агрегация и группировка данных
  9. Работа с несколькими таблицами
  10. Работа с NULL-значениями
  11. Индексы и их использование
  12. Работа с представлениями (Views)
  13. Управление доступом и безопасностью
  14. Хранимые процедуры и функции
  15. Триггеры и их использование
  16. Работа с JSON и XML-данными
  17. SQL для аналитики данных
  18. NoSQL и SQL
  19. Безопасность данных и шифрование
  20. Введение в ClickHouse
  21. Разбор основных вопросов на собеседованиях
  22. Итоговое задание

Содержание курса SQLAlchemy 

  1. Знакомство с платформой и структура курса
  2. Введение в SQLAlchemy: основные принципы ORM
  3. CRUD-операции (создание, чтение, обновление, удаление данных)
  4. Работа с миграциями: Alembic и управление схемами БД
  5. Тестирование моделей и запросов с использованием SQLAlchemy
  6. Построение запросов и фильтрация данных
  7. Связи между моделями: один к одному, один ко многим, многие ко многим
  8. Работа с транзакциями и контроль целостности данных
  9. Оптимизация производительности запросов
  10. Безопасность при работе с базами данных
  11. Расширенные возможности SQLAlchemy (дополнительные фишки и подходы)
  12. Итоговый проект на выбор для пополнения портфолио

Содержание курса PySpark 

  1. Введение в Spark и основы распределённых вычислений
  2. Работа с данными в PySpark: RDD
  3. Работа с данными в PySpark: DataFrame и Spark SQL
  4. Оптимизация производительности PySpark-приложений
  5. Потоковая обработка с PySpark Structured Streaming
  6. Машинное обучение с PySpark MLlib
  7. Интеграция PySpark с внешними системами
  8. Отладка и профилирование PySpark-приложений
  9. Чеклисты и шпаргалки по PySpark
  10. Продвинутые темы PySpark
  11. Финальные проекты

По окончании курса Вам будет предложено решить финальное задание на выбор, которое пойдет в Ваше портфолио и отразит все знания, полученные на курсе. На протяжении всего курса Вам будет доступен телеграмм канал с одногруппниками и преподавателями, где Вы сможете задать свой вопрос.

Желаю удачи в освоении нового, но очень интересного материала!

О новостях курса, важных обновлениях и прочих интересных вещах можно узнавать из группы в телеграмме  - https://t.me/data_stepic

Требования:

1. Понимание простейшей математики, умение решать поставленные задачи самостоятельно.

2. Наличие компьютера или ноутбука от 8 гб оперативной памяти и от 128 гб на жестком диске.