Data Engineer с нуля до junior: Полная программа

- Уроков: 1
- Сложность: easy
- Аудитория: Курс будет полезен всем людям, будь то школьники, студенты, взрослые, пенсионеры, люди, желающие освоить новое направление, желающие поменять род деятельности. На данный момент направление больших данных терпит недостаток кадрового резерва, давайте исправлять это!
Основная цель курса - освоение профессии data engineer с нуля, без каких-либо начальных знаний. Прорабатывается весь инструментарий стека (SQL, Scala, Bash, Hadoop, Linux, Python, Pandas, Airflow и GIT). Курс поможет Вам получить нужный багаж знаний для успешного трудоустройства на грейд (Junior). Дополнительные курсы по SQL, Python, PySpark и SQLAlchemy необходимы data engineer для построения надёжных и масштабируемых систем обработки данных. SQL помогает извлекать и анализировать данные из БД, Python — автоматизировать задачи и управлять пайплайнами, PySpark — обрабатывать большие объёмы данных в распределённых средах, а SQLAlchemy — создавать и взаимодействовать с базами на уровне кода. Вместе они формируют основу профессионального инструментария. Во время прохождения курса Вам будут доступны лекционные и практические задания :
- Лекционные материалы позволят Вам углубиться в тему и приобрести багаж знаний для решения практики.
- Практические материалы представляют из себя тесты после каждой лекции, задания на написание кода и финальное выпускное задание на выбор. Каждое задание проверяется преподавателями вручную.
Cодержание курса Data Engineer:
- Знакомство с платформой и сдача практических задач
- Что такое информация, данные и BigData?
- Теория баз данных
- Обустраиваем рабочее место | Docker | VB
- Введение в SQL
- Система контроля версий GIT
- Столбцовые (колоночные) базы данных. Введение в ClickHouse
- DWH - Data WareHouse
- NoSQL хранилища данных
- Озера данных
- Введение в Linux | Bash | cURL
- Распределенная файловая система HDFS
- Программирование на Python
- Алгоритмы и сортировки, big O
- Обработка данных с использованием движка PySpark
- Инструменты стека Hadoop
- Углубленное изучение Spark
- Программирование на Scala
- Введение в Pandas и работа с API
- Оркестраторы рабочих процессов при работе с большими данными
- Знакомство с Kafka
- Мониторинг витрин и приложений
- Инструменты командной работы
- Разбор основных вопросов на собеседованиях
- Итоговая работа
Содержание курса Python Engineer
- Общая информация
- Введение
- Начало Python
- Условные операторы, циклы и try/except
- Строки
- Списки и кортежи
- Словари и множества
- Функции
- Модули и пакеты
- Random и time
- Decimal / Fractions / Complex
- IterTools
- Введение в PyQt5
- Асинхронность и многопоточность
- Алгоритмы и сортировки
- MatPlotLib
- Что такое матрицы и NumPy?
- Файлы
- ООП
- Машинное обучение
- NLP
- OpenCV
- Чат-боты
- Что такое SQLAlchemy и Django
- Итоговый проект
Содержание курса SQL Engineer
- Знакомство с платформой и сдача практических работ
- Что такое базы данных
- Проектирование баз данных
- Введение в PostgreSQL
- Структура SQL-запросов
- Команды DML
- Запросы на выборку данных
- Агрегация и группировка данных
- Работа с несколькими таблицами
- Работа с NULL-значениями
- Индексы и их использование
- Работа с представлениями (Views)
- Управление доступом и безопасностью
- Хранимые процедуры и функции
- Триггеры и их использование
- Работа с JSON и XML-данными
- SQL для аналитики данных
- NoSQL и SQL
- Безопасность данных и шифрование
- Введение в ClickHouse
- Разбор основных вопросов на собеседованиях
- Итоговое задание
Содержание курса SQLAlchemy
- Знакомство с платформой и структура курса
- Введение в SQLAlchemy: основные принципы ORM
- CRUD-операции (создание, чтение, обновление, удаление данных)
- Работа с миграциями: Alembic и управление схемами БД
- Тестирование моделей и запросов с использованием SQLAlchemy
- Построение запросов и фильтрация данных
- Связи между моделями: один к одному, один ко многим, многие ко многим
- Работа с транзакциями и контроль целостности данных
- Оптимизация производительности запросов
- Безопасность при работе с базами данных
- Расширенные возможности SQLAlchemy (дополнительные фишки и подходы)
- Итоговый проект на выбор для пополнения портфолио
Содержание курса PySpark
- Введение в Spark и основы распределённых вычислений
- Работа с данными в PySpark: RDD
- Работа с данными в PySpark: DataFrame и Spark SQL
- Оптимизация производительности PySpark-приложений
- Потоковая обработка с PySpark Structured Streaming
- Машинное обучение с PySpark MLlib
- Интеграция PySpark с внешними системами
- Отладка и профилирование PySpark-приложений
- Чеклисты и шпаргалки по PySpark
- Продвинутые темы PySpark
- Финальные проекты
По окончании курса Вам будет предложено решить финальное задание на выбор, которое пойдет в Ваше портфолио и отразит все знания, полученные на курсе. На протяжении всего курса Вам будет доступен телеграмм канал с одногруппниками и преподавателями, где Вы сможете задать свой вопрос.
Желаю удачи в освоении нового, но очень интересного материала!
О новостях курса, важных обновлениях и прочих интересных вещах можно узнавать из группы в телеграмме - https://t.me/data_stepic
1. Понимание простейшей математики, умение решать поставленные задачи самостоятельно.
2. Наличие компьютера или ноутбука от 8 гб оперативной памяти и от 128 гб на жестком диске.