🎓

Data Engineer с нуля до junior: Полная программа

Информационные технологии

Купить за 12000 ₽

Уроков: 1
Сложность: easy
Аудитория: Курс будет полезен всем людям, будь то школьники, студенты, взрослые, пенсионеры, люди, желающие освоить новое направление, желающие поменять род деятельности. На данный момент направление больших данных терпит недостаток кадрового резерва, давайте исправлять это!

Информационные технологии Платный

Это полный набор курсов для погружения в IT направление "Большие данные" как Data Engineer. Включенные сюда дополнительные курсы SQL, Python, PySpark и SQLAlchemy дают ключевые навыки для обработки, трансформации и загрузки данных. Они позволяют эффективно работать с БД, автоматизировать пайплайны и масштабировать обработку данных в распределённых системах. По окончании курса Вам будет предложено решить финальное задание на выбор, которое пойдет в Ваше портфолио и отразит все знания, полученные на курсе.

Основная цель курса - освоение профессии data engineer с нуля, без каких-либо начальных знаний. Прорабатывается весь инструментарий стека (SQL, Scala, Bash, Hadoop, Linux, Python, Pandas, Airflow и GIT). Курс поможет Вам получить нужный багаж знаний для успешного трудоустройства на грейд (Junior). Дополнительные курсы по SQL, Python, PySpark и SQLAlchemy необходимы data engineer для построения надёжных и масштабируемых систем обработки данных. SQL помогает извлекать и анализировать данные из БД, Python — автоматизировать задачи и управлять пайплайнами, PySpark — обрабатывать большие объёмы данных в распределённых средах, а SQLAlchemy — создавать и взаимодействовать с базами на уровне кода. Вместе они формируют основу профессионального инструментария. Во время прохождения курса Вам будут доступны лекционные и практические задания :

Лекционные материалы позволят Вам углубиться в тему и приобрести багаж знаний для решения практики.
Практические материалы представляют из себя тесты после каждой лекции, задания на написание кода и финальное выпускное задание на выбор. Каждое задание проверяется преподавателями вручную.

Cодержание курса Data Engineer:

Знакомство с платформой и сдача практических задач
Что такое информация, данные и BigData?
Теория баз данных
Обустраиваем рабочее место | Docker | VB
Введение в SQL
Система контроля версий GIT
Столбцовые (колоночные) базы данных. Введение в ClickHouse
DWH - Data WareHouse
NoSQL хранилища данных
Озера данных
Введение в Linux | Bash | cURL
Распределенная файловая система HDFS
Программирование на Python
Алгоритмы и сортировки, big O
Обработка данных с использованием движка PySpark
Инструменты стека Hadoop
Углубленное изучение Spark
Программирование на Scala
Введение в Pandas и работа с API
Оркестраторы рабочих процессов при работе с большими данными
Знакомство с Kafka
Мониторинг витрин и приложений
Инструменты командной работы
Разбор основных вопросов на собеседованиях
Итоговая работа

Содержание курса Python Engineer

Общая информация
Введение
Начало Python
Условные операторы, циклы и try/except
Строки
Списки и кортежи
Словари и множества
Функции
Модули и пакеты
Random и time
Decimal / Fractions / Complex
IterTools
Введение в PyQt5
Асинхронность и многопоточность
Алгоритмы и сортировки
MatPlotLib
Что такое матрицы и NumPy?
Файлы
ООП
Машинное обучение
NLP
OpenCV
Чат-боты
Что такое SQLAlchemy и Django
Итоговый проект

Содержание курса SQL Engineer

Знакомство с платформой и сдача практических работ
Что такое базы данных
Проектирование баз данных
Введение в PostgreSQL
Структура SQL-запросов
Команды DML
Запросы на выборку данных
Агрегация и группировка данных
Работа с несколькими таблицами
Работа с NULL-значениями
Индексы и их использование
Работа с представлениями (Views)
Управление доступом и безопасностью
Хранимые процедуры и функции
Триггеры и их использование
Работа с JSON и XML-данными
SQL для аналитики данных
NoSQL и SQL
Безопасность данных и шифрование
Введение в ClickHouse
Разбор основных вопросов на собеседованиях
Итоговое задание

Содержание курса SQLAlchemy

Знакомство с платформой и структура курса
Введение в SQLAlchemy: основные принципы ORM
CRUD-операции (создание, чтение, обновление, удаление данных)
Работа с миграциями: Alembic и управление схемами БД
Тестирование моделей и запросов с использованием SQLAlchemy
Построение запросов и фильтрация данных
Связи между моделями: один к одному, один ко многим, многие ко многим
Работа с транзакциями и контроль целостности данных
Оптимизация производительности запросов
Безопасность при работе с базами данных
Расширенные возможности SQLAlchemy (дополнительные фишки и подходы)
Итоговый проект на выбор для пополнения портфолио

Содержание курса PySpark

Введение в Spark и основы распределённых вычислений
Работа с данными в PySpark: RDD
Работа с данными в PySpark: DataFrame и Spark SQL
Оптимизация производительности PySpark-приложений
Потоковая обработка с PySpark Structured Streaming
Машинное обучение с PySpark MLlib
Интеграция PySpark с внешними системами
Отладка и профилирование PySpark-приложений
Чеклисты и шпаргалки по PySpark
Продвинутые темы PySpark
Финальные проекты

По окончании курса Вам будет предложено решить финальное задание на выбор, которое пойдет в Ваше портфолио и отразит все знания, полученные на курсе. На протяжении всего курса Вам будет доступен телеграмм канал с одногруппниками и преподавателями, где Вы сможете задать свой вопрос.

Желаю удачи в освоении нового, но очень интересного материала!

О новостях курса, важных обновлениях и прочих интересных вещах можно узнавать из группы в телеграмме - https://t.me/data_stepic

Требования:

1. Понимание простейшей математики, умение решать поставленные задачи самостоятельно.

2. Наличие компьютера или ноутбука от 8 гб оперативной памяти и от 128 гб на жестком диске.