PySpark с нуля

- Уроков: 40
- Сложность: easy
- Аудитория: Курс будет полезен всем — школьникам, студентам, специалистам, взрослым, пенсионерам, а также тем, кто хочет освоить новое направление или изменить профессиональную сферу. Apache Spark — это ключевая технология в современной обработке больших данных, и специалисты, владеющие Spark и PySpark, востребованы во всех отраслях: от аналитики и финансов до промышленности и телекоммуникаций. На сегодняшний день рынок остро ощущает нехватку специалистов, способных эффективно работать с распределёнными системами и обрабатывать терабайты данных. Давайте вместе решать эту проблему — и осваивать Spark с нуля до уровня уверенного практического применения!
Основная цель курса — освоить работу с Apache Spark и научиться эффективно обрабатывать большие объёмы данных с помощью PySpark, даже если вы раньше не работали с распределёнными системами.
Курс выделяется тем, что подробно рассматривает весь стек технологий вокруг Spark, включая RDD, DataFrame API, Spark SQL, потоковую обработку и оптимизацию. Он ориентирован как на студентов, так и на специалистов, желающих перейти в сферу Data Engineering. После окончания курса Вы будете уверенно применять Spark в реальных проектах и готовиться к собеседованиям на позиции Junior/Middle Data Engineer.
Общее содержание курса:
1. Введение в Spark и основы распределённых вычислений
2. Работа с данными в PySpark: RDD
3. Работа с данными в PySpark: DataFrame и Spark SQL
4. Оптимизация производительности PySpark-приложений
5. Потоковая обработка с PySpark Structured Streaming
6. Машинное обучение с PySpark MLlib
7. Интеграция PySpark с внешними системами
8. Отладка и профилирование PySpark-приложений
9. Чеклисты и шпаргалки по PySpark
10. Продвинутые темы PySpark
11. Финальные проекты
Во время прохождения курса Вы будете выполнять:
-
Лекционные материалы с визуализациями, схемами и примерами.
-
Практические задания: кодовые блоки, тесты, проверка решений
-
Финальный проект с ручной проверкой и обратной связью от преподавателя
- Понимание простой математики, умение решать поставленные задачи самостоятельно
- Наличие компьютера или ноутбука от 8 ГБ оперативной памяти и 128 ГБ на жестком диске