🎓

PySpark с нуля

Информационные технологии
Обложка курса Купить за 9990 ₽
  • Уроков: 40
  • Сложность: easy
  • Аудитория: Курс будет полезен всем — школьникам, студентам, специалистам, взрослым, пенсионерам, а также тем, кто хочет освоить новое направление или изменить профессиональную сферу. Apache Spark — это ключевая технология в современной обработке больших данных, и специалисты, владеющие Spark и PySpark, востребованы во всех отраслях: от аналитики и финансов до промышленности и телекоммуникаций. На сегодняшний день рынок остро ощущает нехватку специалистов, способных эффективно работать с распределёнными системами и обрабатывать терабайты данных. Давайте вместе решать эту проблему — и осваивать Spark с нуля до уровня уверенного практического применения!
Информационные технологии Платный
Курс предназначен для начинающих специалистов в области обработки больших данных. Вы изучите основы распределённых вычислений с Apache Spark, научитесь работать с RDD и DataFrame, познакомитесь с Spark SQL, оптимизацией запросов, потоковой обработкой и библиотекой машинного обучения MLlib. В финале курса Вы решите практическое задание и добавите готовый проект в портфолио.

Основная цель курса — освоить работу с Apache Spark и научиться эффективно обрабатывать большие объёмы данных с помощью PySpark, даже если вы раньше не работали с распределёнными системами.

Курс выделяется тем, что подробно рассматривает весь стек технологий вокруг Spark, включая RDD, DataFrame API, Spark SQL, потоковую обработку и оптимизацию. Он ориентирован как на студентов, так и на специалистов, желающих перейти в сферу Data Engineering. После окончания курса Вы будете уверенно применять Spark в реальных проектах и готовиться к собеседованиям на позиции Junior/Middle Data Engineer.

Общее содержание курса:

1. Введение в Spark и основы распределённых вычислений

2. Работа с данными в PySpark: RDD

3. Работа с данными в PySpark: DataFrame и Spark SQL

4. Оптимизация производительности PySpark-приложений

5. Потоковая обработка с PySpark Structured Streaming

6. Машинное обучение с PySpark MLlib

7. Интеграция PySpark с внешними системами

8. Отладка и профилирование PySpark-приложений

9. Чеклисты и шпаргалки по PySpark

10. Продвинутые темы PySpark

11. Финальные проекты

Во время прохождения курса Вы будете выполнять:

  • Лекционные материалы с визуализациями, схемами и примерами. 

  • Практические задания: кодовые блоки, тесты, проверка решений

  • Финальный проект с ручной проверкой и обратной связью от преподавателя

Требования:
  • Понимание простой математики, умение решать поставленные задачи самостоятельно
  • Наличие компьютера или ноутбука от 8 ГБ оперативной памяти и 128 ГБ на жестком диске