Мы в Твиттере
Мы в Контакте
Поиск

Курс Microsoft DP-203

 

Инжиниринг данных в Microsoft Azure

Data Engineering on Microsoft Azure
Продолжительность обучения: 4 дня - 32 часа
Группа формируется по мере поступления заявок.
Стоимость курса DP-203:
- Очно: уточняйте у менеджеров
- Дистанционно: уточняйте у менеджеров
Цели курса
Этот курс позволяет познакомиться с инжинирингом данных в его связи с работой с пакетными и работающими в реальном времени аналитическими решениями с использованием технологий платформ данных Azure. Слушатели поймут основные технологии вычислений и хранения, которые используются для построения аналитического решения. Слушатели также узнают, как интерактивно исследовать данные, хранящиеся в файлах в Azure Data Lake.
Аудитория
Этот курс предназначен для специалистов в области данных, архитекторов данных и специалистов по бизнес-аналитике, желающие узнать об инжиниринге данных или построении аналитических решений с использованием технологий платформ данных, существующих в Microsoft Azure. Вторичная аудитория этого курса — аналитики данных и специалисты по обработке данных, которые работают с аналитическими решениями, построенными на Microsoft Azure.
По окончании курса слушатели смогут:
  • Описать технологии Azure Synapse Analytics, Azure Databricks, хранилище Azure Data Lake, архитектуру Delta Lake, Azure Stream Analytics
  • Понимать возможности бессерверных пулов SQL Azure Synapse
  • Выполнять запросы данных в озере с использованием бессерверных пулов SQL Azure Synapse
  • Создавать объекты метаданных в бессерверных пулах SQL Azure Synapse
  • Защищать данные и управлять пользователями в бессерверных пулах SQL Azure Synapse
  • Осуществлять чтение и запись данных в Azure Databricks
  • Работать с DataFrames в Azure Databricks
  • Работать с расширенными методами DataFrames в Azure Databricks
  • Описывать инжиниринг больших данных с помощью Apache Spark в Azure Synapse Analytics
  • Получать данные с помощью Apache Spark в Azure Synapse Analytics
  • Преобразовывать данные с помощью DataFrames в пулах Apache Spark в Azure Synapse Analytics
  • Интегрировать пулы SQL и Apache Spark в Azure Synapse Analytics
  • Принимать петабайты данных с помощью Azure Data Factory
  • Осуществлять интеграцию данных с помощью Azure Data Factory
  • Осуществлять безкодовое преобразование в масштабе с помощью Azure Data Factory
  • Осуществлять оркестрацию перемещения и преобразования данных в Azure Synapse Pipelines
  • Обеспечивать защиту хранилища данных в Azure Synapse Analytics
  • Настраивать ключи в Azure Key Vault и управлять ими
  • Реализовывать контроль соответствия для конфиденциальных данных
  • Разрабатывать гибридную транзакционную и аналитическую обработку с использованием Azure Synapse Analytics
  • Настраивать Azure Synapse Link с помощью Azure Cosmos DB
  • Писать запрос к Azure Cosmos DB с помощью Apache Spark для Azure Synapse Analytics
  • Писать запрос к Azure Cosmos DB с помощью безсерверного SQL пула для Azure Synapse Analytics
  • Обеспечивать надежный обмен сообщениями для приложений Big Data с использованием Azure Event Hubs
  • Работать с потоками данных с использованием Azure Stream Analytics
  • Обрабатывать потоковые данные с помощью Azure Databricks
Сертификационные экзамены
Курс помогает подготовиться к следующим сертификационным экзаменам:
  • DP-203: Implementing an Azure Data Solution
Необходимая подготовка
Для эффективного обучения слушатели должны обладать следующими знаниями и навыками:
  • Знание основ Azure;
  • Знание облачных вычислений;
  • Практический опыт работы с большими данными.
Материалы слушателя
Слушателям предоставляется фирменное учебное пособие и прочие материалы, необходимые для обучения.
Содержание курса
Модуль 1: Исследование вариантов вычислений и хранения для рабочих нагрузок инжиниринга данных
В этом модуле дается обзор вариантов технологий вычислений и хранения в Azure, а также способов структурирования Data Lake (озера данных) и оптимизации файлов для исследования, потоковой передачи и пакетных нагрузок.
Темы
  • Знакомство с Azure Synapse Analytics
  • Описание Azure Databricks
  • Знакомство с хранилищем Azure Data Lake
  • Описание архитектуры Delta Lake
  • Работа с потоками данных с использованием Azure Stream Analytics
Лабораторная работа: Исследование вариантов вычислений и хранения для рабочих нагрузок инжиниринга данных
  • Объединение потоковой и пакетной обработки в одном конвейере
  • Упорядочение озера данных в уровни преобразования файлов
  • Индексирование хранилища озера данных для ускорения запросов и загрузки
Модуль 2: Выполнение интерактивных запросов с использованием бессерверных пулов SQL Azure Synapse Analytics
В этом модуле описана работа с файлами, хранящимися в озере данных и внешних источниках данных с помощью инструкций T-SQL, осуществляемых бессерверным пулом SQL в Azure Synapse Analytics.
Темы
  • Исследование возможностей бессерверных пулов SQL Azure Synapse
  • Запрос данных в озере с использованием бессерверных пулов SQL Azure Synapse
  • Создание объектов метаданных в бессерверных пулах SQL Azure Synapse
  • Защита данных и управление пользователями в бессерверных пулах SQL Azure Synapse
Лабораторная работа: Выполнение интерактивных запросов с использованием бессерверных пулов SQL Azure Synapse Analytics
  • Выполнение запроса данных Parquet с помощью бессерверных пулов SQL
  • Создание внешних таблиц для файлов Parquet и CSV
  • Создание представлений с помощью бессерверных пулов SQL
  • Защита доступа к данным в озере данных во время использования бессерверных пулов SQL
  • Настройка безопасности озера данных с использованием контроля доступа на основе ролей (RBAC) и списка контроля доступа (Access Control List)
Модуль 3: Исследование и преобразование данных в Azure Databricks
В этом модуле рассказывается, как использовать различные методы Apache Spark DataFrame для исследования и преобразования данных в Azure Databricks.
Темы
  • Обзор Azure Databricks
  • Чтение и запись данных в Azure Databricks
  • Работа с DataFrames в Azure Databricks
  • Работа с расширенными методами DataFrames в Azure Databricks
Лабораторная работа: Исследование и преобразование данных в Azure Databricks
  • Использование DataFrames в Azure Databricks для исследования и фильтрации данных
  • Кэширование DataFrame для более быстрого выполнения последующих запросов
  • Удаление дублирующихся данных
  • Работа со значениями дат/времени
  • Удаление и переименование столбцов DataFrame
  • Агрегирование данных, хранящихся в DataFrame
Модуль 4: Исследование, преобразование и загрузка данных в хранилище данных с использованием Apache Spark
В этом модуле рассказывается, как исследовать данные, хранимые в озере данных, как преобразовывать и загружать данные в реляционное хранилище данных. Слушатели будут использовать Apache Spark для загрузки данных в хранилище данных и соединения данных Parquet в озере данных с данными в выделенном пуле SQL.
Темы
  • Понимание инжиниринга больших данных с помощью Apache Spark в Azure Synapse Analytics
  • Получение данных с помощью Spark в Azure Synapse Analytics
  • Преобразование данных с помощью DataFrames в пулах Apache Spark в Azure Synapse Analytics
  • Интеграция пулов SQL и Apache Spark в Azure Synapse Analytics
Лабораторная работа: Исследование, преобразование и загрузка данных в хранилище данных с использованием Apache Spark
  • Исследование данных в Synapse Studio
  • Получение данных с помощью Spark в Azure Synapse Analytics
  • Преобразование данных с помощью DataFrames в пулах Spark в Azure Synapse Analytics
  • Интеграция пулов SQL и Spark в Azure Synapse Analytics
Модуль 5: Получение и загрузка данных в хранилище данных
В этом модуле рассказывается, как получать данные в хранилище данных с помощью скриптов T-SQL и конвейеров интеграции Synapse Analytics.
Темы
  • Использование лучших практик загрузки данных в Azure Synapse Analytics
  • Прием петабайтов данных с помощью Azure Data Factory
Лабораторная работа: Получение и загрузка данных в хранилище данных
  • Получение петабайтов данных с помощью Azure Synapse Pipelines
  • Импорт данных с помощью PolyBase и COPY с использованием T-SQL
  • Использование лучших практик загрузки данных в Azure Synapse Analytics
Модуль 6: Преобразование данных с помощью Azure Data Factory или Azure Synapse Pipelines
Этот модуль посвящен проектированию конвейеров интеграции данных.
Темы
  • Интеграция данных с помощью Azure Data Factory или Azure Synapse Pipelines
  • Безкодовое преобразование и масштабирование с помощью Azure Data Factory или Azure Synapse Pipelines
Лабораторная работа: Преобразование данных с помощью Azure Data Factory или Azure Synapse Pipelines
  • Выполнение безкодовых преобразований и масштабирования с помощью Azure Synapse Pipelines
  • Создание конвейера данных для импорта файлов CSV с неправильным форматом
  • Создание потоков сопоставления данных
Модуль 7: Управление перемещением и преобразованием данных в Azure Synapse Pipelines
Этот модуль описывает создание связанных служб и управление перемещением и преобразованием данных с использованием Azure Synapse Pipelines.
Темы
  • Оркестрация перемещения и преобразования данных в Azure Data Factory
Лабораторная работа: Управление перемещением и преобразованием данных в Azure Synapse Pipelines
  • Осуществлять оркестрацию перемещения и преобразования данных в Azure Synapse Pipelines
Модуль 8: Комплексное обеспечение безопасности с помощью Azure Synapse Analytics
В этом модуле описано, как защитить рабочую область Synapse Analytics и ее поддерживающую инфраструктуру. Слушатели рассмотрят SQL Active Directory Admin, а также обеспечат безопасность на уровне столбцов и на уровне строк и динамическое сокрытие данных во время использования выделенных пулов SQL.
Темы
  • Защита хранилища данных в Azure Synapse Analytics
  • Настройка ключей в Azure Key Vault и управление ими
  • Реализация контроля соответствия для конфиденциальных данных
Лабораторная работа: Комплексное обеспечение безопасности с помощью Azure Synapse Analytics
  • Защита поддерживающей инфраструктуры Azure Synapse Analytics
  • Защита рабочей области Azure Synapse Analytics и управляемых служб
  • Защита данных рабочей области Azure Synapse Analytics
Модуль 9: Поддержка Hybrid Transactional Analytical Processing (HTAP) с помощью Azure Synapse Link
В этом модуле рассматривается, как Azure Synapse Link обеспечивает подключение учетной записи Azure Cosmos DB к рабочей области Synapse.
Темы
  • Разработка гибридной транзакционной и аналитической обработки с использованием Azure Synapse Analytics
  • Настройка Azure Synapse Link с помощью Azure Cosmos DB
  • Запрос к Azure Cosmos DB с помощью пулов Apache Spark
  • Запрос к Azure Cosmos DB с помощью бессерверных пулов SQL
Лабораторная работа: Поддержка Hybrid Transactional Analytical Processing (HTAP) с помощью Azure Synapse Link
  • Настройка Azure Synapse Link с помощью Azure Cosmos DB
  • Запрос к Azure Cosmos DB с помощью Apache Spark для Synapse Analytics
  • Запрос к Azure Cosmos DB с помощью бессерверного пула SQL для Azure Synapse Analytics
Модуль 10: Потоковая обработка в реальном времени с помощью Stream Analytics
В этом модуле слушатели узнают, как обрабатывать потоковые данные с помощью Azure Stream Analytics.
Темы
  • Обеспечение надежного обмена сообщениями для приложений Big Data с использованием Azure Event Hubs
  • Работа с потоками данных с использованием Azure Stream Analytics
  • Получение потоков данных с использованием Azure Stream Analytics
Лабораторная работа: Потоковая обработка в реальном времени с помощью Stream Analytics
  • Использование Stream Analytics для обработки данных от Event Hubs в режиме реального времени
  • Использование оконных функций Stream Analytics для построения агрегатов и вывода в Synapse Analytics
  • Масштабирование задания Azure Stream Analytics для увеличения пропускной способности с помощью секционирования
  • Повторное разбиение входных данных потока для оптимизации распараллеливания
Модуль 11: Создание решения для потоковой обработки с помощью Event Hubs и Azure Databricks
В этом модуле слушатели узнают, как получать и обрабатывать потоковые данные с помощью Event Hubs и Spark Structured Streaming в Azure Databricks.
Темы
  • Обработка потоковых данных с помощью структурированной потоковой передачи Azure Databricks
Лабораторная работа: Создание решения для потоковой обработки с помощью Event Hubs и Azure Databricks
  • Изучение основных функций и вариантов использования структурированной потоковой передачи
  • Потоковая передача данных из файла и их запись в распределенную файловую систему
  • Использование скользящих окон для агрегирования блоков данных, а не всех данных
  • Применение водяных знаков для удаления устаревших данных
  • Подключение к потокам чтения и записи Event Hubs

Курс DP-203 необходим для программ сертификации
› MC
Azure Data Engineer Associate
Сертификационные экзамены
№ DP-203
Implementing an Azure Data Solution

Документ об окончании:
Международный сертификат Microsoft
Международный сертификат Microsoft

# По всем вопросам подготовки специалистов обращайтесь к менеджерам учебного центра
Калининой Лиле, Карповой Елене, Смирновой Светлане, Богдановой Ирине, Литвиновой Елене тел.  8 (812) 718-6184 (многоканальный).

# По вопросам заказа тестов в центре тестирования Pearson VUE просьба обращаться к администратору центра тестирования
Ольге Золиной тел. 8 (812) 326-78-30.