Мы в Твиттере
Мы в Контакте
Поиск

Курс Microsoft 20773

 

Анализ Больших Данных с помощью Microsoft R

Analyzing Big Data with Microsoft R
Продолжительность курса: 3 дня - 24 часа
Общая учебная нагрузка, включая консультации и самостоятельные занятия: 72 часа
Группа формируется по мере поступления заявок.
Стоимость обучения: 25000 руб.
Курс вышел 26 мая 2017
Цель курса – предоставить слушателям знания и навыки, необходимые для создания и запуска сценариев анализа больших данных на сервере Microsoft R. Также в курсе описано как работать с Microsoft R в средах обработки больших данных как Hadoop, кластер Spark или база SQL Server
Аудитория
Этот курс предназначен для специалистов, анализирующих огромные наборы данных, а также разработчиков, использующих R в своих проектах.
По окончании курса слушатели смогут:
  • Описать работу Microsoft R;
  • Использовать клиента R и Server R для обработки больших данных из разных хранилищ
  • Визуализировать данные с помощью графиков и схем
  • Преобразовывать и зачищать наборы больших данных
  • Использовать способы разделения аналитических задач на параллельные задачи
  • Построить и оценить регрессионные модели, генерируемые на основе больших данных
  • Создать, оценить и разворачивать партиционированных моделей на основе больших данных
  • Использовать язык R в средах SQL Server и Hadoop
Сертификационные экзамены
Сертификационные экзамены не предусмотрены.
Необходимая подготовка
Для эффективного обучения на курсе, слушатели должны обладать следующими знаниями и навыками:
  • Опыт программирования на R и знакомство с основными пакетами
  • Знание общих статистических методов и рекомендованных методов анализа данных.
  • Базовые знания операционной системы Windows и ее основных возможностей.
Материалы слушателя
Слушателям предоставляется фирменное учебное пособие и прочие материалы, необходимые для обучения.
Содержание курса
Модуль 1: Сервер и клиент Microsoft R
Этот модуль рассказывает, как работают сервер и клиент Microsoft R.
Темы
  • Обзор сервера Microsoft R
  • Использование клиента Microsoft R
  • Функции ScaleR
Лабораторная работа: Обзор сервера и клиента Microsoft R
  • Использование клиента R в VSTR и RStudio
  • Обзор функций ScaleR
  • Подключение к удалённому серверу
Модуль 2: Обзор больших данных
Этот модуль описывает, как предоставлять доступ клиентам к большим данным из разных хранилищ с помощью сервера Microsoft R.
Темы
  • Источники данных ScaleR
  • Чтение данных в XDF-объекте
  • Обобщение данных в XDF-объекте
Лабораторная работа: Обзор больших данных
  • Чтение локального CSV-файла и передача данных в XDF-файл
  • Преобразование данных на входе
  • Чтение данных из SQL Server и передача в XDF-файл
  • Подведение итогов в XDF-файле
Модуль 3:Визуализация больших данных
Этот модуль описывает, как визуализировать большие данные, используя диаграммы и графики.
Темы
  • Визуализация данных в памяти
  • Визуализации больших данных
Лабораторная работа: Визуализация данных
  • Использование ggplot для создания многогранной диаграммы с наложением
  • Использование rxlinePlot и rxHistogram
Модуль 4: Обработка больших данных
Этот модуль описывает, как преобразовывать и вычищать наборы больших данных.
Темы
  • Преобразование больших данных
  • Управление наборами данных
Лабораторная работа: Обработка больших данных
  • Преобразование больших данных
  • Сортировка и слияние больших данных
  • Подключение к удаленному серверу
Модуль 5: Распараллеливание операций анализа
Этот модуль описывает, как разбивать задачу анализа набора данных на параллельно выполняемые подзадачи.
Темы
  • Использование вычислительного контекста RxLocalParallel с функцией rxExec
  • Использование пакета revoPemaR
Лабораторная работа: Использование rxExec и revoPemaR для распараллеливания операций
  • Использование rxExec для оптимизации использования ресурсов
  • Создание и применение класса PEMA
Модуль 6: Создание и оценка регрессионной модели
Этот модуль объясняет, как создавать и оценивать регрессионные модели на базе больших данных.
Темы
  • Кластеризации больших данных
  • Создание регрессионных моделей и подготовка прогнозов
Лабораторная работа: Создание линейной регрессионной модели
  • Создание кластера
  • Создание регрессионной модели
  • Генерация данных для составления прогнозов
  • Использование модели для составления прогнозов и сравнение результатов
Модуль 7: Создание и оценка партиционированных моделей (Partitioning Model)
В этом модуле описывается, как создавать и обсчитывать партиционированные модели.
Темы
  • Создание партиционированных моделей на основе дерева решений.
  • Тестирование прогнозов партиционированных моделей
Лабораторная работа: Создание и оценка партиционированных моделей
  • Разбиение набора данных
  • Построение моделей
  • Подготовка прогноза и тестирование результатов
  • Сравнение результатов
Модуль 8: Обработка больших данных в SQL Server и Hadoop
Этот модуль описывает, как преобразовывать и зачищать наборы больших данных в SQL Server и Hadoop
Темы
  • Использование R в SQL Server
  • Использование Map/Reduce в Hadoop
  • Использование Hadoop Spark
Лабораторная работа: Обработка больших данных в SQL Server и Hadoop
  • Создание модели и прогнозирования результатов в SQL Server
  • Анализ и вывод результата с помощью Map/Reduce в Hadoop
  • Интеграция скрипта sparklyr в рабочий процесс ScaleR

Курс необходим для программ сертификации
› MCSE
Data Management and Analytics
› MCSA
Machine Learning
Сертификационные экзамены
№ 70-773
Analyzing Big Data with Microsoft R

Документ об окончании:
Международный сертификат Microsoft
Международный сертификат Microsoft

# По всем вопросам подготовки специалистов обращайтесь к менеджерам учебного центра
Калининой Лиле, Карповой Елене, Смирновой Светлане, Богдановой Ирине, Литвиновой Елене тел. 8 (812) 718-6184 (многоканальный).

# По вопросам заказа тестов в центре тестирования Pearson VUE просьба обращаться к администратору центра тестирования
Марии Смирновой тел. 8 (812) 326-78-30.