Мы в Твиттере
Мы в Контакте
Поиск

Использование Microsoft Machine Learning Server

Использование Microsoft Machine Learning Server для анализа больших данных

В мире науки о данных (data science) язык программирования с открытым исходным кодом R становится все более популярным: R был создан с учетом статистических преобразований, которые позволяют очень быстро перейти от необработанных данных к сводкам, диаграммам и даже полноценным отчетам. Популярность языка программирования R за последние пять лет заметно выросла (по оценкам StackOverflow), немного отставая, разве что, от языка Python.

Однако у R есть один недостаток: он использует много памяти при загрузке данных целиком как объект data.frame, а также создает дополнительные копии (копии при изменении) при обработке данных.

Эта проблема была решена с выходом на рынок Microsoft Machine Learning Server - гибкой корпоративной платформы для анализа больших данных, создания интеллектуальных приложений и обнаружения ценной информации, благодаря полной поддержке Python и R. Machine Learning Server предлагает встроенные библиотеки, инструменты и языки, а также инструменты для создания моделей и их обучения на платформе Azure. Поддержка R в MS Machine Learning Server основана на продуктах Microsoft R Server 9.x и Revolution R Enterprise.

Основным компонентом Microsoft R Server является пакет RevoScaleR - библиотека R, предлагающая набор функций для обработки больших наборов данных без необходимости загружать их все сразу в память. RevoScaleR содержит богатый набор распределенных статистических алгоритмов и алгоритмов машинного обучения, а также предлагает механизм, с помощью которого можно развернуть код, разработанный на клиенте, на удаленном сервере, например SQL Server или Spark.

Облачная аналитика представлена службой Azure Machine Learning service и визуальной средой разработки Azure Machine Learning Studio. Данные инструменты используются для обучения, развертывания, тестирования и управления моделями машинного обучения. Они полностью поддерживают технологии с открытым исходным кодом. Machine Learning Studio публикует модели в виде веб-сервисов, которые могут легко использоваться пользовательскими приложениями или инструментами BI.

Независимо от того, начинаете ли Вы изучать data science или являетесь опытным специалистом по данным, есть несколько причин почему нужно начать использовать R:

  1. R - популярный язык для data science в ведущих технологических фирмах. Например, Google использует его для оценки эффективности рекламы, Facebook - для проведения поведенческого анализа пользовательских данных, Twitter - для визуализации данных. Microsoft, Flickr, Uber - все они заинтересованы в специалистах по данным.
  2. Язык R также используется в аналитических и консалтинговых фирмах, банках и других финансовых учреждениях, университетах и исследовательских лабораториях - везде, где данные нуждаются в анализе и визуализации.
  3. Язык R был разработан специально для обработки данных и анализа. Из-за этого, изучение основных возможностей - манипулирование данными, визуализация данных и машинное обучение - проще в R.
  4. Обширный репозиторий сторонних библиотек. R обладает огромной экосистемой пакетов и других ресурсов, например, пакет dplyr упрощает манипулирование данными, а ggplot2 - визуализирует данные.
  5. Возможность использования R в проектах, написанных на других языках программирования.

Если Вы хотите узнать больше о применении языка R и Python в анализе больших данных, посетите курсы 20773 «Анализ Больших Данных с помощью Microsoft» и 20774 «Облачная аналитика Big Data при помощи машинного обучения в Azure», по окончании которых Вы с успехом сможете:

  • Описать работу Microsoft R;
  • Использовать R Client и R Server для обработки больших данных из разных хранилищ;
  • Визуализировать данные с помощью графиков и диаграмм;
  • Преобразовывать и зачищать наборы больших данных;
  • Использовать способы разделения аналитических задач на параллельные задачи;
  • Строить и производить оценку регрессионных моделей, генерируемых на основе больших данных;
  • Создавать, оценивать и разворачивать партиционированные модели на основе больших данных;
  • Использовать язык R в средах SQL Server и Hadoop;
  • Объяснить принципы работы механизмов машинного обучения;
  • Описать возможности машинного обучения в Azure и перечислить основные функции Azure Machine Learning Studio;
  • Загружать и исследовать различные типы данных для машинного обучения Azure;
  • Использовать методы подготовки наборов данных для использования с машинным обучением Azure;
  • Использовать регрессионные алгоритмы, алгоритмы работы нейронных сетей, алгоритмы классификации и кластеризации в рамках машинного обучения Azure;
  • Использовать преимущества R и Python при работе с машинным обучением Azure
  • Использовать гипер-параметры, множество алгоритмов и моделей для решения аналитических задач;
  • Предоставить пользователям доступ к результатам работы моделей машинного обучения Azure
  • Использовать подключения к службам Cognitive Services API для обработки текста и изображений, создания рекомендаций и описание использования нейронных сетей в рамках машинного обучения Azure
  • Использовать HDInsight в рамках машинного обучения Azure
  • Использовать R Server в рамках машинного обучения Azure
  • Объяснить, как развернуть и настроить SQL Server для поддержки служб R.

 

Оба этих курса также готовят к сдаче экзаменов 70-773: Analyzing Big Data with Microsoft R и 70-774 Perform Cloud Data Science with Azure Machine Learning, успешно сдав которые можно получить сертификацию MCSA Machine Learning. Эта сертификация предназначена для кандидатов, которые активно разрабатывают классические решения для машинного обучения на платформе Microsoft. В настоящее время сертификация доступна только в R.

 

Подготовила Дарья Чемкаева

# По всем вопросам подготовки специалистов обращайтесь к менеджерам учебного центра
Калининой Лиле, Карповой Елене, Смирновой Светлане, Богдановой Ирине, Литвиновой Елене тел.  8 (812) 718-6184 (многоканальный).

# По вопросам заказа тестов в центре тестирования Pearson VUE просьба обращаться к администратору центра тестирования
Марии Смирновой тел. 8 (812) 326-78-30.