Основы Hadoop

Этот тренинг дает представление об основах Apache Hadoop и методах разработки приложений, обрабатывающих данные, на его основе. Участники познакомятся с HDFS — стандартом де факто для долговременного надежного хранения больших объемов данных, фреймворком MapReduce, автоматически управляющим параллельным выполнением приложений на кластере, и сопутствующими проектами, составляющими экосистему Hadoop.

Цели:

• Понимать ключевые концепции и архитектуру Hadoop.

• Уметь записывать и читать данные в/из HDFS.

• Разрабатывать программы для классического MapReduce и для YARN.

• Работать с данными в HDFS из MapReduce-программ.

• Получить представление об экосистеме, сложившейся вокруг Hadoop и ее ключевых компонентах.

Разбираемые темы:

• Основные концепции Hadoop;

• Установка и конфигурирование: локально и в облаке;

• HDFS: Архитектура, репликация, чтение и запись данных;

• Команды HDFS;

• Структура классической MapReduce-программы;

• Форматы данных для MapReduce;

• Архитектура YARN;

• Выполнение работ в классическом MapReduce и в YARN;

• Распределенный кеш и счетчики;

• Hadoop Streaming;

• Экосистема и вендоры Hadoop;

• Введение в Pig;

• Введение в Hive;

• Введение в Sqoop;

• Введение в Flume;

• Введение в Spark;

• Введение в Mahout.

Организатор

Смотрите также