Основы Hadoop

Этот тренинг дает представление об основах Apache Hadoop и методах разработки приложений, обрабатывающих данные, на его основе. Участники познакомятся с HDFS — стандартом де факто для долговременного надежного хранения больших объемов данных, фреймворком MapReduce, автоматически управляющим параллельным выполнением приложений на кластере, и сопутствующими проектами, составляющими экосистему Hadoop.

Цели:

Понимать ключевые концепции и архитектуру Hadoop.

Уметь записывать и читать данные в/из HDFS.

Разрабатывать программы для классического MapReduce и для YARN.

Работать с данными в HDFS из MapReduce-программ.

Получить представление об экосистеме, сложившейся вокруг Hadoop и ее ключевых компонентах.

Разбираемые темы:

Основные концепции Hadoop;

Установка и конфигурирование: локально и в облаке;

HDFS: Архитектура, репликация, чтение и запись данных;

Команды HDFS;

Структура классической MapReduce-программы;

Форматы данных для MapReduce;

Архитектура YARN;

Выполнение работ в классическом MapReduce и в YARN;

Распределенный кеш и счетчики;

Hadoop Streaming;

Экосистема и вендоры Hadoop;

Введение в Pig;

Введение в Hive;

Введение в Sqoop;

Введение в Flume;

Введение в Spark;

Введение в Mahout.

Смотрите также