РЕЙТИНГ

Бесплатные онлайн курсы Hadoop

Hadoop. Система для обработки больших объемов данных | Stepik

Для кого: студенты, разработчики, новички.
Формат: видеоуроки, тексты, тесты, интерактивные задания.
Длительность: 33 урока, 12,5 часов видео, 219 тестов, (обучение по свободному расписанию).


На курсе освоите распределённую файловую систему HDFS, основы MapReduce, алгоритмы на графах, Pig, Hive, СУБД, базы данных NoSQL, HBase, хранилища, работу со Spark. Также получите навыки планирования и сопровождения озера данных.

Учебный курс по основам Hadoop | Школа Больших Данных

Для кого: новички.
Формат: скринкасты.
Длительность: 9 уроков.


Серия лекций по базовым составляющим экосистемы на дистрибутиве Arenadata hadoop с возможностью получения скриптов для выполнения лабораторных работ.

Обучение Hadoop

Программа обучения Hadoop следующая.

Теоретические знания: основы экосистемы, Big Data.
Понятие больших данных: зачем нужны, проблема обработки.
История развития платформы.
Концепции пайплайнс, Data Lake.
Организация озера данных с применением кластеров, баз данных, платформы потоковой обработки информации.
Архитектура Hadoop.
Компоненты, составляющие платформы, её установка на Linux, настройка.
YARN – сервис для планировки.
Отказоустойчивость, доступность кластера.
Файловая система.
Архитектура, блоки в HDFS.
Чтение/запись, назначения.
Квоты, сжатие.
Форматы файлов: текстовые, конфигурационные.
Импорт данных.
Знакомство с дизайном кластера.
Требования к ПО.
Планирование, масштабирование кластера.
Его интеграция с иными решениями.
Инсталляция кластера.
Развёртывания Hadoop посредством ADCM.
Начальная конфигурация файловой системы, MapReduce.
Логи, файлы конфигурации, их экспорт.
Инсталляция клиентов и кластера в облачной инфраструктуре (Amazon, Microsoft).
Поддержка кластера.
Работа с дисковой подсистемой.
Квоты.
Управление: старт, перезагрузка, остановка.
Управление обновлениями и узлами.
Формирование локального репозитория (хранилища).
Управление кластерами посредством ADCM.
Назначение ADCM.
Средства мониторинга кластера.
Диагностика, решение проблем.
Модель распределённых вычислений MapReduce.
Идея, парадигма MapReduce.
API для взаимодействия с Hadoop.
Паттерны проектирования.
Joint- и прочие реализации в парадигме MapReduce.
YARN: управление очередями задач, ресурсами, Fair, Capacity.
Инструменты экосистемы.
Интерфейс Zeppelin / HUE.
Zookeeper.
SQL: основы Hive.
Планировщики: Capacity и FIFO Scheduler.
Sqoop – инсталляция, базовые операции.

FAQ (Часто задаваемые вопросы)

Сколько получает специалист со знанием Hadoop?

В 2024 году средний доход специалиста колеблется в пределах (в зависимости от опыта):

  • разработчик – 220 - 280 тысяч рублей;
  • системный администратор - 80 - 200 тысяч рублей;
  • системный, Data-аналитик – 150 - 250 тысяч рублей;
  • Data-инженер – 110 - 250+ тысяч рублей.

Hadoop – набор утилит, фреймворков и библиотек для создания распределённых приложений – работающих в сотнях и тысячах кластеров. На нём реализуют контекстные и поисковые механизмы высоконагруженных веб-проектов: сайты, приложения. Файловая система HDFS обладает высокой производительностью, ведь рассчитана на хранение огромных объёмов файлов (десятки терабайт – петабайты), она обеспечивает непревзойдённую скорость доступа к ним. Инструмент применяют для организации хранения, обработки и получения мгновенного доступа к огромным и постоянно растущим объёмам информации, например, корпорация Microsoft. Порой для этого применяют систему SDP Hadoop от Сбера.

Обучение основам Hadoop занимает 3 - 5 полных дней или 2 - 3 месяца, если заниматься по 6 - 8 часов еженедельно.

EDDU.PRO
Logo
EDDU.PRO
Logo
Зарегистрировать новый аккаунт