Big Data - это не просто модное слово, а реальное явление. Каждый день компании по всему миру собирают и обрабатывают огромные объёмы данных на высокой скорости. Эти данные часто неструктурированы и несогласованы, что делает их обработку с помощью традиционных методов практически невозможной.
Одной из платформ, зарекомендовавших себя для работы с большими данными, является Apache Hadoop. Это фреймворк с открытым исходным кодом на Java, позволяющий обрабатывать и хранить большие объёмы данных в кластерах, используя простые программные модели. Hadoop - это гибкая, быстрая и доступная архитектура, способная обнаруживать и обрабатывать сбои на уровне приложений.
Что вы изучите
В этом курсе под руководством Суйога Нагаокара вы получите всестороннее понимание архитектуры Hadoop и её компонентов:
HDFS
YARN
MapReduce
Hive
Sqoop
Курс включает теоретическую базу и практические лабораторные занятия. Вы научитесь:
Понимать концепцию экосистемы Hadoop
Использовать основные команды Hadoop
Реализовывать решения на основе каждого компонента Hadoop для решения реальных бизнес-задач
Вы установите и настроите полноценную среду Hadoop с помощью Cloudera Quickstart VM прямо на своём компьютере. На практике вы научитесь:
Сохранять и запрашивать данные с помощью Sqoop, Hive и MySQL
Писать запросы Hive для анализа данных на Hadoop
Работать с кластерами данных с использованием HDFS, MapReduce и YARN
Управлять кластерами с помощью Hue
Требования
ПК с 64-битной версией Windows или Linux и доступом в интернет
Не менее 8 ГБ свободной (не общей) оперативной памяти для выполнения практических заданий (если памяти меньше, вы сможете следить за обучением, но без практики)
Базовые навыки программирования, предпочтительно на Python
Знакомство с командной строкой Linux будет большим плюсом
Курс подойдёт как новичкам, так и тем, кто хочет углубить свои знания в области Big Data и научиться работать с одним из самых популярных фреймворков в индустрии.
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Суйог - инженер данных с более чем 8-летним опытом работы в сфере Data Engineering. Он разрабатывает автоматизированные и оптимизированные решения для бизнеса на базе Hadoop, Spark и стриминговых фреймворков, помогая компаниям получать ценность из данных.Его опыт охватывает телеком и банковскую отрасли, включая проекты по Customer Genomics, аналитику мошенничества, цифровой банкинг и машинное обучение в телекоммуникациях.Суйог также имеет опыт на
Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.
Научитесь строить потоковые пайплайны с Apache Kafka и Flink, создавать data lake'и на AWS, запускать ML-воркфлоу на Spark и интегрировать LLM-модели в продакшн-системы. Этот курс создан, чтобы запустить вашу карьеру и сделать вас востребованным дата-инженером завтрашнего дня.
Analytics Engineering - это фундамент Data Science и искусственного интеллекта. Данный подход представляет собой динамичное сочетание инженерии данных и аналитики, выступая мостом между этими двумя областями. Инженеры по аналитике данных отвечают за значительную часть жизненного цикла данных: от загрузки источников данных и построения дата-складов с соответствующими пайплайнами до интеграции с инструментами бизнес-аналитики.Если вы - аналитик или