Вы когда-нибудь слышали выражение «подготовка и очистка данных»? Это, пожалуй, самая важная часть всего процесса машинного обучения. Данные из реального мира зачастую «грязные» - они могут содержать ошибки, пропуски, дубликаты и выбросы, что приводит к искажениям, проблемам и сбоям в работе моделей. Именно поэтому крайне важно, чтобы данные были очищены и готовы к анализу.
Говоря просто, подготовка и очистка данных - это реализация принципа «что на входе, то и на выходе». Выявление и исправление ошибок, удаление повреждённых и дублирующихся записей, заполнение пропущенных значений, обработка выбросов - всё это входит в обязательный этап подготовки. Это может быть трудоёмко, но именно качественные данные определяют успех проекта. Даже самые продвинутые алгоритмы машинного обучения не смогут обучиться на неструктурированных или «грязных» данных.
Чтобы вы чувствовали уверенность в своих ML-проектах, в этом мини-курсе мы охватим всё, что необходимо знать по теме подготовки данных.
Начнём с чек-листа из 8 ключевых шагов, которые нужно помнить при запуске любого проекта
Разберём теорию: пропущенные значения, выбросы, отбор признаков и др.
Перейдём к практике - для каждого блока вы выполните задания в Python, работая с реальными данными
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Я помог более 1000 студентам изменить свою карьеру и перейти в перспективные и высокооплачиваемые роли в области Data Science и аналитики. У меня более 15 лет опыта работы в сфере Data Science в таких компаниях, как Amazon и PlayStation. Я разрабатывал и прототипировал функции на основе машинного обучения для PlayStation 5, многие из которых были запатентованы Sony. В отличие от многих преподавателей, я провёл сотни интервью и технических собесед