Добро пожаловать в раздел «Машинное обучение: Обработка естественного языка в Python» (V2). НЛП: Используйте марковские модели, NLTK, искусственный интеллект, глубокое обучение, машинное обучение и науку о данных в Python.
Это обширный курс 4-в-1, включающий:
1) Векторные модели и методы предварительной обработки текста
2) Вероятностные и марковские модели
3) Методы машинного обучения
4) Методы глубокого обучения и нейронных сетей
В части 1, посвященной векторным моделям и методам предварительной обработки текста, вы узнаете, почему векторы так важны в науке о данных и искусственном интеллекте. Вы узнаете о различных методах преобразования текста в векторы, таких как CountVectorizer и TF-IDF, и изучите основы методов встраивания нейронов, таких как word2vec и GloVe.
Затем вы примените полученные знания для выполнения различных задач, таких как:
- Классификация текстов
- Поиск документов / поисковая система
- Обобщение текста
Попутно вы также изучите важные этапы предварительной обработки текста, такие как токенизация, выделение корней и лемматизация.
Вы кратко познакомитесь с классическими задачами НЛП, такими как тегирование частей речи.
Во второй части, посвященной вероятностным и марковским моделям, вы узнаете об одной из самых важных моделей во всей науке о данных и машинном обучении за последние 100 лет. Он применялся во многих областях помимо НЛП, таких как финансы, биоинформатика и обучение с подкреплением.
В этом курсе вы увидите, как такие вероятностные модели можно использовать различными способами, например:
- Создание текстового классификатора
- Cпиннинг
- Генерация текста (генерация стихов)
Важно отметить, что эти методы являются необходимой предпосылкой для понимания того, как работают новейшие модели Transformer (внимание), такие как BERT и GPT-3. В частности, мы узнаем о двух важных задачах, которые соответствуют целям предварительной подготовки для BERT и GPT.
В части 3, посвященной методам машинного обучения, вы узнаете больше о классических задачах НЛП, таких как:
- Обнаружение спама
- Анализ настроений
- Скрытый семантический анализ (также известный как скрытое семантическое индексирование)
- Тематическое моделирование
Этот раздел будет ориентирован на приложения, а не на теорию, а это означает, что вместо того, чтобы тратить большую часть наших усилий на изучение деталей различных алгоритмов машинного обучения, вы сосредоточитесь на том, как их можно применить к вышеуказанным задачам.
Конечно, вам все равно нужно кое-что узнать об этих алгоритмах, чтобы понять, что происходит. Будут использоваться следующие алгоритмы:
- Наивный Байес
- Логистическая регрессия
- Анализ основных компонентов (PCA) / Разложение по сингулярным значениям (SVD)
- Скрытое распределение Дирихле (LDA)
Это не просто «любые» алгоритмы машинного обучения / искусственного интеллекта, а скорее те, которые были основными в НЛП и, таким образом, являются неотъемлемой частью любого курса НЛП.
В части 4, посвященной методам глубокого обучения, вы узнаете о современных архитектурах нейронных сетей, которые можно применять для решения задач НЛП. Благодаря своей огромной мощности и гибкости нейронные сети можно использовать для решения любой из вышеперечисленных задач в курсе.
Вы узнаете о:
- Искусственных нейронных сетях с прямой связью (ИНС)
- Вложениях
- Сверточных нейронных сетях (CNN)
- Рекуррентных нейронных сетях (RNN)
Изучение RNN будет включать современные архитектуры, такие как LSTM и GRU, которые широко используются Google, Amazon, Apple, Facebook и т. д. для сложных задач, таких как языковой перевод, распознавание речи и преобразование текста в речь.
Очевидно, что поскольку новейшие Трансформеры (такие как BERT и GPT-3) являются примерами глубоких нейронных сетей, эта часть курса является необходимой предпосылкой для понимания Трансформеров.