Курс Big Data

Старт обучения

Дату уточните у администрации

36 час. по 2-3 раза в неделю

Описание курса

В результате прохождения курса студенты овладеют современными методами и алгоритмами теории интеллектуального анализа больших данных и машинного обучения. Цель курса — формирование реальных навыков в анализе, обработке, поиске шаблонов и построении прогнозов на основе данных.

После курса вы сможете:

Анализировать и обрабатывать большие и сверхбольшие данные в различных форматах с целью поддержки принятия решений
Находить шаблоны в больших и сверхбольших базах данных и массивах текста
Строить прогнозы с использованием современных методов и алгоритмов интеллектуального анализа данных
Использовать программное обеспечение для интеллектуального анализа данных в практической работе.

Программа курса:

1. Общие сведения о интеллектуальный анализ данных (ИАД) и машинное обучение

Общие сведения о крупных данных и интеллектуальный анализ данных.
Задачи ИАД. Обзор методов ИАД и машинного обучения
Процесс ИАД. Подготовка данных.
Практическое применение ИАД.

2. Методы и алгоритмы классификации

Методы построения деревьев решений. Методика «разделяй и властвуй».
Алгоритм покрытия. Алгоритм CART.
Байесовские методы классификации.
Построение математических функций классификации. Метод опорных векторов: линейный и нелинейный случаи.
Системы с нечеткой логикой. Нечетко-нейронные системы. Настройка нечетко-нейронных систем.
Решение практических задач классификации.

3. Методы и алгоритмы кластеризации

Иерархическая кластеризация: агломеративный и дивизимный алгоритмы. Методы соседства. Понятие дендрограммы.
Статистические методы k-средних, ЭМ и их модификации.
Методы кластеризации на основе теории графов. Алгоритмы нахождения минимального покрывающего дерева. Алгоритм Борувки.
Алгоритм Форел и его модификации.
Метод самоорганизующихся карт Кохонена. Метод стохастического градиента. Интерпретация карт.
Анализ результатов кластеризации. Решение практических задач.

4. Методы и алгоритмы построения ассоциативных правил. Секвенциальный анализ

Общие сведения. Показатели полезности ассоциативных правил.
Алгоритмы Apriori и FP-роста. Понятие FP-дерева (префиксного дерева).
Шаблоны последовательностей. Алгоритм AprioriAll.
Поиск ассоциативных правил в иерархиях данных. Алгоритм GSP.
Решение практических задач поиска ассоциативных правил и шаблонов последовательностей.

5. Ансамбли моделей ИАД

Виды ансамблей. Понятие бэггинга. Смесь моделей ИАД.
Комбинирование результатов прогнозов, полученных моделями ИАД.
Методы расчета коэффициентов относительной важности (весов) моделей в ансамбле.
Понятие бустинга. Алгоритм AdaBoost. Обоснование бустинга. Градиентный бустинг.
Сравнение моделей ИАД. Оценки эффективности и ошибок моделей. Lift- и Profit-кривые. ROC-анализ.

6. Методы и алгоритмы анализа текстовой информации (text mining)

Этапы text mining. Предварительная обработка документов. Выявление ключевых понятий. Аннотирование текстов.
Методы категоризации (рубрикации) текстов.
Методы поиска релевантных документов на основе множества запросов. Методы обучения ранжированию.
Решение практических задач text mining.

Минимальные требования:

Очень желательно (но не обязательно) владение знаниями теории вероятностей: дискретная и непрерывная случайная величина, математическое ожидание, дисперсия, условное математическое ожидание;
Владение на начальном уровне языком программирования Python.

Лекторы:

* Примечание: указанные скидки не суммируются с другими действующими акциями и специальными предложениями. Скидка применяется только к новым заявкам и при условии полной оплаты. Если у Вас возникли вопросы, обращайтесь за консультацией к нашим менеджерам!

Рекомендуемые курсы