Курс Big Data
Описание курса
В результате прохождения курса студенты овладеют современными методами и алгоритмами теории интеллектуального анализа больших данных и машинного обучения. Цель курса — формирование реальных навыков в анализе, обработке, поиске шаблонов и построении прогнозов на основе данных.
После курса вы сможете:
- Анализировать и обрабатывать большие и сверхбольшие данные в различных форматах с целью поддержки принятия решений
- Находить шаблоны в больших и сверхбольших базах данных и массивах текста
- Строить прогнозы с использованием современных методов и алгоритмов интеллектуального анализа данных
- Использовать программное обеспечение для интеллектуального анализа данных в практической работе.
Программа курса:
1. Общие сведения о интеллектуальный анализ данных (ИАД) и машинное обучение
- Общие сведения о крупных данных и интеллектуальный анализ данных.
- Задачи ИАД. Обзор методов ИАД и машинного обучения
- Процесс ИАД. Подготовка данных.
- Практическое применение ИАД.
2. Методы и алгоритмы классификации
- Методы построения деревьев решений. Методика «разделяй и властвуй».
- Алгоритм покрытия. Алгоритм CART.
- Байесовские методы классификации.
- Построение математических функций классификации. Метод опорных векторов: линейный и нелинейный случаи.
- Системы с нечеткой логикой. Нечетко-нейронные системы. Настройка нечетко-нейронных систем.
- Решение практических задач классификации.
3. Методы и алгоритмы кластеризации
- Иерархическая кластеризация: агломеративный и дивизимный алгоритмы. Методы соседства. Понятие дендрограммы.
- Статистические методы k-средних, ЭМ и их модификации.
- Методы кластеризации на основе теории графов. Алгоритмы нахождения минимального покрывающего дерева. Алгоритм Борувки.
- Алгоритм Форел и его модификации.
- Метод самоорганизующихся карт Кохонена. Метод стохастического градиента. Интерпретация карт.
- Анализ результатов кластеризации. Решение практических задач.
4. Методы и алгоритмы построения ассоциативных правил. Секвенциальный анализ
- Общие сведения. Показатели полезности ассоциативных правил.
- Алгоритмы Apriori и FP-роста. Понятие FP-дерева (префиксного дерева).
- Шаблоны последовательностей. Алгоритм AprioriAll.
- Поиск ассоциативных правил в иерархиях данных. Алгоритм GSP.
- Решение практических задач поиска ассоциативных правил и шаблонов последовательностей.
5. Ансамбли моделей ИАД
- Виды ансамблей. Понятие бэггинга. Смесь моделей ИАД.
- Комбинирование результатов прогнозов, полученных моделями ИАД.
- Методы расчета коэффициентов относительной важности (весов) моделей в ансамбле.
- Понятие бустинга. Алгоритм AdaBoost. Обоснование бустинга. Градиентный бустинг.
- Сравнение моделей ИАД. Оценки эффективности и ошибок моделей. Lift- и Profit-кривые. ROC-анализ.
6. Методы и алгоритмы анализа текстовой информации (text mining)
- Этапы text mining. Предварительная обработка документов. Выявление ключевых понятий. Аннотирование текстов.
- Методы категоризации (рубрикации) текстов.
- Методы поиска релевантных документов на основе множества запросов. Методы обучения ранжированию.
- Решение практических задач text mining.
Минимальные требования:
- Очень желательно (но не обязательно) владение знаниями теории вероятностей: дискретная и непрерывная случайная величина, математическое ожидание, дисперсия, условное математическое ожидание;
- Владение на начальном уровне языком программирования Python.
Лекторы:
* Примечание: указанные скидки не суммируются с другими действующими акциями и специальными предложениями. Скидка применяется только к новым заявкам и при условии полной оплаты. Если у Вас возникли вопросы, обращайтесь за консультацией к нашим менеджерам!
Длительность курса: 21 ч.