Что такое AutoML и почему все от него в восторге
Согласно статистике Google.Trends и анализу публикаций по AutoML, интерес DS-сообщества к теме растет с 2017 года. Автоматизация всех этапов машинного обучения от подготовки данных до интерпретации полученных результатов моделирования экономит время профессионалов в ML, а также помогает не специалистам пользоваться этим инструментом анализа данных. Суть всех AutoML-фреймворков сводится к объединению типовых ML-операций в настраиваемый конвейер, который работает самостоятельно. Сегодня наиболее известными AutoML-средствами являются Google Cloud AutoML, Auto Keras, RECIPE, TransmogrifAI, Auto-WEKA, H2O AutoML, Amazon SageMaker , Microsoft Azure ML, TPOT, AutoGluon, MLJAR, EvalML, Lale и. О некоторых из них я писал здесь. А сегодня расскажу про FEDOT – open-source фреймворк от Национального центра когнитивных исследований Университета ИТМО. Первая открытая версия этого инструмента выложена на Github в январе этого года, а последняя в конце мая 2021 https://github.com/nccr-itmo/FEDOT.
FEDOT – отечественный AutoML-фреймворк
FEDOT может автоматически создавать пользовательские конвейеры моделирования для различных реальных процессов, используя эволюционный подход для решения задач бинарной и многоклассовой классификации, регрессии, кластеризации и прогнозирования временных рядов.
Главной фишкой фреймворка разработчики называют возможность комплексно управлять взаимодействием между различными блоками ML-конвейеров. FEDOT позволяет не просто выбрать лучший тип ML-модели, но и объединить несколько алгоритмов разной сложности, чтобы повысить качество результатов. При этом платформа не ограничивается отдельными задачами AutoML типа предобработки данных или оптимизация гиперпараметров, а решает общую проблему структурного обучения, строя DAG-граф для заданного датасета. Узлами такого графа являются ML-модели, процедуры предварительной обработки и преобразования данных.
Как и многие AutoML-инструменты, FEDOT реализован на Python и доступен под открытой лицензией BSD-3. Однако, от других Подобных фреймворков его отличают следующие преимущества:
- универсальность – благодаря гибкой архитектуре, FEDOT можно использовать для автоматизации разных задач машинного обучения в различных областях бизнеса, от кредитного скоринга до прогнозирования временных рядов вырабатываемой электроэнергии;
- встроенная поддержка популярных ML-библиотек (scikit-learn, keras, statsmodels и пр.);
- расширяемость - интеграция с другими инструментами и расширение типовых возможностей с помощью высокоуровневого API. А предлагаемый набор шаблонных моделей и методов настройки их гиперпараметров можно дополнить собственными алгоритмами;
- удобство использования - FEDOT позволяет в любой момент времени остановить работающий алгоритм и получить результат, а итоговые конвейеры можно экспортировать в JSON-файлы, чтобы воспроизвести эксперимент в другой среде.
Таким образом, по сравнению с другими AutoML-фреймворками, FEDOT не ограничен одним классом DS-задач, а позволяет строить ML-модели для анализа данных разной природы в различных областях бизнеса. А некоторые возможности его практического применения отлично показаны в статье про победу команды ИТМО в хакатоне Emergency DataHack и конкурсе от Норникеля https://news.itmo.ru/ru/university_live/achievements/news/10409/.
Рекомендую познакомиться с этим молодым, но вполне конкурентоспособным продуктом от наших ребят поближе, прочитав их публикации на русском и английском языках:
- https://habr.com/ru/company/spbifmo/blog/558450/
- https://actcognitive.org/platformy/freymvork-generativnogo-avtomaticheskogo-mashinnogo-obucheniya-fedot
- https://youtu.be/RjbuV6i6de4
- https://arxiv.org/abs/2106.15397
- https://github.com/nccr-itmo/FEDOT
- https://itmo-nss-team.github.io/FEDOT.Docs/
- https://t.me/FEDOT_helpdesk
- https://towardsdatascience.com/automl-for-time-series-advanced-approaches-with-fedot-framework-4f9d8ea3382c
- https://towardsdatascience.com/automl-for-time-series-definitely-a-good-idea-c51d39b2b3f
- https://towardsdatascience.com/how-automl-helps-to-create-composite-ai-f09e05287563