Чернобровов АлексейАналитик

FEDOT: перспективный AutoML-фреймворк от ИТМО

Что такое AutoML и почему все от него в восторге

Согласно статистике Google.Trends и анализу публикаций по AutoML, интерес DS-сообщества к теме растет с 2017 года. Автоматизация всех этапов машинного обучения от подготовки данных до интерпретации полученных результатов моделирования экономит время профессионалов в ML, а также помогает не специалистам пользоваться этим инструментом анализа данных. Суть всех AutoML-фреймворков сводится к объединению типовых ML-операций в настраиваемый конвейер, который работает самостоятельно. Сегодня наиболее известными AutoML-средствами являются Google Cloud AutoMLAuto KerasRECIPETransmogrifAIAuto-WEKAH2O AutoMLAmazon SageMaker , Microsoft Azure ML, TPOT, AutoGluon, MLJAR, EvalMLLale и. О некоторых из них я писал здесь. А сегодня расскажу про FEDOT – open-source фреймворк от Национального центра когнитивных исследований Университета ИТМО. Первая открытая версия этого инструмента выложена на Github в январе этого года, а последняя в конце мая 2021 https://github.com/nccr-itmo/FEDOT.

 

FEDOT – отечественный AutoML-фреймворк

FEDOT может автоматически создавать пользовательские конвейеры моделирования для различных реальных процессов, используя эволюционный подход для решения задач бинарной и многоклассовой классификации, регрессии, кластеризации и прогнозирования временных рядов.

Главной фишкой фреймворка разработчики называют возможность комплексно управлять взаимодействием между различными блоками ML-конвейеров. FEDOT позволяет не просто выбрать лучший тип ML-модели, но и объединить несколько алгоритмов разной сложности, чтобы повысить качество результатов. При этом платформа не ограничивается отдельными задачами AutoML типа предобработки данных или оптимизация гиперпараметров, а решает общую проблему структурного обучения, строя DAG-граф для заданного датасета. Узлами такого графа являются ML-модели, процедуры предварительной обработки и преобразования данных.

Как и многие AutoML-инструменты, FEDOT реализован на Python и доступен под открытой лицензией BSD-3. Однако, от других Подобных фреймворков его отличают следующие преимущества:

  • универсальность – благодаря гибкой архитектуре, FEDOT можно использовать для автоматизации разных задач машинного обучения в различных областях бизнеса, от кредитного скоринга до прогнозирования временных рядов вырабатываемой электроэнергии;
  • встроенная поддержка популярных ML-библиотек (scikit-learn, keras, statsmodels и пр.);
  • расширяемость - интеграция с другими инструментами и расширение типовых возможностей с помощью высокоуровневого API. А предлагаемый набор шаблонных моделей и методов настройки их гиперпараметров можно дополнить собственными алгоритмами;
  • удобство использования - FEDOT позволяет в любой момент времени остановить работающий алгоритм и получить результат, а итоговые конвейеры можно экспортировать в JSON-файлы, чтобы воспроизвести эксперимент в другой среде.

Таким образом, по сравнению с другими AutoML-фреймворками, FEDOT не ограничен одним классом DS-задач, а позволяет строить ML-модели для анализа данных разной природы в различных областях бизнеса. А некоторые возможности его практического применения отлично показаны в статье про победу команды ИТМО в хакатоне Emergency DataHack и конкурсе от Норникеля https://news.itmo.ru/ru/university_live/achievements/news/10409/.

Рекомендую познакомиться с этим молодым, но вполне конкурентоспособным продуктом от наших ребят поближе, прочитав их публикации на русском и английском языках:

Контакты