40+ самых интересных статей по Data Science за 2021 год

Уследить за всеми новинками в мире Data Science невозможно, поэтому я постарался собрать более-менее объективный перечень top статей этого года, которые выиграли какие-то награды или представили особенно интересные и перспективные репозитории на известных датасетах.

Репозитории, побившие известные бенчмарки

Rebooting ACGAN: Auxiliary Classifier GANs with Stable Training. 1 место в рейтинге CIFAR-10 для условной генерации изображений.

Почему обучение ACGAN становится нестабильным по мере роста количества классов в наборе данных? Во всем виноват градиентный взрыв из-за неограниченного размера входных векторов признаков и плохих возможностей классификации на ранней стадии обучения. Как избежать кросс-энтропию данных и создать GAN-сеть с перезагрузкой вспомогательного классификатора, чтобы уменьшить нестабильность и усилить модель ReACGAN. Тесты на устойчивость к выбору гиперпараметров, совместимость с различными архитектурами и дифференцируемыми дополнениями.

https://arxiv.org/pdf/2111.01118v1.pdf

https://github.com/POSTECH-CVLab/PyTorch-StudioGAN

Dense Unsupervised Learning for Video Segmentation. 1 место в рейтинге DAVIS 2017 по неконтролируемой сегментации видео-объектов

Простая и вычислительно быстрая неконтролируемая стратегия обучения плотным представлениям пространства-времени из немаркированных видеофильмов. Подход показывает быструю сходимость обучения и эффективности с высокой точностью.

https://arxiv.org/pdf/2111.06265v1.pdf

https://github.com/visinf/dense-ulearn-vos

Temporally-Consistent Surface Reconstruction using Metrically-Consistent Atlases. 1 место на ANIM в категории «Реконструкция поверхности»

Реконструкция поверхностей на базе неконтролируемых временных согласованных атласов, с переводом точек на каноническом представлении формы в метрически согласованные трехмерные местоположения на реконструированных поверхностях. Метод позволяет стимулировать развитие трехмерной реконструкции на основе видео, заменив расстояние фаски потерями на основе изображения.

https://arxiv.org/pdf/2111.06838v1.pdf

https://github.com/bednarikjan/temporally_coherent_surface_reconstruction

EdgeFlow: Achieving Practical Interactive Segmentation with Edge-Guided Flow. 1 место по интерактивной сегментации на PASCAL VOC

Новая архитектура EdgeFlow, которая использует данные взаимодействия с пользователем, не прибегая к постобработке или итеративной оптимизации. Высокая производительность в стандартных тестах благодаря своей грубой и точной конструкции сети + эффективный интерактивный инструмент сегментации, который позволяет пользователю постепенно улучшать результат сегментации с помощью гибких опций.

https://arxiv.org/pdf/2109.09406v2.pdf

https://github.com/PaddlePaddle/PaddleSeg

Learning Transferable Visual Models From Natural Language Supervision. 1 место по классификации Zero-Shot Transfer Image Classification на сайте SUN

Как перенести успех независимого от задач предварительного обучения в веб-масштабе по обработке естественного языка в область компьютерного зрения? Модели CLIP учатся выполнять ряд задач во время предварительного обучения, чтобы оптимизировать цель обучения. Используя подсказки на естественном языке, CLIP может затем использовать эту задачу обучения, чтобы обеспечить передачу без выстрела во многие существующие наборы данных. При широкомасштабном применении этот метод может конкурировать с контролируемыми моделями для конкретных задач и имеет много возможностей для улучшения.

https://arxiv.org/pdf/2103.00020v1.pdf

https://github.com/openai/CLIP

CoAtNet: Marrying Convolution and Attention for All Data Sizes. 1 место по классификации изображений в ImageNet с использованием дополнительных данных обучения

Тщательное изучение свойств сверток и трансформаторов, чтобы объединить их в новое семейство моделей под названием CoAtNet. CoAtNet сочетает преимущества ConvNets и Transformers, обеспечивая высочайшую производительность для различных размеров данных и вычислительных бюджетов. Подход актуален также для обнаружения объектов и семантической сегментации.

https://arxiv.org/pdf/2106.04803v2.pdf

https://github.com/xmu-xiaoma666/External-Attention-pytorch/blob/master/model/attention/CoAtNet.py

SwinIR: Image Restoration Using Swin Transformer. 1 место по сверхразрешению изображения в Manga109 - 4-кратное масштабирование

Модель восстановления изображений SwinIR на базе Swin Transformer из трех модулей: извлечение мелких элементов, извлечение глубоких элементов и реконструкция с распознаванием человека. Для глубокого извлечения признаков используется стек остаточных блоков Swin Transformer (RSTB), каждый из которых состоит из слоев Swin Transformer, сверточного слоя и остаточного соединения.

https://arxiv.org/pdf/2108.10257v1.pdf

https://github.com/jingyunliang/swinir

Официальные победители NeurIPS 2021

A Universal Law of Robustness via Isoperimetry Sébastien Bubeck and Mark Sellke.

Теоретическая модель объясняет, почему многие современные DL-сети требуют гораздо большего количества параметров, чем необходимо для плавного соответствия обучающим данным. В частности, при определенных условиях регулярности обучающего распределения количество параметров, необходимых для O (1) функции Липшица для интерполяции обучающих данных ниже уровня шума метки, масштабируется как nd, где n - количество обучающих примеров, а d - размерность данных. Этот результат резко контрастирует с обычными результатами, где для функции требуется n параметров для интерполяции обучающих данных, и этот дополнительный коэффициент d для плавной интерполяции. Теория согласуется с эмпирическими наблюдениями о размере моделей, которые имеют надежное обобщение по классификации MNIST. Эта работа также предлагает проверяемый прогноз размеров моделей, необходимых для разработки надежных моделей для классификации ImageNet.

https://openreview.net/forum?id=z71OSKqTFh7

On the Expressivity of Markov Reward David Abel, Will Dabney, Anna Harutyunyan, Mark K. Ho, Michael Littman, Doina Precup, and Satinder Singh

Марковские функции вознаграждения являются доминирующей структурой для последовательного принятия решений в условиях неопределенности и обучения с подкреплением. Но иногда марковские вознаграждения недостаточны, чтобы позволить разработчику системы определить задачу с точки зрения их предпочтений относительно определенного поведения. Есть некоторые задачи, для которых нельзя указать марковскую функцию вознаграждения. Но можно за полиномиальное время решить, существует ли совместимое марковское вознаграждение для желаемой настройки, и применить соответствующий алгоритм в условиях конечного процесса принятия решений.

https://openreview.net/forum?id=9DlCh34E1bN

Deep Reinforcement Learning at the Edge of the Statistical Precipice Rishabh Agarwal, Max Schwarzer, Pablo Samuel Castro, Aaron Courville, and Marc G. Bellemare

Практические подходы к повышению строгости сравнения алгоритмов глубокого обучения с подкреплением: оценка новых алгоритмов должна обеспечивать стратифицированные доверительные интервалы начальной загрузки, профили производительности по задачам и запускам, а также межквартильные средние значения. Стандартные подходы к представлению результатов в глубоком RL для многих задач и нескольких прогонов не позволяют оценить, представляет ли новый алгоритм последовательный и значительный прогресс по сравнению с предыдущими методами.

https://openreview.net/forum?id=uqv8-U4lKBe

MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers Krishna Pillutla, Swabha Swayamdipta, Rowan Zellers, John Thickstun, Sean Welleck, Yejin Choi, and Zaid Harchaoui

MAUVE – мера расхождения для сравнения распределения текста, созданного моделью, с распределением текста, созданного человеком. Используется непрерывное семейство (мягких) мер KL-расходимости квантованных вложений двух сравниваемых текстов. MAUVE по сути представляет собой интеграцию непрерывного семейства мер и направлена на улавливание как ошибки типа I (генерирование нереалистичного текста), так и ошибки типа II (не улавливает весь возможный человеческий текст). Эксперименты показали, что MAUVE идентифицирует известные шаблоны текста, созданного моделью, и коррелирует с человеческими суждениями.

https://openreview.net/forum?id=Tqx7nJp7PR

Continuized Accelerations of Deterministic and Stochastic Gradient Descents, and of Gossip Algorithms Mathieu Even, Raphaël Berthier, Francis Bach, Nicolas Flammarion, Pierre Gaillard, Hadrien Hendrikx, Laurent Massoulié, and Adrien Taylor

Улучшенная версия метода ускоренного градиента Нестерова, в котором две отдельные векторные переменные развиваются совместно в непрерывном времени - во многом как предыдущие подходы, которые используют дифференциальные уравнения для понимания ускорения - но использует обновления градиента, которые происходят в случайные моменты времени, определяемые точечный процесс Пуассона. Этот новый подход приводит к (рандомизированному) методу дискретного времени, который пользуется той же ускоренной сходимостью, что и метод Нестерова. Также он использует аргументы непрерывного времени, что легче понять, чем предыдущий анализ методов ускоренного градиента и позволяет избежать дополнительных ошибок при дискретизации процесса с непрерывным временем.

https://openreview.net/forum?id=bGfDnD7xo-v

Moser Flow: Divergence-based Generative Modeling on Manifolds Noam Rozen, Aditya Grover, Maximilian Nickel, and Yaron Lipman

Метод обучения генеративных моделей непрерывного нормализующего потока (CNF) над римановыми многообразиями, чтобы усилить результат Мозера. Метод Мозера 1965 года характеризует решение КНФ, которое Мозер назвал сохраняющим ориентацию автоморфизмом на многообразиях, с использованием ограниченного класса ОДУ, удовлетворяющего условиям геометрической регулярности и явно определяемого с использованием дивергенции функции плотности цели. Предлагаемый метод потока Мозера использует эту концепцию решения для разработки подхода CNF, основанного на параметризованном оценщике целевой плотности, который может быть нейронной сетью. Обучение сводится к простой оптимизации расхождения оценщика плотности, что является побочным действием при запуске решателя ODE, нужного для стандартного обучения обратному распространению. Эксперименты показали быстрое время обучения и превосходную производительность теста по сравнению с предыдущими исследованиями CNF, а также возможность моделирования плотности на неявных поверхностях с непостоянной кривизной, таких как модель Стэнфордского кролика.

https://openreview.net/forum?id=qGvMv3undNJ

Победители нового трека Datasets & Benchmarks

Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research Bernard Koch, Emily Denton, Alex Hanna, and Jacob Gates Foster.

Подробный анализ тысячи статей и исследование эволюции использования наборов данных в различных ML-сообществах, а также взаимодействие между принятием и созданием наборов данных. В большинстве сообществ со временем происходит эволюция в сторону использования меньшего количества различных наборов данных, и что эти наборы данных поступают от нескольких организаций. Эта эволюция проблематична, поскольку эталонные тесты становятся менее универсальными, а предубеждения из источников данных могут усиливаться. В итоге исследовательскому сообществу становится труднее принимать новые датасеты. Стоит критически подумать о том, какие наборы данных используются для сравнительного анализа, и сделать шаг к созданию новых и более разнообразных датасетов.

https://openreview.net/forum?id=zNQBIBKJRkd

ATOM3D: Tasks on Molecules in Three Dimensions Raphael John Lamarre Townshend, Martin Vögele, Patricia Adriana Suriana, Alexander Derry, Alexander Powers, Yianni Laloudakis, Sidhika Balachandar, Bowen Jing, Brandon M. Anderson, Stephan Eismann, Risi Kondor, Russ Altman, and Ron O. Dror

В статье представлены наборы эталонных данных с трехмерным представлением малых молекул и/или биополимеров для решения широкого круга задач, от прогнозирования одиночной молекулярной структуры и взаимодействия между биомолекулами до молекулярных функциональных и инженерных задач. Простые надежные реализации трехмерных моделей сравниваются с одномерными и двумерными моделями и показывают лучшую производительность. Работа дает понимание того, как выбирать и проектировать модели, предоставляет наборы данных для сравнительного анализа и базовые ML-решения с открытым исходным кодом для их практического использования в области вычислительной биологии и молекулярного дизайна.

https://openreview.net/forum?id=FkDZLpK1Ml2

Лауреаты премии и самые интересные статьи с ежегодной конференции NeurIPS 2021

A 3D Generative Model for Structure-Based Drug Design Shitong Luo, Jiaqi Guan, Jianzhu Ma, and Jian Peng

Идея моделирования замаскированного языка (искажение последовательности путем маскировки некоторых элементов и попытки ее восстановления) полезна и для создания молекул: маскирования отдельных атомов и «реконструкции» того, как они должны быть заполнены. Выполняя этот процесс итеративно, например, с помощью авторегрессии, можно построить генеративную модель для вывода молекул. В отличие от других статей, подход говорит, что образование молекул обусловлено определенными особенностями связывания белков, что дает механизм для поиска молекул-кандидатов, которые могут действовать как таргетированное лекарство.

Для этого требуется создать кодировщик, инвариантный к жестким преобразованиям (перемещению и вращению), т.к. молекулы не заботятся о том, как они ориентированы.

https://papers.nips.cc/paper/2021/hash/314450613369e0ee72d0da7f6fee773c-Abstract.html

https://github.com/luost26/3D-Generative-SBDD

The Emergence of Objectness: Learning Zero-shot Segmentation from Videos Runtao Liu, Zhirong Wu, Stella Yu, and Stephen Lin

Понятие объектности часто называют одним из важных человеческих приоритетов, которые позволяют нам видеть что-то и рассуждать об этом. Людям не нужно знать, что это за объект, чтобы знать, что это объект. А при обучении нейросети для сегментации изображений под наблюдением модель будет учиться только сегментировать объекты, видимые во время обучения. В этой статье предлагается использовать видеоданные и хитрые приемы для создания подхода к обучению с самоконтролем, который использует то, как объекты и передний план имеют тенденцию вести себя по-разному в записях. Это напоминает DINO от Facebook, который обнаружил, как после самостоятельного обучения с изображениями матрицы внимания Трансформеров напоминали своего рода прото-сегментацию. Комбинацию потери восстановления одного кадра (сеть сегментации) и сеть движения, которая пытается вывести карту характеристик того, как пиксели перемещаются в изображении позволяет, предсказывать будущий кадр с учетом реконструкции и контролируемые карты движения.

Multimodal Few-Shot Learning with Frozen Language Models Maria Tsimpoukelli, Jacob Menick, Serkan Cabi, S. M. Ali Eslami, Oriol Vinyals, Felix Hill

Идея проста: обучить языковую модель, зафиксировать параметры, а затем обучить кодировщик изображений кодировать изображение в подсказку для этой языковой модели и выполнения конкретной задачи.

https://papers.nips.cc/paper/2021/hash/01b7575c38dac42f3cfb7d500438b875-Abstract.html

https://fh295.github.io/frozen.html

Efficient Training of Retrieval Models using Negative Cache Erik Lindgren, Sashank Reddi, Ruiqi Guo, and Sanjiv Kumar

Модель плотного поиска нацелена на кодирование переходов и запросов в векторы для выполнения поиска ближайшего соседа для поиска соответствующих совпадений. Для обучения часто используется контрастная потеря, когда сходство положительных пар максимизировано, а сходство отрицательных пар минимизировано. В идеале можно использовать всю коллекцию документов в качестве «отрицательных образцов», но это слишком дорого, поэтому вместо этого часто используются методы отрицательной выборки. Однако, при этом качество окончательной модели сильно зависит от количества отрицательных выборок и требует больших вычислительных затрат. Поэтому отрицательные образцы тщательно смешиваются с «жесткими отрицаниями» из асинхронно обновляемого индекса для повышения производительности модели при разумных вычислительных затратах. Проблему решает кэширование вложений документов, когда они рассчитываются, и их постепенное обновление вместо полного прямого прохода в кодировщике для всех отрицательных выборок.

https://papers.nips.cc/paper/2021/hash/2175f8c5cd9604f6b1e576b252d4c86e-Abstract.html

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text Hassan Akbari, Liangzhe Yuan, Rui Qian, Wei-Hong Chuang, Shih-Fu Chang, Yin Cui, and Boqing Gong

Мультимодальность – перспективная, но еще недостаточно изученная область для изучения моделей больших трансформеров. Работа направлена на построение представлений для видео, аудио и текста посредством самоконтролируемого обучения данных в этих модальностях вместе с вариантами контрастных потерь, чтобы три модальности использовали одно и то же пространство встраивания. Для этого они используют шумоконтрастную оценку (NCE) и используют совпадающие тройки аудио/видеокадров/текста в качестве положительных пар и несовпадающие тройки (например, несоответствующие сегменты видео) в качестве отрицательных выборок.

В отличие от предыдущего метода (Мультимодальные универсальные сети с самоконтролем), подход основан на чистой архитектуре Transformer и достигает SOTA в кинетике основных видеобенчмарков, избегая контролируемого предварительного обучения только с самоконтролем.

https://papers.nips.cc/paper/2021/hash/cb3213ada48302953cb0f166464ab356-Abstract.html

Robust Predictable Control Ben Eysenbach, Russ R. Salakhutdinov and Sergey Levine

Хотя наблюдения за окружающей средой часто многомерны, например, миллионы пикселей из изображений, количество битов информации, необходимых агенту для принятия решений, обычно невелико. Подход Robust Predictable Control (RPC), общий к изучению политик, использует несколько битов информации: чем более предсказуемо состояние модели, тем легче сжать политику. Это становится фактором регуляризации, позволяющим агентам учиться «играть осторожно» большую часть времени, например, система самоуправления будет стремиться избегать ситуаций с высокой степенью неопределенности.

https://papers.nips.cc/paper/2021/hash/e9f85782949743dcc42079e629332b5f-Abstract.html

https://ben-eysenbach.github.io/rpc/

FLEX: Unifying Evaluation for Few-Shot NLP Jonathan Bragg, Arman Cohan, Kyle Lo, and Iz Beltagy

С тех пор, как в мае 2020 года появился GPT-3, для новых больших языковых моделей стало стандартом тестировать себя в нулевом выстреле. Этот тест, разработанный Институтом ИИ Аллена, направлен на стандартизацию паттернов из NLP по принципам разнообразия типов передачи, переменному количеству кадров и классов, несбалансированные наборы тренировок, текстовые метки, отсутствие дополнительных данных мета-тестирования, принципиальный дизайн размера выборки и надлежащая отчетность о доверительных интервалах, стандартных отклонениях и индивидуальных результатах.

https://papers.nips.cc/paper/2021/hash/8493eeaccb772c0878f99d60a0bd2bb3-Abstract.html

https://github.com/allenai/flex

Partition and Code: learning how to compress graphs Georgios Bouritsas, Andreas Loukas, Nikolaos Karalias, and Michael Bronstein

При разработке алгоритма сжатия графов необходимо учитывать их изоморфизмы: графы не имеют внутреннего упорядочения вершин, в отличие от последовательностей данных или массивов. Поэтому представление оптимально сжатого кодового слова графа должно быть инвариантным по отношению к таким изоморфизмам. Теоретически оптимальный кодировщик полагается на знание вероятности возможной каждой возможной конфигурации данных и присвоение кода, масштаб которого пропорционален логарифму такой вероятности. Например, более вероятные графы становятся более сжатыми в более короткие коды и наоборот. Вычислить такую вероятность сложно из-за комбинаторного взрыва средних и больших графов. Также нужно учитывать размер этой самой модели: чем она сложнее, тем лучше может сжимать данные, но требует больше ресурсов.

Проблему решит разбиение графов на общие подграфы, для которых ведетется словарь кодовых слов, длина которых пропорциональна логарифму вероятности каждого подграфа. Этот метод полностью дифференцируем, поэтому его можно оптимизировать с помощью градиентного спуска для любого заданного набора данных графов.

https://papers.nips.cc/paper/2021/hash/9a4d6e8685bd057e4f68930bd7c8ecc0-Abstract.html

Learning to Draw: Emergent Communication through Sketching Daniela Mihai and Jonathon Hare

Две модели учатся взаимодействовать по изображениям через рисование: одна создает картинку, а другая должна выбрать, что изображено. Регуляризация стимулирует интерпретируемость: добавление «потери восприятия» на ранней стадии модели кодировщика улучшает приближение исходного изображения и рисунка друг к другу. Это похоже на то, как нейроны человеческого мозга активируются у людей на заданную картинку.

https://papers.nips.cc/paper/2021/hash/39d0a8908fbe6c18039ea8227f827023-Abstract.html

https://github.com/Ddaniela13/LearningToDraw

Fixes That Fail: Self-Defeating Improvements in Machine-Learning Systems

Ruihan Wu, Chuan Guo, Awni Hannun and Laurens van der Maaten

Авторы изучают и формализуют важную проблему: как и почему система, состоящая из различных ML-подсистем, может стать хуже при улучшении отдельных частей. Интересный вывод: можно снизить производительность системы ИИ, улучшая каждую из ее частей, что нужно учесть при построении ML-конвейера.

https://papers.nips.cc/paper/2021/hash/619427579e7b067421f6aa89d4a8990c-Abstract.html

ТОП-5 статей с конференции ICML 2021

Unbiased Gradient Estimation In Unrolled Computation Graphs With Persistent Evolution Paul Vicol, Luke Metz, Jascha Sohl-Dickstein

Новый метод объективной оценки градиента в графах необработанных вычислений, называемый постоянными стратегиями эволюции (PES, Persistent Evolution Strategies). PES получает градиенты из усеченных разверток, что ускоряет оптимизацию за счет частого обновления параметров, не страдая от систематической ошибки усечения, которая влияет на многие конкурирующие подходы. Исследователи показали, что PES широко применим для RNN-подобных задач, оптимизации гиперпараметров, обучения с подкреплением и мета-обучения обученных оптимизаторов.

http://proceedings.mlr.press/v139/vicol21a/vicol21a.pdf

Optimal complexity in decentralised training Yucheng Lu, Christopher De Sa

Децентрализация как перспективный метод масштабирования систем параллельного машинного обучения. Исследователи установили точную нижнюю границу сложности итераций для таких методов в стохастической невыпуклой среде. Эта граница выявила теоретический пробел в известной скорости сходимости многих существующих децентрализованных алгоритмов обучения, таких как D-PSGD. Исследователи доказали, что нижняя граница точна и достижима, а также предложили DeTAG, практический децентрализованный алгоритм в стиле сплетен, который достигает нижней границы только с логарифмическим пробелом. Эмпирически сравнив DeTaG с другими децентрализованными алгоритмами в задачах классификации изображений, авторы отметили, что DeTAG имеет более быструю сходимость, чем базовые уровни, особенно в не перетасованных данных и разреженных сетях.

https://arxiv.org/pdf/2006.08085.pdf

Oops I took a gradient: Scalable sampling for discrete distributions Will Grathwohl, Kevin Swersky, Milad Hashemi, David Duvenaud, Chris J. Maddison

Общая масштабируемая стратегия приближенной выборки для вероятностных моделей с дискретными переменными. Подход использует градиенты функции правдоподобия относительно ее дискретных входных данных, чтобы предлагать обновления в семплере MetropolisHastings. Исследователи эмпирически показали, что этот подход превосходит стандартные семплеры во многих сложных условиях, включая модели Изинга, модели Поттса, ограниченные машины Больцмана и факторные скрытые марковские модели. Они также продемонстрировали использование своего улучшенного сэмплера для обучения глубоких энергетических моделей (EBM) на дискретных данных большой размерности. Кроме того, этот подход превосходит вариационные автокодировщики и существующие EBM.

https://arxiv.org/pdf/2102.04509.pdf

Understanding self-supervised learning dynamics without contrastive pairs Yuandong Tian, Xinlei Chen, Surya Ganguli

В статье рассмотрены различные методы самоконтролируемого обучения (SSL) и предложен новый теоретический подход DirectPred, который напрямую устанавливает линейный предиктор на основе статистики его входных данных без градиентного обучения. В наборе данных ImageNet он работал сравнимо с более сложными двухуровневыми нелинейными предикторами, которые используют BatchNorm, и превзошел линейный предиктор на 2,5 процента в 300-периодном обучении (и на 5 процентов в 60-периодном). Исследователи заявили, что DirectPred мотивирован их теоретическим исследованием нелинейной динамики обучения неконтрастного SSL в простых линейных сетях. Исследование показало концептуальное понимание того, как обучаются неконтрастные методы SSL, как они избегают коллапса представлений и как в игру вступают многочисленные факторы, такие как сети предикторов, стоп-градиенты, экспоненциальные скользящие средние и уменьшение веса. Эта простая теория резюмирует результаты реальных исследований абляции в STL-10 и ImageNet.

https://arxiv.org/pdf/2102.06810.pdf

https://github.com/facebookresearch/luckmatters/tree/master/ssl

Solving high-dimensional parabolic PDEs using the tensor train format Lorenz Richter, Leon Sallandt, Nikolas Nüsken

Как тензорное обучение обеспечивает привлекательную аппроксимационную структуру для параболических уравнений в частных производных: комбинация переформулировок в терминах обратных стохастических дифференциальных уравнений и методов регрессионного типа в тензорном формате обещает использование скрытых низкоранговых структур с сжатием и эффективными вычислениями. Исследователи разработали новые итерационные схемы, включающие либо явные и быстрые, либо неявные и точные обновления. Их методы достигают выгодного компромисса между точностью и вычислительной эффективностью по сравнению с подходами на основе нейронных сетей SOTA.

https://arxiv.org/pdf/2102.11830.pdf

Лучшие доклады с RecSys 2021

An Audit of Misinformation Filter Bubbles on YouTube: Bubble Bursting and Recent Behavior Changesс Matus Tomlein, Branislav Pecher, Jakub Simko, Ivan Srba, Robert Moro, Elena Stefancova, Michal Kompan, Andrea Hrckova, Juraj Podrouzek, and Maria Bielikova

Негативные эффекты пузырей фильтров дезинформации в адаптивных системах, когда пользователь может сделать неправильный выбор – бич современных рекомендательных систем. В исследовании, где предварительно запрограммированные агенты в роли пользователей YouTube проникают в пузыри фильтров дезинформации, показывается, как разоблачить дезинформацию. Наблюдая за разоблачающим содержанием, агенты пытаются «лопнуть пузыри» и достичь более сбалансированных наборов рекомендаций.

https://dl.acm.org/doi/10.1145/3460231.3474241

Pessimistic Reward Models for Off-Policy Learning in Recommendation
Olivier Jeunen, Bart Goethals

Методы бандитского обучения на основе взаимодействия с пользователем часто требуют модели вознаграждения, которое дает определенная пара контекст-действие - например, вероятность клика по рекомендации. Эта общая задача машинного обучения нетривиальна, поскольку процесс генерации данных для контекстов и действий часто искажается самой системой рекомендаций. Когда развернутая политика рекомендаций во время сбора данных не выбирает свои действия равномерно и случайным образом, это приводит к смещению выбора, что может препятствовать эффективному моделированию вознаграждения. Это, в свою очередь, делает обучение вне политики особенно сложным. Авторы исследования предлагают общий подход к моделированию пессимистического вознаграждения за обучение вне политики для рекомендательных систем. Байесовские оценки неопределенности позволяют выразить скептицизм по поводу модели вознаграждения, которая может быть использована для создания консервативного правила принятия решений, смягчая «проклятие оптимизатора». Используя доступные выражения в закрытой форме как для апостериорного среднего, так и для дисперсии, когда гребневой регрессор моделирует вознаграждение, авторы показали, как эффективно и действенно применять пессимизм к варианту использования рекомендаций вне политики. Эмпирические наблюдения доказали, что консервативность в принятии решений приводит к значительному и надежному повышению эффективности рекомендаций. Достоинства подхода наиболее очевидны в реалистичных настройках с ограниченной рандомизацией журналов, ограниченными обучающими выборками и большими пространствами действий.

https://dl.acm.org/doi/10.1145/3460231.3474247

Connecting Students with Research Advisors Through User-Controlled Recommendation
Behnam Rahdari, Peter Brusilovsky, Alireza Javadian Sabet

Grapevine – советник, управляемый пользователем, позволяет студентам и аспирантам найти подходящего научного руководителя. Система сочетает идеи из областей исследовательского поиска, пользовательского моделирования и рекомендательных систем, используя самые современные методы извлечения знаний, рекомендации на основе винограда и интеллектуальный пользовательский интерфейс.

https://dl.acm.org/doi/10.1145/3460231.3478879

Особо интересные статьи, отмеченные ODSC как лучшие

Learning to Optimize: A Primer and A Benchmark Tianlong Chen, Xiaohan Chen, Wuyang Chen, Zhangyang Wang

Обучение оптимизации (L2O) - новый подход, который использует машинное обучение для разработки методов оптимизации, направленных на сокращение трудоемких итераций ручной инженерии. Он автоматизирует разработку метода оптимизации на основе его эффективности на наборе обучающих задач. Эта управляемая данными процедура генерирует методы, которые могут эффективно решать задачи, аналогичные тем, которые используются при обучении. В отличие от них, типичные и традиционные методы оптимизации основаны на теории, поэтому они обеспечивают гарантии производительности по классам задач, определенных теорией. Разница делает L2O подходящим для многократного решения определенного типа задач оптимизации по определенному распределению данных, в то время как обычно он не работает с проблемами вне распределения. Практичность L2O зависит от типа целевой оптимизации, выбранной архитектуры метода обучения и процедуры обучения.

https://github.com/VITA-Group/Open-L2O

https://arxiv.org/pdf/2103.12828v1.pdf

Fairness without Imputation: A Decision Tree Approach for Fair Prediction with Missing Values Haewon Jeong, Hao Wang, Flavio P. Calmon

Проблемы справедливости обучения модели машинного обучения с использованием данных с пропущенными значениями. На практике в реальном датасете часто есть пропуски, а шаблоны работы с ними могут зависеть от атрибутов группы, например, пол или раса. Простое применение готовых алгоритмов справедливого обучения к вмененному набору данных может привести к несправедливой модели. В статье теоретически анализируются различные источники риска дискриминации при обучении с использованием вмененного набора данных. Предлагается интегрированный подход, основанный на деревьях решений, который не требует отдельного процесса вменения и обучения. Вместо этого дерево обучается с отсутствующим включенным атрибутом, что не требует явного вменения, а целевая функция, регулируемая по справедливости, оптимизируется. Этот подход превосходит существующие методы вмешательства в справедливость, применяемые к вмененному набору данных, благодаря нескольким экспериментам с реальными наборами данных.

https://arxiv.org/pdf/2109.10431v1.pdf

Merlion: A Machine Learning Library for Time Series. Aadyot Bhatnagar, Paul Kassianik, Chenghao Liu , Tian Lan, Wenzhuo Yang, Rowan Cassius, Doyen Sahoo, Devansh Arpit, Sri Subramanian, Gerald Woo, Amrita Saha, Arun Kumar Jagota, Gokulakrishnan Gopalakrishnan, Manpreet Singh, K C Krithika, Sukumar Maddineni, Daeki Cho, Bo Zong, Yingbo Zhou, Caiming Xiong, Silvio Savarese, Steven Hoi, Huan Wang

Merlion – ML-библиотека с открытым исходным кодом для временных рядов. Она имеет унифицированный интерфейс для многих часто используемых моделей и наборов данных для обнаружения и прогнозирования аномалий как на одномерном, так и на многомерном временных рядах, а также на стандартных уровнях предварительной/постобработки. В нем есть несколько модулей для повышения простоты использования, включая визуализацию, калибровку оценки аномалий для повышения взаимозависимости, AutoML для настройки гиперпараметров и выбора модели, а также ансамбль моделей. Merlion также предоставляет уникальную платформу оценки, которая имитирует развертывание и повторное обучение модели в производственной среде. Эта библиотека дает инженерам и исследователям универсальное решение для быстрой разработки моделей для временных.

https://github.com/salesforce/Merlion

https://arxiv.org/pdf/2109.09265v1.pdf

Learning with Multiclass AUC: Theory and Algorithms Zhiyong Yang, Qianqian Xu*, Shilong Bao, Xiaochun Cao, Qingming Huang

ROC AUC – популярный показатель ранжирования для несбалансированного обучения и системы рекомендаций. Подавляющее большинство существующих ML-методов, основанных на оптимизации AUC, сосредоточены только на кейсах бинарного класса, оставляя мультиклассовые кейсы нерассмотренными. Эта исследовательская работа изучает проблемы обучения мультиклассовым оценочным функциям посредством оптимизации мультиклассовых показателей AUC на основе метрики M, которая является хорошо известным мультиклассовым расширением AUC. Этот показатель может устранить проблему дисбаланса в парах классов меньшинств, предлагая эмпирическую суррогатную основу минимизации риска для приблизительной оптимизации метрики M. Теоретически показано, что оптимизации большинства популярных дифференцируемых суррогатных потерь достаточно для асимптотического достижения байесовской оптимальной оценочной функции. Также исследователи доказали, что структура обучения имеет границу ошибки обобщения с учетом дисбаланса, которая уделяет больше внимания узким местам классов меньшинств по сравнению с традиционным результатом O (√(1/N)). Чтобы справиться с низкой масштабируемостью вычислительных операций, методы ускорения предлагаются для трех популярных суррогатных функций потерь, включая экспоненциальные потери, квадраты потерь и потери на шарнирах, чтобы ускорить оценку потерь и градиента. Экспериментальные результаты на 11 наборах реальных данных демонстрируют эффективность предлагаемой структуры.

https://arxiv.org/pdf/2107.13171v1.pdf

Лучшее с конференции EMNLP 2021

Datasets: A Community Library for Natural Language Processing Quentin Lhoest, Albert Villanova del Moral, Yacine Jernite, Abhishek Thakur, Patrick von Platen, Suraj Patil, Julien Chaumond, Mariama Drame, Julien Plu, Lewis Tunstall, Joe Davison, Mario Šaško, Gunjan Chhablani, Bhavitvya Malik, Simon Brandeis, Teven Le Scao, Victor Sanh, Canwen Xu, Nicolas Patry, Angelina McMillan-Major, Philipp Schmid, Sylvain Gugger, Clément Delangue, Théo Matussière, Lysandre Debut, Stas Bekman, Pierric Cistac, Thibault Goehringer, Victor Mustar, François Lagunas, Alexander Rush,Thomas Wolf

Масштаб, разнообразие и количество общедоступных наборов данных NLP быстро растут, включая новые задачи, более крупные модели и новые тесты. Здесь представлены датасеты NLP как общественная библиотека для поддержки этой экосистемы. Наборы данных призваны стандартизировать интерфейсы конечного пользователя, управление версиями и документацию, обеспечивая при этом легкий интерфейс, который ведет себя аналогично для небольших наборов данных и для корпусов в масштабе Интернета. Дизайн библиотеки включает распределенный, управляемый сообществом подход к добавлению наборов данных и документированию использования. После года разработки библиотека теперь включает более 650 уникальных наборов данных, насчитывает более 250 участников и помогает поддерживать множество новых исследовательских проектов с перекрестными наборами данных и совместных задач.

https://github.com/huggingface/datasets

https://arxiv.org/abs/2109.02846

Visually Grounded Reasoning across Languages and Cultures Fangyu Liu, Emanuele Bugliarello, Edoardo Maria Ponti, Siva Reddy, Nigel Collier, Desmond Elliott

Часто при разработке широко распространенных наборов данных для предварительно обученных кодировщиков используются концепции и изображения ImageNet. Но этот эталонный тест основан на лексических базах данных и запросах изображений на английском языке. Авторы представили новый протокол для построения иерархии в стиле ImageNet, представляющей большее количество языков и культур. Можно выбирать концепции и изображения на языке носителей: индонезийском, китайском, суахили, тамильском и турецком. Помимо концепций и изображений, полученных с помощью этого нового протокола, создан многоязычный набор данных для {M} ulticultur {a} l {R} изучения {V} ision и {L} anguage (MaRVL) путем получения утверждений от носителей языка аннотаторы о парах изображений. Задача состоит в том, чтобы различить, является ли каждое обоснованное утверждение истинным или ложным. Установлена серия базовых показателей с использованием современных моделей, и показано, что эффективность их перевода значительно отстает от качества контролируемого перевода на английском языке. Поэтому следует переоценить надежность и точность современных моделей за пределами узкой области и работать с действительно многоязычными и мультикультурными системами.

https://arxiv.org/abs/2109.13238

https://marvl-challenge.github.io/

CHoRaL: Collecting Humor Reaction Labels from Millions of Social Media Users
Zixiaofan Yang, Shayan Hooshmand and Julia Hirschberg

Понимание юмора позволяет лучше чувствовать язык и отличает человека от машины. Существенные индивидуальные и культурные различия в восприятии юмора очень затрудняют сбор крупномасштабных юмористических данных с надежными метками. В статье предложен CHoRaL – фреймворк для создания воспринимаемых юмористических меток на сообщениях Facebook, используя естественные реакции пользователей на эти сообщения без необходимости ручного добавления аннотаций. CHoRaL предоставляет как двоичные метки, так и непрерывные оценки юмора и не-юмора. Это самый большой на сегодня размеченный набор данных из 785 тысяч сообщений, связанных с COVID-19. Анализируя проявление юмора, связанного с COVID, в социальных сетях и извлекая лексико-семантические и аффективные характеристики из сообщений, исследователи строят модели обнаружения юмора с характеристиками, аналогичными человеческим. CHoRaL позволяет разрабатывать масштабные модели обнаружения юмора по любой теме и открывает новый путь к изучению юмора в социальных сетях.

https://aclanthology.org/2021.emnlp-main.364.pdf

MindCraft: Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks
Cristian-Paul Bara, Sky CH-Wang and Joyce Chai

Идеальная интеграция автономных агентов в человеческий мир подразумевает, что они могут сотрудничать на человеческих условиях. В частности, теория разума играет важную роль в поддержании точек соприкосновения во время человеческого сотрудничества и общения. Чтобы реализовать теорию моделирования разума в ситуативных взаимодействиях, введен детальный набор данных совместных задач, выполняемых парами людей в мире виртуальных блоков 3D Minecraft. Он предоставляет информацию, которая отражает представления партнеров об окружающем мире и друг о друге по мере развития взаимодействия, предоставляя широкие возможности для изучения человеческого поведения при взаимодействии в условиях локального языкового общения. В качестве первого шага к цели по разработке воплощенных агентов ИИ, способных делать выводы о состояниях убеждений партнеров по сотрудничеству на месте, исследователи получили результаты на вычислительных моделях для нескольких задач теории разума.

https://arxiv.org/abs/2109.06275

SituatedQA: Incorporating Extra-Linguistic Contexts into QA
Michael Zhang and Eunsol Choi

Ответы на один и тот же вопрос могут меняться в зависимости от экстралингвистического контекста. Чтобы изучить эту проблему, авторы разработали LocationQA - набор данных QA с открытым поиском, в котором системы должны давать правильный ответ на вопрос с учетом временного или географического контекста. Сперва были идентифицированы вопросы в существующих наборах данных QA. Обнаружено, что значительная часть вопросов о поиске информации имеет контекстно-зависимые ответы (например, примерно 16,5% от NQ-Open). Для таких зависящих от контекста вопросов собраны альтернативные контексты и соответствующие ответы. Исследование показывало, что существующие модели не могут дать ответы, которые часто обновляются или из необычных мест. Тесты QA с открытым поиском должны включать экстралингвистический контекст, чтобы оставаться актуальными в глобальном масштабе и в будущем.

https://arxiv.org/abs/2109.06157

https://situatedqa.github.io/

When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute
Tao Lei

Обучать большие языковые модели становится труднее из-за увеличения времени и стоимости вычислений. В работе представлен SRU++ - всокоэффективная архитектура, сочетающая быстрое повторение и внимание к моделированию последовательности. SRU++ демонстрирует сильные возможности моделирования и эффективность обучения. При выполнении стандартных задач языкового моделирования, таких как наборы данных Enwik8, Wiki-103 и Billion Word, модель обеспечивает лучшую битрейт на символ и затруднения при использовании в 3-10 раз меньших затрат на обучение по сравнению с высокопроизводительными моделями Transformer. Например, достигнут результат на наборе данных Enwik8 за 1,6 дня обучения на машине с 8 графическими процессорами. SRU++ требует минимального внимания для достижения почти современного уровня производительности. Результаты предполагают совместное использование быстрого повторения с небольшим вниманием в качестве многообещающего направления для ускорения обучения модели и вывода.

https://arxiv.org/abs/2102.12459

Shortcutted Commonsense: Data Spuriousness in Deep Learning of Commonsense Reasoning
Ruben Branco, Antonio Branco, Joao Antonio Rodrigues and Joao Ricardo Silva

Здравый смысл - это квинтэссенция человеческого потенциала, которая была основной проблемой для искусственного интеллекта с момента его создания. Впечатляющие результаты в задачах обработки естественного языка, в том числе на основе здравого смысла, постоянно достигаются с помощью моделей нейронного языка Transformer, которые даже соответствуют или превосходят производительность человека в некоторых тестах. Недавно некоторые из этих достижений были поставлены под сомнение: так называемые артефакты данных в обучающих данных стали очевидными как ложные корреляции и неглубокие сокращения, которые в некоторых случаях используют эти выдающиеся результаты. В статье приведено исследование различных известных эталонных тестов, основанных на здравом смысле, наряду с рядом ключевых стресс-экспериментов. Это позволяет понять, изучают ли модели переносимые обобщения, присущие проблеме, о которой идет речь, или просто используют случайные сокращения в данных. Полученные результаты показывают, что большинство экспериментальных наборов данных проблематично, поскольку модели прибегают к ненадежным функциям и, по-видимому, не обучаются и не обобщают общие задачи, которые должны быть переданы или проиллюстрированы наборами данных.

https://aclanthology.org/2021.emnlp-main.113/

И другие обзоры статей

38 статей от Louis Bouchard (Луи Бушара) автора YouTube канала What's AI https://www.louisbouchard.ai/2021-ai-papers-review/
Top 10 Machine Learning Research Papers of 2021 от Analytics Insight https://www.analyticsinsight.net/top-10-machine-learning-research-papers-of-2021/
3 лучших студенческих статьи с конференции Interspeach https://www.interspeech2021.org/best-student-paper-awards

Источники