Уследить за всеми новинками в мире Data Science невозможно, поэтому я постарался собрать более-менее объективный перечень top статей этого года, которые выиграли какие-то награды или представили особенно интересные и перспективные репозитории на известных датасетах.
Почему обучение ACGAN становится нестабильным по мере роста количества классов в наборе данных? Во всем виноват градиентный взрыв из-за неограниченного размера входных векторов признаков и плохих возможностей классификации на ранней стадии обучения. Как избежать кросс-энтропию данных и создать GAN-сеть с перезагрузкой вспомогательного классификатора, чтобы уменьшить нестабильность и усилить модель ReACGAN. Тесты на устойчивость к выбору гиперпараметров, совместимость с различными архитектурами и дифференцируемыми дополнениями.
https://arxiv.org/pdf/2111.01118v1.pdf
https://github.com/POSTECH-CVLab/PyTorch-StudioGAN
Простая и вычислительно быстрая неконтролируемая стратегия обучения плотным представлениям пространства-времени из немаркированных видеофильмов. Подход показывает быструю сходимость обучения и эффективности с высокой точностью.
https://arxiv.org/pdf/2111.06265v1.pdf
https://github.com/visinf/dense-ulearn-vos
Реконструкция поверхностей на базе неконтролируемых временных согласованных атласов, с переводом точек на каноническом представлении формы в метрически согласованные трехмерные местоположения на реконструированных поверхностях. Метод позволяет стимулировать развитие трехмерной реконструкции на основе видео, заменив расстояние фаски потерями на основе изображения.
https://arxiv.org/pdf/2111.06838v1.pdf
https://github.com/bednarikjan/temporally_coherent_surface_reconstruction
Новая архитектура EdgeFlow, которая использует данные взаимодействия с пользователем, не прибегая к постобработке или итеративной оптимизации. Высокая производительность в стандартных тестах благодаря своей грубой и точной конструкции сети + эффективный интерактивный инструмент сегментации, который позволяет пользователю постепенно улучшать результат сегментации с помощью гибких опций.
https://arxiv.org/pdf/2109.09406v2.pdf
https://github.com/PaddlePaddle/PaddleSeg
Как перенести успех независимого от задач предварительного обучения в веб-масштабе по обработке естественного языка в область компьютерного зрения? Модели CLIP учатся выполнять ряд задач во время предварительного обучения, чтобы оптимизировать цель обучения. Используя подсказки на естественном языке, CLIP может затем использовать эту задачу обучения, чтобы обеспечить передачу без выстрела во многие существующие наборы данных. При широкомасштабном применении этот метод может конкурировать с контролируемыми моделями для конкретных задач и имеет много возможностей для улучшения.
https://arxiv.org/pdf/2103.00020v1.pdf
https://github.com/openai/CLIP
Тщательное изучение свойств сверток и трансформаторов, чтобы объединить их в новое семейство моделей под названием CoAtNet. CoAtNet сочетает преимущества ConvNets и Transformers, обеспечивая высочайшую производительность для различных размеров данных и вычислительных бюджетов. Подход актуален также для обнаружения объектов и семантической сегментации.
https://arxiv.org/pdf/2106.04803v2.pdf
https://github.com/xmu-xiaoma666/External-Attention-pytorch/blob/master/model/attention/CoAtNet.py
Модель восстановления изображений SwinIR на базе Swin Transformer из трех модулей: извлечение мелких элементов, извлечение глубоких элементов и реконструкция с распознаванием человека. Для глубокого извлечения признаков используется стек остаточных блоков Swin Transformer (RSTB), каждый из которых состоит из слоев Swin Transformer, сверточного слоя и остаточного соединения.
https://arxiv.org/pdf/2108.10257v1.pdf
https://github.com/jingyunliang/swinir
Теоретическая модель объясняет, почему многие современные DL-сети требуют гораздо большего количества параметров, чем необходимо для плавного соответствия обучающим данным. В частности, при определенных условиях регулярности обучающего распределения количество параметров, необходимых для O (1) функции Липшица для интерполяции обучающих данных ниже уровня шума метки, масштабируется как nd, где n - количество обучающих примеров, а d - размерность данных. Этот результат резко контрастирует с обычными результатами, где для функции требуется n параметров для интерполяции обучающих данных, и этот дополнительный коэффициент d для плавной интерполяции. Теория согласуется с эмпирическими наблюдениями о размере моделей, которые имеют надежное обобщение по классификации MNIST. Эта работа также предлагает проверяемый прогноз размеров моделей, необходимых для разработки надежных моделей для классификации ImageNet.
https://openreview.net/forum?id=z71OSKqTFh7
Марковские функции вознаграждения являются доминирующей структурой для последовательного принятия решений в условиях неопределенности и обучения с подкреплением. Но иногда марковские вознаграждения недостаточны, чтобы позволить разработчику системы определить задачу с точки зрения их предпочтений относительно определенного поведения. Есть некоторые задачи, для которых нельзя указать марковскую функцию вознаграждения. Но можно за полиномиальное время решить, существует ли совместимое марковское вознаграждение для желаемой настройки, и применить соответствующий алгоритм в условиях конечного процесса принятия решений.
https://openreview.net/forum?id=9DlCh34E1bN
Практические подходы к повышению строгости сравнения алгоритмов глубокого обучения с подкреплением: оценка новых алгоритмов должна обеспечивать стратифицированные доверительные интервалы начальной загрузки, профили производительности по задачам и запускам, а также межквартильные средние значения. Стандартные подходы к представлению результатов в глубоком RL для многих задач и нескольких прогонов не позволяют оценить, представляет ли новый алгоритм последовательный и значительный прогресс по сравнению с предыдущими методами.
https://openreview.net/forum?id=uqv8-U4lKBe
MAUVE – мера расхождения для сравнения распределения текста, созданного моделью, с распределением текста, созданного человеком. Используется непрерывное семейство (мягких) мер KL-расходимости квантованных вложений двух сравниваемых текстов. MAUVE по сути представляет собой интеграцию непрерывного семейства мер и направлена на улавливание как ошибки типа I (генерирование нереалистичного текста), так и ошибки типа II (не улавливает весь возможный человеческий текст). Эксперименты показали, что MAUVE идентифицирует известные шаблоны текста, созданного моделью, и коррелирует с человеческими суждениями.
https://openreview.net/forum?id=Tqx7nJp7PR
Улучшенная версия метода ускоренного градиента Нестерова, в котором две отдельные векторные переменные развиваются совместно в непрерывном времени - во многом как предыдущие подходы, которые используют дифференциальные уравнения для понимания ускорения - но использует обновления градиента, которые происходят в случайные моменты времени, определяемые точечный процесс Пуассона. Этот новый подход приводит к (рандомизированному) методу дискретного времени, который пользуется той же ускоренной сходимостью, что и метод Нестерова. Также он использует аргументы непрерывного времени, что легче понять, чем предыдущий анализ методов ускоренного градиента и позволяет избежать дополнительных ошибок при дискретизации процесса с непрерывным временем.
https://openreview.net/forum?id=bGfDnD7xo-v
Метод обучения генеративных моделей непрерывного нормализующего потока (CNF) над римановыми многообразиями, чтобы усилить результат Мозера. Метод Мозера 1965 года характеризует решение КНФ, которое Мозер назвал сохраняющим ориентацию автоморфизмом на многообразиях, с использованием ограниченного класса ОДУ, удовлетворяющего условиям геометрической регулярности и явно определяемого с использованием дивергенции функции плотности цели. Предлагаемый метод потока Мозера использует эту концепцию решения для разработки подхода CNF, основанного на параметризованном оценщике целевой плотности, который может быть нейронной сетью. Обучение сводится к простой оптимизации расхождения оценщика плотности, что является побочным действием при запуске решателя ODE, нужного для стандартного обучения обратному распространению. Эксперименты показали быстрое время обучения и превосходную производительность теста по сравнению с предыдущими исследованиями CNF, а также возможность моделирования плотности на неявных поверхностях с непостоянной кривизной, таких как модель Стэнфордского кролика.
https://openreview.net/forum?id=qGvMv3undNJ
Подробный анализ тысячи статей и исследование эволюции использования наборов данных в различных ML-сообществах, а также взаимодействие между принятием и созданием наборов данных. В большинстве сообществ со временем происходит эволюция в сторону использования меньшего количества различных наборов данных, и что эти наборы данных поступают от нескольких организаций. Эта эволюция проблематична, поскольку эталонные тесты становятся менее универсальными, а предубеждения из источников данных могут усиливаться. В итоге исследовательскому сообществу становится труднее принимать новые датасеты. Стоит критически подумать о том, какие наборы данных используются для сравнительного анализа, и сделать шаг к созданию новых и более разнообразных датасетов.
https://openreview.net/forum?id=zNQBIBKJRkd
В статье представлены наборы эталонных данных с трехмерным представлением малых молекул и/или биополимеров для решения широкого круга задач, от прогнозирования одиночной молекулярной структуры и взаимодействия между биомолекулами до молекулярных функциональных и инженерных задач. Простые надежные реализации трехмерных моделей сравниваются с одномерными и двумерными моделями и показывают лучшую производительность. Работа дает понимание того, как выбирать и проектировать модели, предоставляет наборы данных для сравнительного анализа и базовые ML-решения с открытым исходным кодом для их практического использования в области вычислительной биологии и молекулярного дизайна.
https://openreview.net/forum?id=FkDZLpK1Ml2
Идея моделирования замаскированного языка (искажение последовательности путем маскировки некоторых элементов и попытки ее восстановления) полезна и для создания молекул: маскирования отдельных атомов и «реконструкции» того, как они должны быть заполнены. Выполняя этот процесс итеративно, например, с помощью авторегрессии, можно построить генеративную модель для вывода молекул. В отличие от других статей, подход говорит, что образование молекул обусловлено определенными особенностями связывания белков, что дает механизм для поиска молекул-кандидатов, которые могут действовать как таргетированное лекарство.
Для этого требуется создать кодировщик, инвариантный к жестким преобразованиям (перемещению и вращению), т.к. молекулы не заботятся о том, как они ориентированы.
https://papers.nips.cc/paper/2021/hash/314450613369e0ee72d0da7f6fee773c-Abstract.html
https://github.com/luost26/3D-Generative-SBDD
Понятие объектности часто называют одним из важных человеческих приоритетов, которые позволяют нам видеть что-то и рассуждать об этом. Людям не нужно знать, что это за объект, чтобы знать, что это объект. А при обучении нейросети для сегментации изображений под наблюдением модель будет учиться только сегментировать объекты, видимые во время обучения. В этой статье предлагается использовать видеоданные и хитрые приемы для создания подхода к обучению с самоконтролем, который использует то, как объекты и передний план имеют тенденцию вести себя по-разному в записях. Это напоминает DINO от Facebook, который обнаружил, как после самостоятельного обучения с изображениями матрицы внимания Трансформеров напоминали своего рода прото-сегментацию. Комбинацию потери восстановления одного кадра (сеть сегментации) и сеть движения, которая пытается вывести карту характеристик того, как пиксели перемещаются в изображении позволяет, предсказывать будущий кадр с учетом реконструкции и контролируемые карты движения.
Идея проста: обучить языковую модель, зафиксировать параметры, а затем обучить кодировщик изображений кодировать изображение в подсказку для этой языковой модели и выполнения конкретной задачи.
https://papers.nips.cc/paper/2021/hash/01b7575c38dac42f3cfb7d500438b875-Abstract.html
https://fh295.github.io/frozen.html
Модель плотного поиска нацелена на кодирование переходов и запросов в векторы для выполнения поиска ближайшего соседа для поиска соответствующих совпадений. Для обучения часто используется контрастная потеря, когда сходство положительных пар максимизировано, а сходство отрицательных пар минимизировано. В идеале можно использовать всю коллекцию документов в качестве «отрицательных образцов», но это слишком дорого, поэтому вместо этого часто используются методы отрицательной выборки. Однако, при этом качество окончательной модели сильно зависит от количества отрицательных выборок и требует больших вычислительных затрат. Поэтому отрицательные образцы тщательно смешиваются с «жесткими отрицаниями» из асинхронно обновляемого индекса для повышения производительности модели при разумных вычислительных затратах. Проблему решает кэширование вложений документов, когда они рассчитываются, и их постепенное обновление вместо полного прямого прохода в кодировщике для всех отрицательных выборок.
https://papers.nips.cc/paper/2021/hash/2175f8c5cd9604f6b1e576b252d4c86e-Abstract.html
Мультимодальность – перспективная, но еще недостаточно изученная область для изучения моделей больших трансформеров. Работа направлена на построение представлений для видео, аудио и текста посредством самоконтролируемого обучения данных в этих модальностях вместе с вариантами контрастных потерь, чтобы три модальности использовали одно и то же пространство встраивания. Для этого они используют шумоконтрастную оценку (NCE) и используют совпадающие тройки аудио/видеокадров/текста в качестве положительных пар и несовпадающие тройки (например, несоответствующие сегменты видео) в качестве отрицательных выборок.
В отличие от предыдущего метода (Мультимодальные универсальные сети с самоконтролем), подход основан на чистой архитектуре Transformer и достигает SOTA в кинетике основных видеобенчмарков, избегая контролируемого предварительного обучения только с самоконтролем.
https://papers.nips.cc/paper/2021/hash/cb3213ada48302953cb0f166464ab356-Abstract.html
Хотя наблюдения за окружающей средой часто многомерны, например, миллионы пикселей из изображений, количество битов информации, необходимых агенту для принятия решений, обычно невелико. Подход Robust Predictable Control (RPC), общий к изучению политик, использует несколько битов информации: чем более предсказуемо состояние модели, тем легче сжать политику. Это становится фактором регуляризации, позволяющим агентам учиться «играть осторожно» большую часть времени, например, система самоуправления будет стремиться избегать ситуаций с высокой степенью неопределенности.
https://papers.nips.cc/paper/2021/hash/e9f85782949743dcc42079e629332b5f-Abstract.html
https://ben-eysenbach.github.io/rpc/
С тех пор, как в мае 2020 года появился GPT-3, для новых больших языковых моделей стало стандартом тестировать себя в нулевом выстреле. Этот тест, разработанный Институтом ИИ Аллена, направлен на стандартизацию паттернов из NLP по принципам разнообразия типов передачи, переменному количеству кадров и классов, несбалансированные наборы тренировок, текстовые метки, отсутствие дополнительных данных мета-тестирования, принципиальный дизайн размера выборки и надлежащая отчетность о доверительных интервалах, стандартных отклонениях и индивидуальных результатах.
https://papers.nips.cc/paper/2021/hash/8493eeaccb772c0878f99d60a0bd2bb3-Abstract.html
https://github.com/allenai/flex
При разработке алгоритма сжатия графов необходимо учитывать их изоморфизмы: графы не имеют внутреннего упорядочения вершин, в отличие от последовательностей данных или массивов. Поэтому представление оптимально сжатого кодового слова графа должно быть инвариантным по отношению к таким изоморфизмам. Теоретически оптимальный кодировщик полагается на знание вероятности возможной каждой возможной конфигурации данных и присвоение кода, масштаб которого пропорционален логарифму такой вероятности. Например, более вероятные графы становятся более сжатыми в более короткие коды и наоборот. Вычислить такую вероятность сложно из-за комбинаторного взрыва средних и больших графов. Также нужно учитывать размер этой самой модели: чем она сложнее, тем лучше может сжимать данные, но требует больше ресурсов.
Проблему решит разбиение графов на общие подграфы, для которых ведетется словарь кодовых слов, длина которых пропорциональна логарифму вероятности каждого подграфа. Этот метод полностью дифференцируем, поэтому его можно оптимизировать с помощью градиентного спуска для любого заданного набора данных графов.
https://papers.nips.cc/paper/2021/hash/9a4d6e8685bd057e4f68930bd7c8ecc0-Abstract.html
Две модели учатся взаимодействовать по изображениям через рисование: одна создает картинку, а другая должна выбрать, что изображено. Регуляризация стимулирует интерпретируемость: добавление «потери восприятия» на ранней стадии модели кодировщика улучшает приближение исходного изображения и рисунка друг к другу. Это похоже на то, как нейроны человеческого мозга активируются у людей на заданную картинку.
https://papers.nips.cc/paper/2021/hash/39d0a8908fbe6c18039ea8227f827023-Abstract.html
https://github.com/Ddaniela13/LearningToDraw
Ruihan Wu, Chuan Guo, Awni Hannun and Laurens van der Maaten
Авторы изучают и формализуют важную проблему: как и почему система, состоящая из различных ML-подсистем, может стать хуже при улучшении отдельных частей. Интересный вывод: можно снизить производительность системы ИИ, улучшая каждую из ее частей, что нужно учесть при построении ML-конвейера.
https://papers.nips.cc/paper/2021/hash/619427579e7b067421f6aa89d4a8990c-Abstract.html
Новый метод объективной оценки градиента в графах необработанных вычислений, называемый постоянными стратегиями эволюции (PES, Persistent Evolution Strategies). PES получает градиенты из усеченных разверток, что ускоряет оптимизацию за счет частого обновления параметров, не страдая от систематической ошибки усечения, которая влияет на многие конкурирующие подходы. Исследователи показали, что PES широко применим для RNN-подобных задач, оптимизации гиперпараметров, обучения с подкреплением и мета-обучения обученных оптимизаторов.
http://proceedings.mlr.press/v139/vicol21a/vicol21a.pdf
Децентрализация как перспективный метод масштабирования систем параллельного машинного обучения. Исследователи установили точную нижнюю границу сложности итераций для таких методов в стохастической невыпуклой среде. Эта граница выявила теоретический пробел в известной скорости сходимости многих существующих децентрализованных алгоритмов обучения, таких как D-PSGD. Исследователи доказали, что нижняя граница точна и достижима, а также предложили DeTAG, практический децентрализованный алгоритм в стиле сплетен, который достигает нижней границы только с логарифмическим пробелом. Эмпирически сравнив DeTaG с другими децентрализованными алгоритмами в задачах классификации изображений, авторы отметили, что DeTAG имеет более быструю сходимость, чем базовые уровни, особенно в не перетасованных данных и разреженных сетях.
https://arxiv.org/pdf/2006.08085.pdf
Общая масштабируемая стратегия приближенной выборки для вероятностных моделей с дискретными переменными. Подход использует градиенты функции правдоподобия относительно ее дискретных входных данных, чтобы предлагать обновления в семплере MetropolisHastings. Исследователи эмпирически показали, что этот подход превосходит стандартные семплеры во многих сложных условиях, включая модели Изинга, модели Поттса, ограниченные машины Больцмана и факторные скрытые марковские модели. Они также продемонстрировали использование своего улучшенного сэмплера для обучения глубоких энергетических моделей (EBM) на дискретных данных большой размерности. Кроме того, этот подход превосходит вариационные автокодировщики и существующие EBM.
https://arxiv.org/pdf/2102.04509.pdf
В статье рассмотрены различные методы самоконтролируемого обучения (SSL) и предложен новый теоретический подход DirectPred, который напрямую устанавливает линейный предиктор на основе статистики его входных данных без градиентного обучения. В наборе данных ImageNet он работал сравнимо с более сложными двухуровневыми нелинейными предикторами, которые используют BatchNorm, и превзошел линейный предиктор на 2,5 процента в 300-периодном обучении (и на 5 процентов в 60-периодном). Исследователи заявили, что DirectPred мотивирован их теоретическим исследованием нелинейной динамики обучения неконтрастного SSL в простых линейных сетях. Исследование показало концептуальное понимание того, как обучаются неконтрастные методы SSL, как они избегают коллапса представлений и как в игру вступают многочисленные факторы, такие как сети предикторов, стоп-градиенты, экспоненциальные скользящие средние и уменьшение веса. Эта простая теория резюмирует результаты реальных исследований абляции в STL-10 и ImageNet.
https://arxiv.org/pdf/2102.06810.pdf
https://github.com/facebookresearch/luckmatters/tree/master/ssl
Как тензорное обучение обеспечивает привлекательную аппроксимационную структуру для параболических уравнений в частных производных: комбинация переформулировок в терминах обратных стохастических дифференциальных уравнений и методов регрессионного типа в тензорном формате обещает использование скрытых низкоранговых структур с сжатием и эффективными вычислениями. Исследователи разработали новые итерационные схемы, включающие либо явные и быстрые, либо неявные и точные обновления. Их методы достигают выгодного компромисса между точностью и вычислительной эффективностью по сравнению с подходами на основе нейронных сетей SOTA.
https://arxiv.org/pdf/2102.11830.pdf
Негативные эффекты пузырей фильтров дезинформации в адаптивных системах, когда пользователь может сделать неправильный выбор – бич современных рекомендательных систем. В исследовании, где предварительно запрограммированные агенты в роли пользователей YouTube проникают в пузыри фильтров дезинформации, показывается, как разоблачить дезинформацию. Наблюдая за разоблачающим содержанием, агенты пытаются «лопнуть пузыри» и достичь более сбалансированных наборов рекомендаций.
https://dl.acm.org/doi/10.1145/3460231.3474241
Методы бандитского обучения на основе взаимодействия с пользователем часто требуют модели вознаграждения, которое дает определенная пара контекст-действие - например, вероятность клика по рекомендации. Эта общая задача машинного обучения нетривиальна, поскольку процесс генерации данных для контекстов и действий часто искажается самой системой рекомендаций. Когда развернутая политика рекомендаций во время сбора данных не выбирает свои действия равномерно и случайным образом, это приводит к смещению выбора, что может препятствовать эффективному моделированию вознаграждения. Это, в свою очередь, делает обучение вне политики особенно сложным. Авторы исследования предлагают общий подход к моделированию пессимистического вознаграждения за обучение вне политики для рекомендательных систем. Байесовские оценки неопределенности позволяют выразить скептицизм по поводу модели вознаграждения, которая может быть использована для создания консервативного правила принятия решений, смягчая «проклятие оптимизатора». Используя доступные выражения в закрытой форме как для апостериорного среднего, так и для дисперсии, когда гребневой регрессор моделирует вознаграждение, авторы показали, как эффективно и действенно применять пессимизм к варианту использования рекомендаций вне политики. Эмпирические наблюдения доказали, что консервативность в принятии решений приводит к значительному и надежному повышению эффективности рекомендаций. Достоинства подхода наиболее очевидны в реалистичных настройках с ограниченной рандомизацией журналов, ограниченными обучающими выборками и большими пространствами действий.
https://dl.acm.org/doi/10.1145/3460231.3474247
Grapevine – советник, управляемый пользователем, позволяет студентам и аспирантам найти подходящего научного руководителя. Система сочетает идеи из областей исследовательского поиска, пользовательского моделирования и рекомендательных систем, используя самые современные методы извлечения знаний, рекомендации на основе винограда и интеллектуальный пользовательский интерфейс.
https://dl.acm.org/doi/10.1145/3460231.3478879
Обучение оптимизации (L2O) - новый подход, который использует машинное обучение для разработки методов оптимизации, направленных на сокращение трудоемких итераций ручной инженерии. Он автоматизирует разработку метода оптимизации на основе его эффективности на наборе обучающих задач. Эта управляемая данными процедура генерирует методы, которые могут эффективно решать задачи, аналогичные тем, которые используются при обучении. В отличие от них, типичные и традиционные методы оптимизации основаны на теории, поэтому они обеспечивают гарантии производительности по классам задач, определенных теорией. Разница делает L2O подходящим для многократного решения определенного типа задач оптимизации по определенному распределению данных, в то время как обычно он не работает с проблемами вне распределения. Практичность L2O зависит от типа целевой оптимизации, выбранной архитектуры метода обучения и процедуры обучения.
https://github.com/VITA-Group/Open-L2O
https://arxiv.org/pdf/2103.12828v1.pdf
Проблемы справедливости обучения модели машинного обучения с использованием данных с пропущенными значениями. На практике в реальном датасете часто есть пропуски, а шаблоны работы с ними могут зависеть от атрибутов группы, например, пол или раса. Простое применение готовых алгоритмов справедливого обучения к вмененному набору данных может привести к несправедливой модели. В статье теоретически анализируются различные источники риска дискриминации при обучении с использованием вмененного набора данных. Предлагается интегрированный подход, основанный на деревьях решений, который не требует отдельного процесса вменения и обучения. Вместо этого дерево обучается с отсутствующим включенным атрибутом, что не требует явного вменения, а целевая функция, регулируемая по справедливости, оптимизируется. Этот подход превосходит существующие методы вмешательства в справедливость, применяемые к вмененному набору данных, благодаря нескольким экспериментам с реальными наборами данных.
https://arxiv.org/pdf/2109.10431v1.pdf
Merlion – ML-библиотека с открытым исходным кодом для временных рядов. Она имеет унифицированный интерфейс для многих часто используемых моделей и наборов данных для обнаружения и прогнозирования аномалий как на одномерном, так и на многомерном временных рядах, а также на стандартных уровнях предварительной/постобработки. В нем есть несколько модулей для повышения простоты использования, включая визуализацию, калибровку оценки аномалий для повышения взаимозависимости, AutoML для настройки гиперпараметров и выбора модели, а также ансамбль моделей. Merlion также предоставляет уникальную платформу оценки, которая имитирует развертывание и повторное обучение модели в производственной среде. Эта библиотека дает инженерам и исследователям универсальное решение для быстрой разработки моделей для временных.
https://github.com/salesforce/Merlion
https://arxiv.org/pdf/2109.09265v1.pdf
ROC AUC – популярный показатель ранжирования для несбалансированного обучения и системы рекомендаций. Подавляющее большинство существующих ML-методов, основанных на оптимизации AUC, сосредоточены только на кейсах бинарного класса, оставляя мультиклассовые кейсы нерассмотренными. Эта исследовательская работа изучает проблемы обучения мультиклассовым оценочным функциям посредством оптимизации мультиклассовых показателей AUC на основе метрики M, которая является хорошо известным мультиклассовым расширением AUC. Этот показатель может устранить проблему дисбаланса в парах классов меньшинств, предлагая эмпирическую суррогатную основу минимизации риска для приблизительной оптимизации метрики M. Теоретически показано, что оптимизации большинства популярных дифференцируемых суррогатных потерь достаточно для асимптотического достижения байесовской оптимальной оценочной функции. Также исследователи доказали, что структура обучения имеет границу ошибки обобщения с учетом дисбаланса, которая уделяет больше внимания узким местам классов меньшинств по сравнению с традиционным результатом O (√(1/N)). Чтобы справиться с низкой масштабируемостью вычислительных операций, методы ускорения предлагаются для трех популярных суррогатных функций потерь, включая экспоненциальные потери, квадраты потерь и потери на шарнирах, чтобы ускорить оценку потерь и градиента. Экспериментальные результаты на 11 наборах реальных данных демонстрируют эффективность предлагаемой структуры.
https://arxiv.org/pdf/2107.13171v1.pdf
Масштаб, разнообразие и количество общедоступных наборов данных NLP быстро растут, включая новые задачи, более крупные модели и новые тесты. Здесь представлены датасеты NLP как общественная библиотека для поддержки этой экосистемы. Наборы данных призваны стандартизировать интерфейсы конечного пользователя, управление версиями и документацию, обеспечивая при этом легкий интерфейс, который ведет себя аналогично для небольших наборов данных и для корпусов в масштабе Интернета. Дизайн библиотеки включает распределенный, управляемый сообществом подход к добавлению наборов данных и документированию использования. После года разработки библиотека теперь включает более 650 уникальных наборов данных, насчитывает более 250 участников и помогает поддерживать множество новых исследовательских проектов с перекрестными наборами данных и совместных задач.
https://github.com/huggingface/datasets
https://arxiv.org/abs/2109.02846
Часто при разработке широко распространенных наборов данных для предварительно обученных кодировщиков используются концепции и изображения ImageNet. Но этот эталонный тест основан на лексических базах данных и запросах изображений на английском языке. Авторы представили новый протокол для построения иерархии в стиле ImageNet, представляющей большее количество языков и культур. Можно выбирать концепции и изображения на языке носителей: индонезийском, китайском, суахили, тамильском и турецком. Помимо концепций и изображений, полученных с помощью этого нового протокола, создан многоязычный набор данных для {M} ulticultur {a} l {R} изучения {V} ision и {L} anguage (MaRVL) путем получения утверждений от носителей языка аннотаторы о парах изображений. Задача состоит в том, чтобы различить, является ли каждое обоснованное утверждение истинным или ложным. Установлена серия базовых показателей с использованием современных моделей, и показано, что эффективность их перевода значительно отстает от качества контролируемого перевода на английском языке. Поэтому следует переоценить надежность и точность современных моделей за пределами узкой области и работать с действительно многоязычными и мультикультурными системами.
https://arxiv.org/abs/2109.13238
https://marvl-challenge.github.io/
Понимание юмора позволяет лучше чувствовать язык и отличает человека от машины. Существенные индивидуальные и культурные различия в восприятии юмора очень затрудняют сбор крупномасштабных юмористических данных с надежными метками. В статье предложен CHoRaL – фреймворк для создания воспринимаемых юмористических меток на сообщениях Facebook, используя естественные реакции пользователей на эти сообщения без необходимости ручного добавления аннотаций. CHoRaL предоставляет как двоичные метки, так и непрерывные оценки юмора и не-юмора. Это самый большой на сегодня размеченный набор данных из 785 тысяч сообщений, связанных с COVID-19. Анализируя проявление юмора, связанного с COVID, в социальных сетях и извлекая лексико-семантические и аффективные характеристики из сообщений, исследователи строят модели обнаружения юмора с характеристиками, аналогичными человеческим. CHoRaL позволяет разрабатывать масштабные модели обнаружения юмора по любой теме и открывает новый путь к изучению юмора в социальных сетях.
https://aclanthology.org/2021.emnlp-main.364.pdf
Идеальная интеграция автономных агентов в человеческий мир подразумевает, что они могут сотрудничать на человеческих условиях. В частности, теория разума играет важную роль в поддержании точек соприкосновения во время человеческого сотрудничества и общения. Чтобы реализовать теорию моделирования разума в ситуативных взаимодействиях, введен детальный набор данных совместных задач, выполняемых парами людей в мире виртуальных блоков 3D Minecraft. Он предоставляет информацию, которая отражает представления партнеров об окружающем мире и друг о друге по мере развития взаимодействия, предоставляя широкие возможности для изучения человеческого поведения при взаимодействии в условиях локального языкового общения. В качестве первого шага к цели по разработке воплощенных агентов ИИ, способных делать выводы о состояниях убеждений партнеров по сотрудничеству на месте, исследователи получили результаты на вычислительных моделях для нескольких задач теории разума.
https://arxiv.org/abs/2109.06275
Ответы на один и тот же вопрос могут меняться в зависимости от экстралингвистического контекста. Чтобы изучить эту проблему, авторы разработали LocationQA - набор данных QA с открытым поиском, в котором системы должны давать правильный ответ на вопрос с учетом временного или географического контекста. Сперва были идентифицированы вопросы в существующих наборах данных QA. Обнаружено, что значительная часть вопросов о поиске информации имеет контекстно-зависимые ответы (например, примерно 16,5% от NQ-Open). Для таких зависящих от контекста вопросов собраны альтернативные контексты и соответствующие ответы. Исследование показывало, что существующие модели не могут дать ответы, которые часто обновляются или из необычных мест. Тесты QA с открытым поиском должны включать экстралингвистический контекст, чтобы оставаться актуальными в глобальном масштабе и в будущем.
https://arxiv.org/abs/2109.06157
Обучать большие языковые модели становится труднее из-за увеличения времени и стоимости вычислений. В работе представлен SRU++ - всокоэффективная архитектура, сочетающая быстрое повторение и внимание к моделированию последовательности. SRU++ демонстрирует сильные возможности моделирования и эффективность обучения. При выполнении стандартных задач языкового моделирования, таких как наборы данных Enwik8, Wiki-103 и Billion Word, модель обеспечивает лучшую битрейт на символ и затруднения при использовании в 3-10 раз меньших затрат на обучение по сравнению с высокопроизводительными моделями Transformer. Например, достигнут результат на наборе данных Enwik8 за 1,6 дня обучения на машине с 8 графическими процессорами. SRU++ требует минимального внимания для достижения почти современного уровня производительности. Результаты предполагают совместное использование быстрого повторения с небольшим вниманием в качестве многообещающего направления для ускорения обучения модели и вывода.
https://arxiv.org/abs/2102.12459
Здравый смысл - это квинтэссенция человеческого потенциала, которая была основной проблемой для искусственного интеллекта с момента его создания. Впечатляющие результаты в задачах обработки естественного языка, в том числе на основе здравого смысла, постоянно достигаются с помощью моделей нейронного языка Transformer, которые даже соответствуют или превосходят производительность человека в некоторых тестах. Недавно некоторые из этих достижений были поставлены под сомнение: так называемые артефакты данных в обучающих данных стали очевидными как ложные корреляции и неглубокие сокращения, которые в некоторых случаях используют эти выдающиеся результаты. В статье приведено исследование различных известных эталонных тестов, основанных на здравом смысле, наряду с рядом ключевых стресс-экспериментов. Это позволяет понять, изучают ли модели переносимые обобщения, присущие проблеме, о которой идет речь, или просто используют случайные сокращения в данных. Полученные результаты показывают, что большинство экспериментальных наборов данных проблематично, поскольку модели прибегают к ненадежным функциям и, по-видимому, не обучаются и не обобщают общие задачи, которые должны быть переданы или проиллюстрированы наборами данных.
https://aclanthology.org/2021.emnlp-main.113/
Источники