Новая архитектура-генералист для работы с комбинированными типами данных от DeepMind, генерация внешности от младенчества до глубокой старости, синтез фотореалистичных изображений по наброску и многое другое в августовской подборке.
Perceiver IO
Доступность: публикация в блоге / статья / репозиторий
Большинство архитектур разрабатываются для одной задачи, из-за чего инженерам приходится постоянно идти на ухищрения, модифицировать входы и выходы в надежде, что модель научится решать новую проблему. При этом, работа с несколькими типами данных, такими как аудио и изображения, как правило, требует сложных мультимодальных систем. Исследователи из DeepMind стремятся создать универсальную архитектуру, способную решать разные проблемы и обрабатывать все типы данных. Perceiver IO — архитектура-генералист, которая подойдет для обработки изображений, текста, аудио и даже их комбинаций.
Модель построена на основе трансформера, который использует операцию внимания для преобразования данных. Сравнивая все элементы входных данных, трансформеры обрабатывают их на основе отношений друг с другом и с задачей. Внимание потребляет много ресурсов, так как обычные формы данных, такие как изображения и текст, могут содержать миллионы элементов. Perceiver решает эту проблему, сперва кодируя входные данные в небольшой латентный массив, а затем этот массив обрабатывается с затратами, не зависящими от размера входных данных, что позволяет памяти и вычислительным потребностям плавно расти по мере увеличения входных данных. Это открывает ряд возможностей, так как механизм внимания можно использовать например для понимания смысла текста по каждому из символов, или происходящее на видео по отслеживанию движения всех точек в кадре.
StyleGAN-NADA
Доступность: страница проекта / статья / репозиторий / колаб
Исследователи из NVIDIA представили способ, который позволяет использовать GAN-модель, обученную на одном классе для генерации изображений из другой области по текстовому описанию преобразования. То есть, достаточно написать “Николас Кейдж ➜ собака”, чтобы получить убедительное преобразованное изображение собаки, напоминающей актера. Внутри связка из StyleGAN и CLIP.
Sketch Your Own GAN
Доступность: страница проекта / статья / репозиторий
Метод по одному нарисованному от руки эскизу синтезирует правдоподобное изображение. В результате преобразования модель может слегка изменить форму и позу объекта, но при этом сохраняет другие визуальные признаки — цвет, текстуру, фон. Авторы изменяют веса исходной модели GAN в соответствии с эскизами пользователя и поощряют модель за соответствие выходных данных эскизам с помощью кроссдоменных состязательных потерь.
Disentangled Lifespan Face Synthesis
Доступность: страница проекта / статья / репозиторий / колаб
Обученная на фотографиях человеческих лиц модель по одной фотографии человека предсказывает, как человек выглядит на каждом жизненном этапе от детства до старости. В основе алгоритма все та же попытка управлять скрытым пространством и распутывать различные параметры, которые отвечают за форму, текстуру, цвет и пр. чтобы эффективно моделировать уникальные возрастные преобразования.
AgingMapGAN
Доступность: страница проекта / статья
Все чаще встречаются ML-алгоритмы, созданные косметическими брендами, вот теперь и инженеры из L’Oréal представили новый способ генерации эффекта старости на портретах.Новизна их подхода в том, что он не игнорирует индивидуальные вариации вроде этнической принадлежности или характерных мимических морщин. Маска разделяет лицо на разные регионы, для каждого из которых можно регулировать интенсивность эффекта.
SimVLM
Доступность: статья
Обучение мультимодальных сетей на визуальной и текстовой информации усложнено из-за подготовки нескольких датасетов под конкретные задачи. Авторы исследования представили новый минималистичных фреймворк, который упрощает обучение за счет использования слабого учителя и сквозного обучения с единственной целью моделирования языка префикса без дополнительных данных. У SimVLM хорошая способность к обобщению и переносу и очень хорошие показатели, опережающие SOTA показатели, даже среди zero-shot моделей.
Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos
Доступность: страница проекта / статья / репозиторий
Основная проблема изучения геометрии одежды на людях заключается в недостатке данных. Чтобы решить эту проблему, авторы взяли танцевальные видео из TikTok, где движения и одежда разнообразные. Чтобы использовать эти видео, исследователи создали новый метод локального преобразования, которое переносит предсказанную локальную геометрию человека с одного изображения на другое изображение в другой момент времени.
Domain-Aware Universal Style Transfer
Доступность: статья / репозиторий
Существующие подходы в сфере переноса стилей обычно ограничены тем, что применять произвольные стили к изображениям можно либо в художественной, либо в фотореалистичной манере. Данная модель универсальна, и может применяться одинаково в обоих случаях.
Paint Transformer: Feed Forward Neural Painting with Stroke Prediction
Доступность: статья / репозиторий
В мае мы рассказывали про способ переноса стилей на основе параметризации мазков кисти. Кажется, эта идея получила развитие в новом подходе, который с помощью трансформеров, предсказывает параметры мазков за ряд прямых прохождений сети. На каждом из них сеть постепенно наносит линии, подобно мазкам кисти от крупных к более мелким.
Robust High-Resolution Video Matting with Temporal Guidance
Доступность: страница проекта
Второе за выпуск упоминание TitkTok, но теперь уже в качестве автора исследования, а не источника обучающих данных. Они представили новый подход для сегментации людей на видео, который работает при 76 FPS в разрешении 4K. В декодере задействованы сверточные GRU-слои перед каждым апскейлингом, что позволяет модели использовать временной контекст и лучше отделять фон от движущихся людей.
Internal Video Inpainting by Implicit Long-range Propagation
Доступность: статья / страница проекта / репозиторий
Новый подход для удаления объектов с видео. В отличие от предыдущих методов, которые использовали оптический поток для распространения контекста между кадрами для выделения я неизвестных областей, авторы показывают, что это может быть достигнуто путем подгонки сверточной нейронной сети к известной области. Более того, для обработки сложных последовательностей с с неоднородным фоном и продолжительными окклюзиями здесь представлены два условия регуляризации для сохранения высокого уровня детализации и долгосрочную временную согласованность.
Вот таким насыщенным выдался август — на этом все, спасибо за внимание!