Генерация видео из текста от Microsoft, новые редакторы изображений от NVIDIA и Adobe, высококачественные NeRF-модели и многое другое в ноябрьской подборке.
ruDALL-E
Доступность: репозиторий / колаб / демо
Исследователи из Сбера представили имплементацию DALL-E для русского языка. Как и в случае с ruGPT-3, о которой мы рассказывали в октябре прошлого года, реализация не полностью повторяет оригинал, и по размерам в десять раз меньше модели от OpenAI. Но даже при размере в 1,2 млрд. тренировочных параметров модель выдает потрясающие результаты. Подробное описание можно почитать в блоге компании на Хабре.
NUWA
Доступность: статья / репозиторий
Мультимодальный трансформер, который подобно DALL-E может генерировать фото, а еще и видео из текстового описания единым потоком токенов вместо трех отдельных под каждый формат данных. Помимо этого модель способна решать еще несколько типов задач — преобразование набросков в фото и текст, дополнение фото и видео, текстовая манипуляция с фото и видео.
Bletchley
Доступность: пубикация в блоге
Также Microsoft представили мультимодальную модель с 2,5 млрд тренировочных параметров для работы с изображениями. Модель похожа на CLIP от OpenAI, только способна обучаться на 94 языках и демонстрирует SOTA-показатели в zero-shot классификации изображений.
EditGAN
Доступность: страница проекта
Исследователи из NVIDIA представили новый метод семантического редактирования изображений. Пользователи могут редактировать изображения сегментарно в графическом интерфейсе. Так можно редактировать маску отдельной детали объекта, например фары автомобиля с помощью векторов в скрытом пространстве. Метод помогает определять эти «редактирующие» вектора и их количество, чтобы затем применять их к другим изображениям.
SketchEdit
Доступность: страница проекта
Adobe Research представили новый редактор, который позволяет интерактивно манипулировать изображениями. В отличие от подходов, при которых пользователю нужно наносить на объекту маску, чтобы нейросеть потом сгенерировала фрагмент для заполнения, здесь достаточно дорисовать контуры поверх изображения.
Palette
Доступность: страница проекта / статья
Google показал такой алгоритм — на вход подается изображение с разрешением 256х256, далее модель способна предсказывать то, что за пределами кадра в двух форматах — с помощью панорамного эффекта и эффекта отдаления камеры.
В первом случае модель в четыре этапа генерирует изображение справа и слева, чтобы получить окончательное изображение 256x1280.
Во втором — кадр исходного изображения дополняется с четырех сторон. Данный алгоритм также можно использовать для общих image2image задач. В основе диффузионная модель, о которых мы подробнее писали в июле на примере SR3.
RawNeRF
Доступность: страница проекта / статья
Google Research представили способ обучения NeRF на RAW-изображениях. Это позволяет создавать новые представления сцены в HDR, при этом можно управлять не только точкой обзора, но также экспозицией, фокусом и тональным отображением. Метод может восстанавливать сцены из чрезвычайно зашумленных изображений, снятых в почти полной темноте.
RegNeRF
Доступность: страница проекта / статья
Хотя NeRF позволяет генерировать реалистичные фото с новых точек обзора, для качественных результатов нужно много снимков. В противном случае на изображениях будут встречаться артефакты, вызванные ошибочным предсказанием геометрии сцены. Исследователи из института Макса Планка представили новый способ, который упорядочивает невидимые представления во время оптимизации для генерации новых представлений всего по трем фотографиям.
Победитель WMT 21
Доступность: публикация в блоге / статья / репозиторий
Большинство систем машинного перевода используют группы двуязычных моделей, которые обычно требуют больших датасетов для каждой языковой пары и задачи. FAIR предложили подход, при котором одна модель переводит сразу несколько языковых пар, включая малоресурсные (например, с исландского на английский) и ресурсоемкие (например, с английского на немецкий) с помощью нового способа майнинга обучающих данных с использованием mixture of experts (MoE). Это позволяет масштабировать модель до 52 млрд. параметров. Алгоритм превзошел лучшие специально обученные двуязычные модели в 10 из 14 языковых пар и выиграла конкурс WMT.
В ноябре стали доступны:
- бета GPT-3 и Codex. Сервис платный, но при регистрации дается 300 тысяч токенов на сумму $18;
- исходный код и демо новой версии Demucs v3 от FAIR — модели для разделения звуковых дорожек на отдельные исходные потоки;
- интерактивное демо GauGAN2 от NVIDIA, где можно из скетча создавать пейзажи в простом графическом интерфейсе.