Рассказываем о решениях на основе искусственного интеллекта | Блог Work Solutions
Подборка статей о машинном обучении: кейсы, гайды и исследования за ноябрь 2020
ГлавнаяБлогНейродайджестПодборка статей о машинном обучении: кейсы, гайды и исследования за ноябрь 2020
Нейродайджест07 декабря 2020

Подборка статей о машинном обучении: кейсы, гайды и исследования за ноябрь 2020

Фотография автора
Артем СалютинCBDO

AlphaFold от DeepMind

Главная новость прошедшего месяца в том, что состоялся полноценный релиз открытой модели AlphaFold. Весной мы рассказывали, как DeepMind обучили модель предсказывать структуру белка по набору аминкислот, но данные о качестве результатов еще были неподтвержденными.

Результаты оказались очень впечатляющими, средняя оценка точности по тесту глобальных расстояний — 87 GDT. До этого показатель не превышал 45 GDT, то есть, модель дает 100% прирост точности. Ученым больше не потребуется тратить массу времени на реальные химические эксперименты.

Что это все значит, и почему это важно? Внутри каждой клетки любого живого организма содержатся белки, которые отвечают за все биологические процессы. Белок обладает сложной трехмерной формой, которая определяет его назначение и принцип работы. На сегодняшний день ученым известно о существовании 200 млн. разновидностей белков, но очень мало информации об их структуре. Распутанный белок представляет собой цепочку аминокислот, похожую на нить с бусинами. Взаимодействие кислот сворачивает белок в уникальную форму.

С 50-х годов ученые пытались предсказать форму белка по набору содержащихся в нем аминокислот. Теперь с AlfaFold исследования можно будет проводить быстрее, что даст толчок новым открытиям в разных областях — от борьбы с болезнями до разложения пластиковых отходов и сокращения уровня углерода в атмосфере.

Далее традиционно рассмотрим инструменты на основе алгоритмов машинного обучения, которые появились за прошедший месяц.

NeRF-модели

Изображение статьи

Появилось сразу два интересных алгоритма, в основе которых лежит метод Neural Radiance Fields.

Facebook совместно Корнелльским университетовм представили модель, которая генерирует динамические сцены на основе одного видео. По движению камеры модель анализирует пространство в привязке ко времени и пытается воссоздать трехмерную геометрию сцены. Глубина сцены рассчитывается по каждому кадру, после чего собирается общее представление. Таким образом можно генерировать новые кадры, снятые будто с другого ракурса.

А Google вместе с Вашингтонским университетом не стали забывать про маркетинг и не просто представили новую модель, но также придумали название новому типу медиаконтента — nerfie, видимо, чтобы было созвучно селфи. Модель также принимает на вход фото и видео с обычного смартфона и воссоздает сцену.

Deepfake-алгоритмы

Изображение статьи

Исследователи из университета Торонто представили опенсорсную модель, которая анализирует изменения на участках маски и находит дополнительные векторы для генерации изменений областей лица. Если не брать в расчет артефакты, меняющие цвет, то поведение морщин и складок кожи выглядит очень реалистично.

Изображение статьи

В прошлый раз мы рассказывали про Nvidia Maxine, набор нейросетей для видеоконференций. На его основе создали нейросеть Face-vid2vid, которая генерирует видео говорящей головы на основе референсной фотографии. Движение кодируется на основе представления ключевых точек лица. Пока доступно только демо, так что уже можно протестировать качество работы модели.

Изображение статьи

Impersonator++ — новая попытка создать полный дипфейк человека во весь рост. Модель генерирует человеческое изображение и переносит движения на статическую референсную фотографию. Доступен код и датасет.

В противовес развивающимся дипфейк-алгоритмам исследователи придумывают все новые способы борьбы с ними. Существующие модели обнаружения дипфейков ориентированы на традиционные методы вроде отслеживания неестественных движений век или искажений по краям лица. Intel и университет Бингемтон обучили алгоритим распознавать дипфейки по фотоплетизмограммам, то есть, по сердцебиению, которое предсказывается по смене цвета кожи. Точность обнаружения — 97.27%, однако модель обучалась на публично доступных датасетах.

Прочие инструменты и сервисы

Изображение статьи

Алгоритм анимирует изображения

Facebook и Вашингтонский университет продемонстрировали модель, которая преобразует статичные фотоизображения в реалистичное зацикленное видео. Метод предназначен для сцен с непрерывным плавным движением, вроде течения воды и клубящегося дыма, и основан на Эйлеровом описании движения.

Алгоритм использует метод image-to-image преобразований, и обучен на видео с изменениями среды. Новизна подхода в том, что видео зацикливается путем смешивания результатов перемещения точек вперед и назад во времени. Код, к сожалению, пока недоступен.

Изображение статьи

Удаление объектов с изображений

Появился новый открытый инструмент, который удаляет с фотографий нежелательные объекты и генерирует заполненные области. Авторы предлагают новый подход контекстного восстановления для сверточных нейронных сетей, который следит за соотношением расстояний между участками изображений. Помимо исходного кода авторы представили веб-версию, правда разворачивать ее придется самостоятельно.

Изображение статьи

Сhimera Painter

Google представил GAN-модель, напоминающую GauGAN от Nvidia. Она предназначена облегчить художникам рутинную работу по созданию ассетов для видеоигр. Создатели добавили веб-интерфейс с простым графическим редактором, в котором можно потренироваться в рисовании фантастических тварей.

Objectron от Mediapipe

Mediapipe выложили набор моделей и большой датасет для распознавания трехмерных объектов в режиме реального времени. Инструменты оптимизированы для работы на мобильных устройствах и уже обучены определять обувь, стулья, кружки и фотоаппараты.

Hum to search

Всем знакомо ощущение, когда в голове застряла песня, но не знаешь ни названия, ни слов, чтобы ее найти. Google представили новый сервис на основе нейросети, который поможет найти трек по напеву. В блоге компании подробно описан принцип работы модели и подход к ее обучению.

На этом все, спасибо за внимание и до встречи в новом году!

228
5

Другие статьи

Ко всем статьям
Фоновое изображение: четверть круга закрыват часть круга

Интересные статьи и кейсы
от Work Solutions

Нажимая кнопку «Подписаться», я даю согласие на обработку персональных данных

Спасибо за подписку!

Фоновое изображение: верхний полукруг