Новый язык программирования от Open AI, рост популярности диффузионных моделей, чат-бот с памятью не как у золотой рыбки — об этом и многом другом в июльском выпуске.
Triton
Доступность: публикация в блоге / репозиторий / документация
OpenAI представила Triton — Python-подобный язык программирования с открытым исходным кодом, который позволяет писать высокоэффективный код для обработки широкого спектра операций с матрицами, задействованными в нейронных сетях.
Например, Triton позволяет достичь максимальной производительности оборудования, и чтобы написать ядра матричного умножения FP16, которые соответствуют производительности cuBLAS, потребуется меньше 25 строк кода. Благодаря технологии работать с GPU станет проще: его компилятор упрощает код и автоматически оптимизирует его так, что не понадобится писать на CUDA.
SR3
Доступность: страница проекта / статья / публикация в блоге
Впервые представленные еще в 2015 году, диффузионные модели вновь стали вызывать активный интерес среди исследователей, в частности после того, как Open AI продемонстрировали, что эти модели лучше SOTA GAN справляются с генерацией высококачественных изображений.
Работают диффузионные модели следующим образом — сначала искажают обучающие данные, постепенно добавляя гауссовский шум, медленно стирая детали, пока данные не превратятся в чистый шум, а затем нейронная сеть обучается, чтобы обратить этот процесс искажения вспять. При обратном искажении данные синтезируются из чистого шума путем постепенного снижения шума до тех пор, пока не будет получен чистый образец.
Теперь исследователи из Google представили SR3, подход на основе диффузионной модели для сверхвысокого разрешения изображений посредством многократного уточнения. SR3 адаптирует вероятностные модели шумоподавления к генерации условного изображения и улучшает разрешение посредством процесса стохастического шумоподавления. Результаты впечатляют — изображения с разрешением 64x64 апскейлятся до 1024x1024.
Real-ESRGAN
Доступность: статья / репозиторий / colab
В отличие от предыдущего примера, здесь для восстановления изображений низкого разрешения с неизвестными артефактами используется привычная генеративно-состязательная сеть. Исследователи доработали популярную модель ESRGAN и обучили ее на синтетических тренировочных парах, для которых разработали способ деградации данных, максимально приближенный к условиям реального мира.
DiSECt
Доступность: страница проекта / статья / публикация в блоге
Роботизированная резка мягких материалов востребована в разных сферах, от пищевой промышленности до хирургии. Как и в других областях робототехники, симуляторы облегчают проверку контроллера и создание датасетов. DiSECt — первый дифференцируемый симулятор резки мягких материалов. С помощью различных экспериментов исследователи демонстрируют производительность симулятора и показывают, что его можно тонко откалибровать для согласования результирующих сил и полей деформации.
Blender Bot 2.0
Доступность: публикация в блоге / статья / репозиторий
Современные языковые модели, такие как GPT-3, способны генерировать реалистичный текст, но не умеют долго удерживать контекст разговора, потому что их память коротка и статична, т.е. ограничена тем, чему ранее была обучена модель, и не способна получать дополнительные знания.
Исследователи из FAIR опубликовали исходный код чат-бота, который накапливает долговременную память, а также умеет искать информацию в интернете, чтобы поддерживать диалог на любую тему и запоминать контекст последовательных вопросов.
DeepFaceLive
Доступность: репозиторий
Автор популярного решения для создания дипфейков опубликовал программу, которая заменяет лицо на чужое в режиме реального времени. То есть, ее можно применять во время стримов и видеозвонков. У программы есть графический интерфейс с разными настройками — можно, например, выбирать модель для детекции лица или перераспределить часть задач с GPU на CPU. Чтобы добавить лицо конкретной знаменитости, нужно обучить модель с помощью DeepFaceLab, экспортировать ее в нужном формате.
YOLOX
Доступны: статья / репозиторий
Новый высокоэффективный детектор YOLOX, создан на базе семейства классификаторов YOLO. В нем не используются якоря, отделена головка, а также задействована передовая стратегия присвоения меток SimOTA. Благодаря этим изменениям модель демонстрирует превосходные показатели.
В июле стали доступны:
- исходный код модели AlphaFold с подробным описанием архитектуры и всех нюансов реализации пайплайна с примерами. Подробно об AlphaFold рассказывали в ноябре прошлого года.
На этом все, спасибо за внимание и до встречи в следующем месяце!