машинное обучение01 июня 2020

Подборка статей о машинном обучении: кейсы, гайды и исследования за май 2020

Артем СалютинРуководитель проектов

Продолжаем собирать для вас самые интересные новости и инструменты из области машинного обучения, написанные на доступном языке.

Jukebox

В начале месяца OpenAI вызвали большой интерес в ML-сообществе, выложив исходный код своего проекта под названием Jukebox. Этот инструмент с помощью алгоритмов машинного обучения позволяет генерировать композиции популярных исполнителей. В сети уже можно найти примеры треков, сгенерированных пользователями, встречаются очень необычные комбинации.

AR Copy paste

Французский разработчик Cyril Diagne представил AR-приложение, которое фотографирует предметы, удаляет со снимков весь ненужный фон и (с помощью U^2-Net) передает результат в программы, запущенные на компьютере. Например, автор показывает, как с помощью приложения можно быстро подобрать и добавить иллюстрации в презентацию. Уже можно посмотреть код и записаться для получения раннего доступа к приложению, которое сейчас находится в разработке.

Pose Animator

Опенсорсный инструмент для веб-анимаций, с которым можно оживить персонажей, нарисованных в SVG. Инструмент основан на двух других библиотеках Facemesh и PoseNet, которые используют веб-камеру для захвата движений. В статье показано, как создавался инструмент, и демонстрируются способы его применения.

Galaxy Zoo

Кейс о том, как можно успешно объединить краудсорсинг и машинное обучение для быстрой обработки сложной информации. Платформа Galaxy Zoo объединила эти два подхода для изучения эволюции галактик путем классификации миллионов изображений. В материале рассказывается, как помечать только те данные, которые лучше всего помогут усовершенствовать существующую модель.

DistilBERT

Стартап Hugging Face делится своим опытом создания публичного API с помощью которого можно оптимизировать производительность NLP моделей на Node.js.

Clinical Trial Parser

Для большинства клинических исследований не удается набрать достаточное количество участников. Связано это с тем, что люди без мед. образования не всегда понимают критерии отбора и детали проведения исследований. Facebook представили опенсорсный инструмент, который призван решить эту проблему.

GrokNet

Facebook анонсировали универсальную систему компьютерного зрения, предназначенную для ecommerce. Она способна идентифицировать атрибуты товаров в разных категориях, от авто до домашнего декора. В статье рассказано, как происходило обучение модели на семи датасетах, и с какими трудностями пришлось столкнуться. Также в серии видеороликов показано, как эта модель поможет платформе изменить онлайн-торговлю.

S2IGAN

Кажется мы обещали не включать в подборку материалы, которые содержат ссылки на пустые репозитории, но хочется сделать исключение. S2IGAN — фреймворк, который переводит речь в изображения. С помощью двойного кодировщика создана модель, которая генерирует изображения по голосовому описанию. Авторы исследования обещают скоро выложить код, а пока приходится довольствоваться примерами сгенерированных птиц.

Consistent Video Depth Estimation

Представлен алгоритм, который с помощью сверточной нейронной сети определяет глубину отдельных кадров и восстанавливает геометрически согласованную глубину для всего видео. Это помогает справится с рядом ограничений, например, когда изображение нестабильно из-за тряски. Применять подобную технологию можно в различных сферах, для AR-эффектов или автопилотируемых автомобилей. Репозиторий пока пуст, но авторы обещают поделиться исходным кодом.

На этом все, спасибо за внимание!