Недавно в рамках формата «открытые встречи Пражской медиашколы» к нам приходил наш давний друг Миша Бредихин и рассказывал о том, что происходит с AI в области музыки прямо сейчас. С разрешения Миши делимся этими знаниями с вами:
Модели AI в области аудио развиты гораздо хуже, чем языковые и диффузионные. Даже MusicLM, еще не выпущенная Google в открытый доступ, — и та, судя по всему, генерирует довольно неубедительно.
Нейросети работают с музыкой, преобразуя ее в спектрограммы, что позволяет им анализировать звуковую информацию как изображение. Поскольку среднестатистическая композиция длится несколько минут, легко представить, какого размера получаются изображения (очень большого) — места на серверах тренировочным датасетам нужно гораздо больше. Чтобы хоть что-то получить, приходится жертвовать качеством, снижая разрешение исходных данных.
Ситуацию осложняет и то, что нейросеть не всегда может полностью понять, что она слышит, — требуется разметка, с которой может помочь только человек. В отличие от картинок, где можно задать стиль автора, генерация музыки требует конкретных данных о гармоническом контенте и источниках звука.
Генераторы музыки, продаваемые как нейросетевые, на самом деле не являются таковыми, подгружая в себя тонны библиотек и обращаясь к ним по старинке напрямую, а не через латентное пространство.
Например, SoundDraw использует предварительно записанные фрагменты, которые комбинируются по алгоритму. Можно выбирать стиль, структуру, длительность, насыщенность, темп и инструменты. Позволяет создавать треки для использования в видеороликах или песнях, но требует подписки для доступа к функции «сохранить». Хотя можно использовать метод записи прямо из собственной звуковой карты.
SunoAI — сервис для создания песен из текста, превращающий любые слова в музыкальные композиции с помощью AI, который отлично подойдет для генерации треков в конкретных стилях: pop, rock, soul R&B и проч.
Или Output AI — их Coproducer очень удобно использовать для работы над треками: с помощью промптов на естественном языке от него можно получать сэмплы и лупы из Output AI и их флагманской библиотеки Arcade. Но имейте в виду, что Coproducer это скорее «хороший поисковик», а не как полноценный AI-генератор.
Начальным применением AI в аудио стало удаление шума из звуковых записей. Так, например, Spectralayers (Steinberg) эффективно отделяет голос от шума. Раньше алгоритмы оставляли часть голоса в шумах, но теперь Spectralayers может сделать это намного точнее. Плюс — возможность вырезать голос из музыки для ремиксов и разложить несколько голосов на отдельные дорожки.
Если нейросети могут различать инструменты, шум и голоса, то могут и быстро найти любые заимствования. Например, с помощью нейросетей недавно удалось найти сэмплы, использованные в треках группы Daft Punk. Это открывает перед нами невероятные возможности для отслеживания нарушений авторских прав и скорее всего, потребует новых методов регулирования.
Еще один прорыв — генерации голоса. С помощью нейросетей можно скопировать интонацию и голос известных музыкантов, артистов и киноперсонажей. Это происходит путем обучения модели на их голосах и использования скриптов на Python — технология называется «клонирование голоса» (Voice Cloning).
Представьте себе: Винни-Пух, поющий песню System of a Down.
И «Прекрасное далеко» в исполнении Егора Летова.
Процесс генерации голоса требует большого количества времени и GPU и локально может быть запущен пока только на Windows. Отличные копии голосов, например, генерирует SO-VITs, которая была создана по аналогии с программой Vocaloid, позволяющей петь анимированным персонажам. Модель тренируется на объеме буквально в 500 слов и имеет множество настроек, которые можно менять в зависимости от материала.
Применение этой технологии в киноиндустрии позволит создавать живую, интонационно богатую речь из базы актерских голосов. Но может пригодиться и для создания цифровых ассистентов, озвучивания текста и других аудио-проектов.
Конечно же, стоит упомянуть, что уже сотни платных сервисов предлагают начитывать тексты голосами известных персонажей и личностей, таких как Морган Фриман, Трамп или Обама, но самый веселый источник для тестов новых разработок, скорее всего, знакомый вам «дом моделей», он же — платформа трансформеров, Hugging Face.
Любопытнее всего собирать самим и тестировать чужие мультимодальные решения — в звуке это, в основном, комбинации голосовых и музыкальных моделей, но бывает и с диффузионными — с широкими возможностями применения в искусстве, хотя больше известны по фиче анимировать движение рта под запись речи. Один из лидеров здесь — Vocaloid от Yamaha, но и у Dreamtonics получается очень реалистично.
Пожалуй, для успешного взаимодействия с аудиомоделями необходимо музыкальное образование, Python и любопытство. Но похоже, скоро можно обходиться и без первых двух, потому что пока одни обучают модели, другие помогут поучиться у моделей музыке.
Нет инструментов, способных создать музыку с нуля, и если вы хотите контролировать речь, вам придется самостоятельно озвучивать текст и присваивать ему характеристики, потому что синтезаторы не понимают контекст. Тренировка модели позволит сделать больше, но и у нее есть ограничения. Чтобы успешно работать с аудио, все еще никак не обойтись без понимания базовых метафор музыки.
А вот тут можно посмотреть встречу с Мишей целиком:
В этом эссе автор объясняет, почему методы, основанные на вычислениях, намного эффективнее подходов, использующих человеческие знания. Через примеры из истории AI он показывает, как интуитивные подходы тормозят прогресс, тогда как мощные вычисления открывают путь к прорывам. Это вдохновляющее чтение для тех, кто задумывается о будущем искусственного интеллекта.