AI-Звук. Танцы с бубном

Миша Войнов
2/19/2024
Нравится? Поддержите нас!
Будем рады вашим донатам на любую сумму
Миша Войнов
Композитор, инженер, продюсер, и преподаватель

Недавно в рамках формата «открытые встречи Пражской медиашколы» к нам приходил наш давний друг Миша Бредихин и рассказывал о том, что происходит с AI в области музыки прямо сейчас. С разрешения Миши делимся этими знаниями с вами:

Модели AI в области аудио развиты гораздо хуже, чем языковые и диффузионные. Даже MusicLM, еще не выпущенная Google в открытый доступ, — и та, судя по всему, генерирует довольно неубедительно. 

Нейросети работают с музыкой, преобразуя ее в спектрограммы, что позволяет им анализировать звуковую информацию как изображение. Поскольку среднестатистическая композиция длится несколько минут, легко представить, какого размера получаются изображения (очень большого) — места на серверах тренировочным датасетам нужно гораздо больше. Чтобы хоть что-то получить, приходится жертвовать качеством, снижая разрешение исходных данных. 

Ситуацию осложняет и то, что нейросеть не всегда может полностью понять, что она слышит, — требуется разметка, с которой может помочь только человек. В отличие от картинок, где можно задать стиль автора, генерация музыки требует конкретных данных о гармоническом контенте и источниках звука. 

Генераторы музыки, продаваемые как нейросетевые, на самом деле не являются таковыми, подгружая в себя тонны библиотек и обращаясь к ним по старинке напрямую, а не через латентное пространство.

Музыка

Например, SoundDraw использует предварительно записанные фрагменты, которые комбинируются по алгоритму. Можно выбирать стиль, структуру, длительность, насыщенность, темп и инструменты. Позволяет создавать треки для использования в видеороликах или песнях, но требует подписки для доступа к функции «сохранить». Хотя можно использовать метод записи прямо из собственной звуковой карты. 

SunoAI — сервис для создания песен из текста, превращающий любые слова в музыкальные композиции с помощью AI, который отлично подойдет для генерации треков в конкретных стилях: pop, rock, soul R&B и проч. 

Или Output AI — их Coproducer очень удобно использовать для работы над треками: с помощью промптов на естественном языке от него можно получать сэмплы и лупы из Output AI и их флагманской библиотеки Arcade. Но имейте в виду, что Coproducer это скорее «хороший поисковик», а не как полноценный AI-генератор.

Шум

Начальным применением AI в аудио стало удаление шума из звуковых записей. Так, например, Spectralayers (Steinberg) эффективно отделяет голос от шума. Раньше алгоритмы оставляли часть голоса в шумах, но теперь Spectralayers может сделать это намного точнее. Плюс — возможность вырезать голос из музыки для ремиксов и разложить несколько голосов на отдельные дорожки.

Автор сказал мяу

Если нейросети могут различать инструменты, шум и голоса, то могут и быстро найти любые заимствования. Например, с помощью нейросетей недавно удалось найти сэмплы, использованные в треках группы Daft Punk. Это открывает перед нами невероятные возможности для отслеживания нарушений авторских прав и скорее всего, потребует новых методов регулирования. 

Клонирование голоса 

Еще один прорыв  — генерации голоса. С помощью нейросетей можно скопировать интонацию и голос известных музыкантов, артистов и киноперсонажей. Это происходит путем обучения модели на их голосах и использования скриптов на Python — технология называется «клонирование голоса» (Voice Cloning).

Представьте себе: Винни-Пух, поющий песню System of a Down.

И «Прекрасное далеко» в исполнении Егора Летова.

Процесс генерации голоса требует большого количества времени и GPU и локально может быть запущен пока только на Windows. Отличные копии голосов, например, генерирует SO-VITs, которая была создана по аналогии с программой Vocaloid, позволяющей петь анимированным персонажам. Модель тренируется на объеме буквально в 500 слов и имеет множество настроек, которые можно менять в зависимости от материала.

Применение этой технологии в киноиндустрии позволит создавать живую, интонационно богатую речь из базы актерских голосов. Но может пригодиться и для создания цифровых ассистентов, озвучивания текста и других аудио-проектов. 

Конечно же, стоит упомянуть, что уже сотни платных сервисов предлагают начитывать тексты голосами известных персонажей и личностей, таких как Морган Фриман, Трамп или Обама, но самый веселый источник для тестов новых разработок, скорее всего, знакомый вам «дом моделей», он же — платформа трансформеров, Hugging Face.

Кастомные решения 

Любопытнее всего собирать самим и тестировать чужие мультимодальные решения — в звуке это, в основном, комбинации голосовых и музыкальных моделей, но бывает и с диффузионными — с широкими возможностями применения в искусстве, хотя больше известны по фиче анимировать движение рта под запись речи. Один из лидеров здесь — Vocaloid от Yamaha, но и у Dreamtonics получается очень реалистично. 

Пожалуй, для успешного взаимодействия с аудиомоделями необходимо музыкальное образование, Python и любопытство. Но похоже, скоро можно обходиться и без первых двух, потому что пока одни обучают модели, другие помогут поучиться у моделей музыке.

Нет инструментов, способных создать музыку с нуля, и если вы хотите контролировать речь, вам придется самостоятельно озвучивать текст и присваивать ему характеристики, потому что синтезаторы не понимают контекст. Тренировка модели позволит сделать больше, но и у нее есть ограничения. Чтобы успешно работать с аудио, все еще никак не обойтись без понимания базовых метафор музыки.

ЧТО (СЕЙЧАС) НЕ РАБОТАЕТ?

Текущие ограничения и будущее развития нейросетей в обработке звука:

  • Понимание контекста и интонаций: хотя нейросети и хорошо справляются с распознаванием речи, полное понимание контекста и нюансов естественного языка остается сложной задачей.
  • Распознавание и интерпретация иронии, сарказма и других тонких аспектов речи.
  • Эмуляция человеческих эмоций в синтезированной речи: создание натурально звучащего, эмоционально выразительного синтезированного голоса все еще проблема в процессе решения.
  • Realtime render: некоторые виды обработки звука в условиях реального времени требуют значительных вычислительных ресурсов.
  • Автоматическое создание сложной музыки: нейросети пока не могут создавать музыкальные произведения, сравнимые по качеству и сложности с созданными опытными композиторами.

Отрасли, где все вот-вот изменится:

  • Анимация: использование AI для создания уникальных голосов персонажей, основанных на текстовых промптах — описаниях их характеристик.
  • Образование: музыкальные обучающие курсы, в которых AI используется для генерации музыкальных примеров и упражнений различной сложности.
  • Виртуальные DJ-сеты: разработка AI-систем, которая может создавать и воспроизводить музыкальные сеты в реальном времени на основе данных об аудитории.
  • Звонки и конференции: расширения для фильтрации фонового шума и улучшения четкости речи в реальном времени.
  • Видеоигры и кино: автоматическое создание звуковых эффектов, приложения, которые могут генерировать и адаптировать звуковые эффекты в зависимости от сценария игры или фильма.

А вот тут можно посмотреть встречу с Мишей целиком:

Подпишитесь на наш канал в Telegram!
И узнавайте первыми о новых курсах и стипендиях

Рекомендуемые курсы

Ричард Саттон. Горький урок

В этом эссе автор объясняет, почему методы, основанные на вычислениях, намного эффективнее подходов, использующих человеческие знания. Через примеры из истории AI он показывает, как интуитивные подходы тормозят прогресс, тогда как мощные вычисления открывают путь к прорывам. Это вдохновляющее чтение для тех, кто задумывается о будущем искусственного интеллекта.

29/10/2024

Алексей Навальный во вселенной Рика и Морти: Евгений Никитин о работе над персонажами

Алексей Навальный во вселенной Рика и Морти: Евгений Никитин о работе над персонажами

1/4/2024

Как AI-революция изменила кодинг, и почему это хорошая новость для гуманитариев

Майя Гусева и Илья Сагайдак о том, как знание основ синтаксиса Python и умение общаться с ChatGPT навсегда изменят жизнь гуманитариев и прочих НЕпрограммистов.

25/3/2024
AI-Коллега
Искусственный интеллект - больше не стажер, который занимает ваше время и вызывает тревогу за будущее, а надежный коллега, с которым всегда есть что обсудить и можно в разведку.
Узнать больше
Разгадать код (живой онлайн курс)
Долой унылый UX и попытки подстроиться под чужой софт. Этот курс поможет вам начать использовать код в вашей работе и творчестве без предыдущего опыта в программировании. С помощью LLM, и особенно GPT-4, под руководством опытных тренеров, вы научитесь искать, читать, писать и править код. А это - новые возможности. Для профессионального роста, контроля над своими процессами, и даже для создания собственного технологического продукта и успеха.
Узнать больше
AI VideoLab. Нейросети для создания видео
Курс в синхронном онлайн-формате для всех, кто хочет научиться создавать видеоконтент нового поколения, который завоевывает внимание соцсетей и завораживает зрителей в кино.
Узнать больше