Сегодня ночью команда stability.ai анонсировала выход Stable Diffusion 2.0 Будет крупно, четко, быстро и глубоко:
▪️Выше разрешение генерируемых изображений (по дефолту 512px, но можно подняться до 718px).
▪️Возможность upscale (увеличения размера/разрешения) в 4 раза. В статье приводят пример с щенком леопарда, который из 128px превращается в 512 — выглядит круто. Все это повлияет на скорость производства, что особенно важно для работы с анимацией и видео.
▪️Пожалуй самое впечатляющее, особенно для тех, кого интересует моушен — из коробки второй версии теперь можно направлять видео, что дает больше возможностей рендерить задуманное и отчасти решает проблему consistency.
Определять глубину в видео и направлять ею генерацию img-to-text / или уже готовые изображения, не вчера появился — (см. First Order Motion Model, 2019 год ), недавно его довел до блеска Алекс Спирин в своем авторском коллабе warpfusion.
Апскейлеры тоже есть хорошие. Но так, чтобы это все было внутри одной коробочки и не нужно было метаться между инструментами — это новости.
До выходных обещают выкатить все на GitHub и в вэб-версию на Dream Studio. А завтра в 17:30 GMT в дискорде будет презентация в формате Q&A (инвайт).
P.S. А, чуть не забыли, inpainting же еще. Он уже на Hugging face —можно брать и играть, если в DALL-E не наигрались😅
В этом эссе автор объясняет, почему методы, основанные на вычислениях, намного эффективнее подходов, использующих человеческие знания. Через примеры из истории AI он показывает, как интуитивные подходы тормозят прогресс, тогда как мощные вычисления открывают путь к прорывам. Это вдохновляющее чтение для тех, кто задумывается о будущем искусственного интеллекта.