Анонсирована Stable Diffusion 3.0 — ИИ для рисования сменил архитектуру и научился писать

23.02.2024, 08:06,
Интересное

Компания Stability AI выпустила предварительную версию Stable Diffusion 3.0 — флагманской модели искусственного интеллекта следующего поколения для генерации изображений по текстовому описанию. Stable Diffusion 3.0 будет доступна в разных версиях на базе нейросетей размером от 800 млн до 8 млрд параметров.

Источник изображений: Stable Diffusion 3.0

В течение последнего года компания Stability AI постоянно совершенствовала и выпускала несколько нейросетей, каждая из которых показывала растущий уровень сложности и качества. Выпуск SDXL в июле значительно улучшил базовую модель Stable Diffusion, и теперь компания собирается пойти значительно дальше.
Новая модель Stable Diffusion 3.0 призвана обеспечить улучшенное качество изображения и лучшую производительность при создании изображений из сложных подсказок. Новая нейросеть обеспечит значительно лучшую типографику, чем предыдущие версии Stable Diffusion, обеспечивая более точное написание текста внутри сгенерированных изображений. В прошлом типографика была слабой стороной Stable Diffusion, собственно, как и многих других ИИ-художников.

Stable Diffusion 3.0 — это не просто новая версия модели прежней Stability AI, ведь она основана на новой архитектуре. «Stable Diffusion 3 – это диффузионная модель-трансформер, архитектура нового типа, которая аналогична той, что используется в представленной недавно модели OpenAI Sora, — рассказал VentureBeat Эмад Мостак (Emad Mostaque), генеральный директор Stability AI. — Это настоящий преемник оригинальной Stable Diffusion».

Stability AI экспериментирует с несколькими типами подходов к созданию изображений. Ранее в этом месяце компания выпустила предварительную версию Stable Cascade, которая использует архитектуру W?rstchen для повышения производительности и точности. Stable Diffusion 3.0 использует другой подход, используя диффузионные модели-трансформеры. «Раньше у Stable Diffusion не было трансформера», — сказал Мостак.
Трансформеры лежат в основе большей части современных нейросетей, запустивших революцию в области искусственного интеллекта. Они широко используются в качестве основы моделей генерации текста. Генерация изображений в основном находилась в сфере диффузионных моделей. В исследовательской работе, в которой подробно описываются диффузионные трансформеры (DiT), объясняется, что это новая архитектура для диффузионных моделей, которая заменяет широко используемую магистраль U-Net трансформером, работающим на скрытых участках изображения. Применение DiT позволяет более эффективно использовать вычислительные мощности и превосходить другие подходы к диффузной генерации изображений.
Еще одна важная инновация, которой пользуется Stable Diffusion 3.0 — это согласование потоков. В исследовательской работе по сопоставлению потоков объясняется, что это новый метод обучения нейросетей с помощью «непрерывных нормализующих потоков» (Conditional Flow Matching — CNF) для моделирования сложных распределений данных. По мнению исследователей, использование CFM с оптимальными путями транспортировки приводит к более быстрому обучению, более эффективному отбору образцов и повышению производительности по сравнению с диффузионными путями.

Улучшенная типографика в Stable Diffusion 3.0 является результатом нескольких улучшений, которые Stability AI встроил в новую модель. Как пояснил Мостак, качественная генерация текстов на изображения стала возможной благодаря использованию диффузионной модели-трансформера и дополнительных кодировщиков текста. С помощью Stable Diffusion 3.0 стало возможным генерировать на изображениях полные предложения со связным стилем написания текста.
Хотя Stable Diffusion 3.0 изначально демонстрируется как технология искусственного интеллекта для преобразования текста в изображение, она станет основой для гораздо большего. В последние месяцы Stability AI также создаст нейросети для создания 3D-изображений и видео.
«Мы создаем открытые модели, которые можно использовать где угодно и адаптировать к любым потребностям, — сказал Мостак. — Это серия моделей разных размеров, которая послужит основой для разработки наших визуальных моделей следующего поколения, включая видео, 3D и многое другое».#!MARKER#!
Источник:
3DNews

рейтинг:

+271

» Shutterstock запустил ИИ-инструмент для генерации изображений по текстовому описанию

» Художницы подали в суд на разработчиков ИИ-генераторов изображений

» Adobe Stock начинает продавать сгенерированные ИИ стоковые изображения

Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.

Читаемое
Комментируемое

Белая Русь

18:06
57 365
0

Днепр

18:06
48 851
0

Список дворян Могилёвской губернии

18:06
48 810
0

Могилев. В годы Великой Отечественной войны.

18:06
47 568
0

Сверхпроводимость материала LK-99 при комнатной температуре всё же возможна, показало новое исследование

07:05
45 416
0

В Вороновском районе двухлетняя девочка упала в пруд — ребенок находится в реанимации

16:29
470
0

В Брестской области из-за непогоды упало более 20 деревьев — спасатели устраняли последствия

17:33
358
0

Руководитель разработки Gothic Remake рассказал об отличиях ремейка от оригинальной «Готики»

17:50
324
0

DeepSeek снизила на 75 % цены за доступ к ИИ-модели DeepSeek-V4-Pro

16:57
280
0

«Вы слишком хороши для нас»: почему опыт и навыки мешают найти работу и как избежать этого проклятия

14:07
480
0

Widget weather

Новости

Анонсирована Stable Diffusion 3.0 — ИИ для рисования сменил архитектуру и научился писать

Белая Русь

Днепр

Список дворян Могилёвской губернии

Могилев. В годы Великой Отечественной войны.

Сверхпроводимость материала LK-99 при комнатной температуре всё же возможна, показало новое исследование

В Вороновском районе двухлетняя девочка упала в пруд — ребенок находится в реанимации

В Брестской области из-за непогоды упало более 20 деревьев — спасатели устраняли последствия

Руководитель разработки Gothic Remake рассказал об отличиях ремейка от оригинальной «Готики»

DeepSeek снизила на 75 % цены за доступ к ИИ-модели DeepSeek-V4-Pro

«Вы слишком хороши для нас»: почему опыт и навыки мешают найти работу и как избежать этого проклятия

Грядущее «супер-Эль-Ниньо» может необратимо изменить климат Земли

Медики о сборе на $1,8 миллиона для Ксюши: «Все деньги будут потрачены на этого ребенка»

Рост зарплат замедляется, а конкуренция растет. Что происходит на рынке труда прямо сейчас

Белорусы чудом спаслись от падающей сосны на трассе под Слуцком — видео (видео)

«Эйфория», «Шоу Трумана» на корпоративе и аудиохоррор. Что мы посмотрели сами и советуем вам

«Самый грандиозный и мрачный». Оцените трейлер третьего сезона «Дома Дракона»

Вратарь «Лиона» выронила мяч и организовала автогол года

В США создали необычный маркетплейс — в нем продают и покупают только ИИ-агенты

Борьба за полосу. Их не пускают, но им очень хочется (видео, обновлено)

«Деньги передавались через тайник в туалете». В Минске за взятки задержан коммунальщик

Соболенко в тяжелом матче победила Осаку и пробилась в 1/4 финала турнира в Мадриде

Наниматели будут чаще рассказывать налоговой о ваших доходах. Что еще изменится?

За пустующий (да еще и сгоревший) дом на аукционе боролся 21 человек. Зачем?

10 200 мАч за $300. Vivo представила смартфон Y600 Pro

Закрыл двери и поехал: водитель автобуса не заметил упавшую пассажирку. Пенсионерка погибла