DALL-E mini: О нет! Опять нейронки!

+56
в блоге Блог им. Lyx
Наконец-то у меня дошли лапки пощупать нейронку DALL-E mini. И результат оказался на удивление неплохим! В отличие от Сберовской ruDALL-E, из которой «выжать» нужную пони ещё постараться надо, здесь даже их простейшая демка с умолчальными параметрами распознаёт большинство поняшек G4 и строит их изображения. Потрясающе высокий показатель поняшности — видимо, в обучающей выборке оказалось много понячьего арта.

Где взять?

  • Готовая демка в виде сайта (вечно перегружен запросами, тыкаться лучше утром)
  • Репозиторий с кодом для запуска из командной строки
  • Код для развёртывания на сервере
  • Код для тех, у кого нет мощного GPU

Как пользоваться?

В простейшем случае (если используете демку) — ввести текст запроса, нажать "DRAW" и подождать завершения генерации. В отличие от ruDALL-E, запрос надо вводить на английском. Также нужно уточнять, что речь идёт именно о пони, ведь в обучающей выборке было 15 млн. изображений со всего Интернета.
Так, например, третье изображение Дэш с верхней картинки (там, где она с ошарашенным видом) было получено по запросу:

Shocked Rainbow Dash from MLP cartoon

Также можно попытаться описывать элементы окружения, позы и действия. Но всё — только на английском и как можно проще.

Результаты генерации

Распознаёт DALL-E mini не только пони, но и многих других персонажей из сериала. Даже эпизодических:
Gilda from MLP cartoon

Daybreaker from MLP cartoon

С более распространёнными поньками всё ещё проще, вот например
Кризалис

К сожалению, DALL-E mini, как и «большая» версия DALL-E, не может нормально создавать рисунки, содержащие несколько персонажей, особенно если полагается их взаимодействие. Попытки получить обнимашки Селестии с Твайлайт привели к тому, что сетка соединила этих двух понек весьма причудливыми способами:
Твайлестия

Тем не менее, результат показался забавным, и я решил сделать из Твай грифона, слив её с Гильдой.
Результат слияния

Далее произвёл драконизацию Твайлайт. Ну что сказать? Приличной дракоши из неё не вышло, хотя некоторые варианты смотрятся забавно.
Раз дракон
Два дракон

А вот киборг из Дэш вышел
ничего так

Это, повторюсь, без какой-либо настройки, просто использовал их демку. Сейчас качаю все варианты нейронки и буду потрошить код — потенциал у DALL-E mini явно неплохой, и будет интересно раскрыть его полностью, получив изображения пони более высокого качества, чем представленные здесь.

9 комментариев

А вот G5 в обучающей выборке похоже не было (или было ну очень мало). Например, Иззи сгенерировать так и не вышло. Запрос «Izzy Moonbow from My Little Pony New Generation G5»
выдаёт странное
Такие дела.

Конечно, это не значит, что Иззи с помощью этой сетки сгенерировать невозможно — просто одного запроса тут уже мало. Нужна затравка с примером.
Lyx
+2
А может, это истинное лицо Изи, потому что она коварный идинарог… ))
LunReaper
0
Полуселестия какая-то…
dementra369
0
А внутре у ней нейронка.
Roltonini
0
Дурилка картонная xD

«Краш! Килл! Дистрой! Свэг! Краш! Килл! Дистрой! Свэг!»
Motorbreath
+2
Итак, продолжаем. Код распотрошил и уже примерно понятно, на что эта моделька способна.
Для начала — Немного пони-джедаев
Твайка-джедайка
Это всего лишь скетчи, их можно улучшить и доработать как тюнингом запроса, так и работой с токенами.

Кто-то возмущался «картонной дурилке»? Ну вот вам тваечный дракон
без картона

Как видим, модель может использовать разные стили, причём один и тот же рисунок можно прорисовать в любой желаемой стилистике — от простых скетчей и
карандашных набросков
до 3D-арта. Кстати, плюш оно считает просто отдельным стилем «рисовки». Так что я сгенерировал чуток
плюшек Селестии
Эх, вот если бы оно ещё к каждой плюшке генерировало выкройки и инструкцию по изготовлению для тех, у кого кривые лапки, то цены бы такой нейронке не было :)

Ну и наконец переходим к главному. В прошлый раз у нас возникли трудности с генерированием Иззи, потому что соответствующего персонажа эта нейронка просто «не знает» — в обучающей выборке ничего такого не было.
В таких случаях генерацию начинают с общего набора ключевиков, насыпав всего побольше (копытное, пони, единорог, фиолетовая шерсть, в лесу, и т.д.). Получается, понятно,
абстрактная дичьзато такой запрос можно тюнить — как автоматически, градиентным спуском, так и вручную. Через несколько итераций выходит уже похоже
Ещё немного тюнинга

На этом пока всё.
Lyx
+1
Забава.
vorodor
0
Интересные результаты. Сейчас докачиваю веса Stable Diffusion и посмотрю, что он о поняшах думает.
NightPony
0
В чистом виде оно работало не так уж и хорошо…



Но стоило добавить немного ~стиля~...

NightPony
0
Хотя я считаю CLIP-подобные модели (к которым относится и комбайн на основе Stable Diffusion) тупиковой веткой развития генеративных сетей, однако чего у них не отнять, так это высокой скорости работы при относительно низкой ресурсоёмкости.
Stable Diffusion сама по себе не очень хороша для поней, т.к. слишком абстрактна. Она довольно успешно генерирует «пони вообще», но очень плохо настраивается на конкретного персонажа, если настраивать исключительно запросами. Составить запрос, чтобы получить нужную пони, удаётся далеко не всегда. Хотя кое-кого из пони с некоторой погрешностью сгенерировать
всё же можно




Также Stable Diffusion довольно легко тюнится под конкретного персонажа путём создания эмбеддингов (своеобразных «плагинов» к нейронке), но это требует времени и хорошего GPU.
Lyx
+2
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.
Скрыто Показать