Я поюзал нейросеть Сбера, которая генерирует картинки по описанию на русском языке, и вышло это...

+172
в блоге Не пони

Сбер создал первую в мире нейронную сеть ruDALL-E, которая способна создавать изображения на основе текстового описания на русском языке. Использовать ее можно для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна.

Кто не спрятался, я не виноват.


«Халф Лайф 3»

«Общественное Радио Табуна»

«Свадьба Миядзаки и Принцессы Селестии»

«Брони глазами нормисов»

«Президент России рожает кентавра»

«Дикий ФанФикшн»

«Игра в кальмара в России»

«OldBoy жует кота»

«Эчпочмак с начинкой из моих маленьких пони»

«Король и Шут, но Горшок еще живой»


Поизмываться над ИИ можно здесь. Дерзайте.

150 комментариев

«Техническая поддержка» пинает этот пост в Ленту!
Razya
+17
Примерно так же видит окружающий мир человек, который словил инсульт: образы узнаваемые, но отдельные элементы — полный бред.
Alex_Heil
+16
Сальвадор кажись перевернулся.
Xodok
+7
У нейросетки дезоморфиновый приход))
KerHarrad
+8
Игра в кальмаров определенная лучшая, в остальных даже сюрреалистичного попадания в тему нет.
S_Lunaris
+7
Использовать ее можно для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна.

Желал бы я увидеть того, кто додумается использовать ЭТО в качестве дизайна интерьера или архитектуры! Единственное, для чего такие арты сойдут — создание фильма ужасов. Рабочее название — «Судный день-2, или Как у Скайнета поехала крыша».
BurningBright
+8
У меня было только одно реально эстетичное и забавное попадание, которое почему-то породило что-то, напоминающее мне атмосферу киберпанка, по запросу «Однажды в мухосранске»
StaSyaN Изменён автором
+11
Выглядит неплохо, если на клешню хедкраба у человека не смотреть
LizaBo
+1
Да не норм
Funk
+5
Не, ну «брони глазами нормистов» и «дикий фанфикшн» очень даже))
Changel Изменён автором
+5
Спойлер
DNS
+5
Шо це таке?)
Razya
+4
Антропоморфная лошадь в платье
DNS
+7
Ну а что, недурно вышло))
Razya
+5
Больше напоминает антропоморфную летучую мышь в кимоно.
Alex_Heil
+7
Ой, мисснул еще одну, что делал
Групповушка Бетмена с толстыми русалками
Razya
+10
… видимо Бетмен потерялся в «складках местности…
Changel
+9
… в складках русалок О.о
makise_homura
+5
Утонул в русалках
xvc23847
+7
Думаю, что тут больше подойдёт название «группа сталкеров и пару плотей попали в аномалию карусель около деревни новичков».
Xodok
+10
Плюхи от Naked_Skull. Сделано руками, сделано с любовью

:')
Naked_Skull
+11
Любовь — страшна
Changel
+5
Half-Life 3 доставила. Мрачный пейзаж и оружие, представляющее собой гибрид грави-пушки и спорометателя.
DisTail
+7
Однажды...
Однажды в студёную зимнюю пору
Лошадка примёрзла пиписькой к забору

Navk
+4
Смотрю на нижний правый угол и гадаю: эта лошадка — Король Сомбра или Принцесса Платинум?!
Ведь их же мантия!..
Navk Изменён автором
+1
Страх и трепет у маяка во время бури
LittleLit
+12
Да это ж Сирота Кос из-за камня выглядывает!
Razya
+1
Шахматной доски не хватает.
Funk
+1
поэт ученик Синей Зебры!
Navk
+5
Даже стихи похоже написаны!
ShprotaNa
+6
«Игра в кальмара в России»

боди-хоррор какой-то.
synapse
+2
А потом на выставке современного искусства экспертизы будут задвигать целые лекции о том «что хотели сказать авторы данных картин».

Эта нейросеть может сделать хоть что-то нормальное?
Doctor_Den
+4
Страшно о_о как спать теперь«Лиса ест банан»

Vibrissa
+11
Китайское печенье с атомным взрывом
Funk
+4
Тут хоть понятно что это лиса. Я ради интереса вбил «суслик», так он выдал какое-то светло-коричневое меховое пятно, на котором не понять где лапы, где уши, где глаза.
Xodok
+4
хорошая лиса
Leeene
+4
Ооо, кто вернулся на табун, йей, с возвращением! :3
makise_homura
+1
Я посмотрел примеры с сайта. В основном они выглядят адекватно. Но описания там простенькие.
Я посмотрел описания в этой теме: они сложные.
Я решил что надо задать сети простую формулировку.
Я ошибся: там для демонстационных картинок явно выбраны лучшие.
Белая лошадь на лужайке
Roltonini
+9
Да это ж новый ОС. Грива из перьев, хитиновая пластина на груди, маска без отверстий и носочки))
Changel
+10
А ты что хотел? Даже человек с первого раза мысль обычно бредовую думает, а тут простая нейросеточка.
Niko_de_Andjelo
+4
По запросу «Лисица»
Dany
+11
Прищур такой подозрительный…
Goremika
+6
Кстати «врунишку» напоминает ))
Goremika
+3
Я бы сказал лисяка-подозревака
Roltonini
+4
конь
Roltonini
+8
Гибрид какой-то.
S_Lunaris
+5
Жуть
Changel
+3
Сочувствую этому «коню»…
makise_homura
+4
Старлайт Глиммер укоризненно смотрит на Акио.
BurningBright
+17
Пак картинок, получившихся при попытках в разных пропорциях комбинировать сов, пришельцев, космос, океан и различные цвета





Funk
+9
По качеству примерно как VQGAN+CLIP (возможно, чуть лучше), но жрёт гораздо больше ресурсов и сложно запустить на локальной машине из-за проблем с зависимостями.
Им на GitHub уже кинули пулл-реквест с фиксом, который ускоряет генерацию примерно в 10 раз. Также они обещают к Новому году выложить дистиллированную (уменьшенную) модельку. Тогда можно будет пробовать, а пока довольно сыро.
Lyx
+4
Страна Эквестрия, где живут пони. Но есть и злодеи как Кризалис и Тирек. Дискорд стал добрым. Эквестрией правит принцесса Селестия.
Goremika
+10
Что-то не похоже на то, что Дискорд стал добрым о_О
Changel
+7
Это же пони лайф на картинке! Такова вот доброта Дискорда =)
makise_homura
+7
Больше похоже на «пришельцы из Х-COM'а захватили Эквестрию и выбрали Дискорда президентом»
vorodor
+2
Или на пони лайф!
makise_homura
+1
Принцесса Селестия
Goremika
+9
Бедолага
Changel
+5
За-то рог какой!
Necto
+3
Ну да рог ещё какой. Теперь в названии «аликорн» действительно «корн» уместно))
Changel
+2
Какой-то гибрид Селестии с Кейденс =) Но зато может вот этим самым рогом, который длинный розовый =)
makise_homura
+4
Судя по расцветке, тут, скорее, Молестию в фарш провернули…
Razya
+2
Принцесса Варпестия уж скорее, вон мутаций сколько
nikman
+5
Это нечто совершенно гениальное.

З.Ы. А ещё становится понятно, куда делись принцессы в G5 — им стало чуточку нехорошо.
DisTail
+6
Баян Гордыня
Niko_de_Andjelo Изменён автором
+4
Драгомира
Вспылка

Иззи Лунодугая
Бесстыжая кобылка
ЛУЧШАЯ ПОНИ
Niko_de_Andjelo
+9
Ну это не интересно, у ИИ лучшая пони это ос. А ос, видимо, гибрид Кэйденс, Рэйнбоу и отчасти Эпплджек.
Goremika
+5
Зипп напоминает…
(И немного Фаерфлай?)
Melaar
+1
Игра в кальмара — как гибрид какого-то гуро и порнухи
Ну, дикий фанфикшн, например — да, попадание (впрочем, все остальные картинки тоже попадают =)
Занятно, как у этой нейросетки каждая буква превращается в «о».
makise_homura
+2
Ну, поехали.
Метаморфоза панк рокера

Поле жёлтых цветов

Русское поле экспериментов
ratrakks
+7
От поля жёлтых цветов Стругацкими повеяло.
Funk
+6
Но это чуть ли не единственное за весь пост, что было изображено так, что можно понять без описания:-)
BurningBright
+4
Только это поле и серая мгла на горизонте со странными фигурами выглядит пугающе. Я бы и шага в этом поле не ступил.
Funk
+2
А что там странного? Это просто здания разрушенные.
BurningBright
+1
А может это не здания, а что-то страшное, не принадлежащие миру смертных.

Может на том конце поля связь между мирами стирается являя запредельное?

Кажется я понял о чём будет мой следующей фанфик.
ratrakks
+3
А может это не здания, а что-то страшное, не принадлежащие миру смертных.
Кстати да, похожее примерно впечатление.
Пока не вглядываешься — вроде норм, но если обратить внимание, сразу в подсознании что-то стучится «что-то здесь не так!»
makise_homura
+2
Эффект зловещей долины) Он на половине этих генераций минимум
KerHarrad
+3
Кстати да, походу, так и есть
makise_homura
+2
*глядя на последнюю картинку* Кажется, эта нейросетка примерно под чем-то таким же, под чем Летов сочинял свои песни =)
makise_homura
+4
Я тоже поигрался. И выяснил следующее: чем больше синонимов и деталей в описании, тем лучше результат. Словосочетания генератор плохо понимает.
ВАЗ 2108
ВАЗ 2108 парковка
ВАЗ 2108, Лада Спутник, обочина автомобильной дороги, перспектива
ВАЗ 2108, Лада Спутник, трехдверный хэтчбек, лесная дорога, перспектива. Первая попытка.
ВАЗ 2108, Лада Спутник, трехдверный хэтчбек, лесная дорога, перспектива. Вторая попытка.
ВАЗ 2108, Лада Спутник, хэтчбек, купе, лес, дорога
Thunder_Sword
+9
это как будто теги на имаджборде
StaSyaN
+3
твайлайт спаркл, сумеречная искорка
твайлайт спаркл, сумеречная искорка, принцесса, аликорн (Илюстрация для клопфика с Луной и Твайлайт готова. ИИ шарит.)
Thunder_Sword Изменён автором
+9
Эк их вывернуло-то О.о
makise_homura
+3
Как бы это Далл-и не пришёл к выводу, после такого количества интересных запросов, что человеки нинужны.
Xodok
+5
комментарий скрыт
Выкладывать подобное вовсе не обязательно
Changel
+5
А вот интересно: как эта нейросеть обучается? Мы же обратной связи ей не даём, она не может знать, понравилось нам или нет, и, если нет, то что следует изменить.
BurningBright
+3
Да это чисто для фана сделано…
KerHarrad
+5
Она обучалась на связках «картинка — текстовое описание». Ей скормили 200 млн. таких подписанных картинок. Причём часть подписей была сделана автоматически, путём машинного перевода. Поэтому, к примеру, по запросу «большие сиськи» она генерирует изображения синиц (tits — синицы) и вообще страдает от глюков перевода.
Запросы пользователей на обучение этой сетки не влияют никак — она уже обучена и просто используется в качестве генератора без какой-либо обратной связи.
Lyx Изменён автором
+4
Видимо, нет.
Funk
+2
Дюфо, Даймонд Тиара, встреча, раскаяние, страдания, прощение, обнимашки.
BurningBright
+4
Терзаю «нейронку» на предмет принцессы Луны и получаю вот что:
1

2

3
Alex_Heil
+6
Последний раз попытался и после этого махнул на это дело.

4
Alex_Heil
+3
Честно сказать… это какой то парад абстракционизма

Причем… художник явно пьян
Voinfed
+5
Он не пьян. Он переживает амфетаминовые отходняки будучи под ЛСД.
Funk
+7
Очередная сова сделанная по тегам с примесью Гигера и Бексинского
Funk
+7
Ну это мощная «Сова»))
Changel
+4
Да. Злой дух Чёрного Вигвама.
Funk
+2
От такой совы кукушка в панике забилася в дупло)
QTH-Equus
+3
Зато теперь понятно, как создавались "Совы Нежные".
Lyx
+4
в титрах город Амстердам)))))) Ну в принципе… Слабенько))))
Из относительно похожего по духу (Относительно!) есть аниматор Кол Белов Береги мозг
QTH-Equus Изменён автором
+2
Простите, но
Спойлер
Shuxer Изменён автором
+4
Ещё одна любопытная картинка по тем же тегам
Funk
+5
По запросу «поняшка», где-то на седьмой раз выдал что-то более менее нормальное. Понять бы что за кьютимарка у неё.
Xodok
+7
На десятый раз.
Xodok
+8
Як)
Changel
+5
Коктейльный бокал?
Changel
+5
Скорее не коктейльный, а для мороженого. Там как раз красная горочка похоже на мороженое, а фиолетовая палочка, на ложку.
Xodok
+5
И почему-то на чёрном фоне, он рисует лучше чем на белом.
чёрный фон

белый фон
Xodok
+3
Зато на чёрном фоне дарка больше
Changel
+3
Первая картинка из тех, что с белым фоном — просто идеальная на аватарку (если бы они работали, ага)
makise_homura Изменён автором
+3
Брат-броняш, а что такое аватарка?))))
QTH-Equus
+4
Говорят, когда-то здесь были такие картинки, которые можно было поставить в настройках профиля. Но это было давно и не правда.
Funk
+6
Это все хитрая дезинформация злобных зебр! И вообще! Читайте только издания, одобренные Министерством Стиля!
QTH-Equus
+4
Зебрам дали слишком много прав.
Funk
+4
Жизни эебров важны!
KerHarrad
+3
Леди Димитреску
Sliver
+7
Что? Попадание в образ — 100%?))
Changel
+5
По-моему, это вин.
Razya
+2
Дискорд правит Хаосом
QTH-Equus
+5
Ух чёрт, узнаю интерфейс Дискорда (который приложение для общения)
Necto
+2
Дайте и я чтоль тесты кину…
Я пытался скрестить Императора Человечества и Сансет Шиммер (sure, why not?)
И подружить Горо Маджиму с Пинки Пай

Поняв, что в этом заведении не смешивают и не взбалтывают, я решил сделать СМС-ок


Подружить Рэйнбоу Дэш с современной русской культурой

Устроить ♂гачи-бойню♂ между Билли и Вэном!

В целом, как и любые нейросетки — развлечение на один раз, учитывая порой невнятность результатов. Но некоторые варианты прям удивили, а некоторые даже на компе оставлю, как неплохие арты.
Danil_Otritsevski
+6
Просто для получения вменяемых результатов необходимо иметь возможность запускать нейронки самостоятельно, а не на сервере у дяди, где картинка делается 15 минут и нет возможности влиять на процесс. Даже банальный черри-пикинг позволяет получать приличные картинки. Наскоро генерируем порядка 500 картинок в черновом качестве выбираем 3-4 лучших, досчитываем.
Lyx Изменён автором
+5
Экая Эмбер
Funk
+3
А ты поэт-битник?
Спойлер
Motorbreath
+3
Я не битник. Но я поэт.
Funk
+3
Motorbreath
0
Да, эффектная ящерица
Из всех драконов MLP на ней проще всего тренировать нейронку из-за обилия сольного арта. Изображений Спайка хоть и больше, но он почти везде изображён с кем-то.
Lyx
+3
А на генерацию грифонов можешь натренеровать?
Funk
+2
Зависит от количества доступного арта в сети (для тренировки нейронок нужно довольно много подходящих изображений). Как-то раньше никогда не интересовался, насколько активно рисуют MLP-грифонов. Но вроде бы Гильда довольно популярный персонаж, а ещё Гэбби есть…
Lyx
+3
А что за нейросеть это?
V747
+1
Моя вариация на тему FastGAN, описанной в этой работе. За основу взята реализация отсюда и модифицирована, чтобы сделать её пригодной для обработки мультяшных изображений.
Со временем планирую выложить натренированную модельку (и заодно поднять на своём сервере, чтобы те, у кого нет достаточных мощностей, тоже могли попробовать). Но сейчас там ещё пилить и пилить — в выдаче
слишком много мусора
и маловато контроля над итоговым результатом.
Обе проблемы решаемы, но требуется время, которого у меня не так много (работаю над кодом только по вечерам, не более 2 часов в день). Поэтому уйдёт ещё недели три, прежде чем смогу довести это до ума.
Lyx
+6
Как проверить что получилось что-то новое интересное, а не покореженная копия одного из артов из обучающей выборки? Это был бы мега-полезный инструмент если можно например взять позу из одного арта, а персонажа из другого, но пока что на выходе что-то похоже на копию из тестовой выборки.
xbi Изменён автором
+3
Для этого существует специальная метрика — LPIPS, которая позволяет находить в обучающей выборке картинки, наиболее близкие к сгенерированной.
В процессе обучения надо следить, чтобы сеть генерализовывалась, а не занималась запоминанием. Когда идёт прямое запоминание образцов, это обычно означает неправильно составленный датасет. И да, в вышеприведённом тестовом образце показатель запоминания недопустимо высокий для релиза — порядка 27% выхлопа, но даже так в генерации хватает оригинальных вариантов. В итоговом варианте сетки запоминание должно быть не более нескольких процентов.
был бы мега-полезный инструмент если можно например взять позу из одного арта, а персонажа из другого
Artbreeder даёт неплохой пример того, чего я хочу добиться. Вот такое же скрещивание образцов с переносом стиля, только для пони. Пока что до финального варианта ещё пилить и пилить код.
Lyx
+3
Всё таки весьма забавные результаты выдаёт этот ии. Благо обработка занимает 3 минуты и можно отравить несколько запросов одновременно, решил посмотреть, что же он выдаст на запрос «поняшность».
Так в результате десятка запросов, он пытался нарисовать какие-то тексты с рисунками:
Спойлер


За то результаты от того же запроса, только в англоязычном варианте «ponyashnost», были более поняшными:
Вот две более менее нормальные поняшки из всего того безумного сюрреализма

и какой-то стрёмный чувак, который не-то похищает поняшку, не-то она сидит у него на плече

А ещё, по ходу, он меня послал.
Xodok
+6
Всипомлит гозол… Куда именно всипомлит и чем именно его гозол?)))
QTH-Equus
+4
Там возможно что-то на ИИшном эльфийском. Мне больше интересно, что там на краказябра с палочкой.
Xodok
+5
Всимполит с его гозолом же!)))
QTH-Equus
+2
Стремный чувак почти норм для авангарда.
S_Lunaris
+3
У этой нейросетки точно дислексия =)
«В супомлит, гозол!», да? О.о
makise_homura
+1
LunReaper
+3
Помимо довольно сырой ruDALL-E, Сбер опубликовал ещё и VQGAN-модельку (Sber VQ-GAN), на которую советую обратить внимание всем, у кого есть возможность запускать нейронки на собственных мощностях. Потому что она полностью совместима с любым кодом VQGAN+CLIP, способным переваривать Gumbel-модели. Просто берём и заменяем дефолтную VQGAN сберовской.
Результаты получаются на удивление неплохие.
Принцесса Луна в зачарованном лесу
Кто-то хотел скрестить Сансет с Богом-Императором? Ну что ж…
Слава Импера… трице, наверное?
Lyx Изменён автором
+6
Кто-то хотел скрестить Сансет с Богом-Императором?

Портретик вполне ничошный, хоть и не сразу допедрил до того, что это именно этакий портрет (броня криво прорисовалась, будто ИИ пытался сделать и пони, и хумана, но притом без антро)
Danil_Otritsevski
+3
Блин я теперь не могу это развидеть.
Мохнатая пони
SapphiriCh
+8
Я в прошлой темке выкладывал попытку визуализировать
сферическую Флаттершай в вакуумеи по сравнению с нею ваш вариант выглядит вполне вменяемым и даже почти реалистичным.
Lyx
+7
Это даже чем-то мило, наверное, если как следует закинуться веществами
makise_homura
+3
Это переходное звено от простой пони к Флаффи Пафф =))
KerHarrad
+5
Кстати да =)
makise_homura
+2
Ну, добавлю немного от себя…
Моллестия.
Две грани Твайлайт Спаркл.

Селестия
Просто пони
Лира и немножко Бон-бон



Внезапный Куплинов
Night_Song
+3
и Ленин Куплинов такой молодой
И глючная нейросеть впереди!)
QTH-Equus
+3
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.
Скрыто Показать