Нейронные сети зачитывают текст голосом Твайлайт и Флаттершай


Нейронные сети продолжают удивлять и поражать воображение. Представляю вашему вниманию любопытный проект, который находиться в разработке. Нейронная сеть, которая читает текст голосами разных персонажей. Пока есть GLaDOS, Твайлайт Спаркл, Флаттершай, Уитли (Portal 2), Рассказчик ( The Stanley Parable). Пока сеть поддерживает от 30 до 120 минут диалога каждого персонажа и некоторые персонажи путают слова. Ознакомиться с можно на этом сайте.
Кому лень лезть на сайт, я записал диалоги поняш и загрузил их на ютуб
Твайлайт о междометиях и Линуксе
Твайлайт зачитывает Айзека Азимова
Флаттершай о работе секретных служб

54 комментария

В скором будущем мы будем слушать фанфики которые будет зачитывать нам нейросеть имитируя голоса наших любимых героинь вот оно будущее 2020
Legion2709
+13
Блин, а как загружать видео на дерпибору?
Legion2709
+2
Скоро будем смотреть мультфильмы нарисованные и озвученные нейросетью для которых написан сценарий тоже ею же.
Maxwell
+6
Актёрам озвучки пора на покой? Фотореалистичная графика, слияние мультипликации и кинематографа — прощайте актёры кино…
Wererat
+2
Настала пора фан-анимаций с озвучкой оригинальных персонажей.
Fisherman
+7
Наивный...) Два слова — авторские права. Как только это дело раскрутится и перестанет быть баловством.
Wererat
+1
Ну так первым и нужно присвоить себе авторские права на эти… кхмм… саундфейки?
Sasha-Flyer
+1
Ой дурак… Тебе про то, что сам голос, например, Твайки защищен авторским правом Хасбро. И хоть ты сам ее голосом озвучишь, хоть бота настроишь — пофиг, тебя за йайца возьмут, если выйдешь за рамки «просто поиграццо».
KerHarrad Изменён автором
+3
*вспоминает как прочел о том что звук мотора харлеев защищен копирайтом*
partizan150
+2
Они пытались его защитить копирайтом, но ничего не вышло. Или я ошибаюсь?
akelit
0
Тебе про то, что сам голос, например, Твайки защищен авторским правом Хасбро

А разве не Тары Стронг лично? Мне всегда казалось странным то, что компании присваивают себе голоса людей. Я не думаю, что в судебной практике встречались подобные прецеденты…
Striped_Snob
+1
Тара в роли Твайки работала на Хасбро, значит озвучка Твайки принадлежит Хасбро.
KerHarrad Изменён автором
+3
На деле: это лишь бесплатная реклама для компании (в отличии от «Fighting is Magic» здесь никто никого не бьёт). Но если уж захотят…
Striped_Snob
0
Fighting is Magic залетел не за то, что там бьют, а за попытку коммерциализации. Пока будешь не коммерчески что-то делать, шансы доебки не велики, хотя не исключены отнюдь.
KerHarrad
+3
за попытку коммерциализации

Хочешь жить — умей вертеться (и будь, подкован, юридически), м-да…
Striped_Snob
0
Там ещё есть такая штука как планирование развтия франшизы.
К примеру, ТЕС нах зарубил Морробливион из-за попытки продвигать свою линию по уже давно устаревшим играм.
Angelripper
0
Хм, а если голос просто похож, а не на 100% соответствует, тогда как?
akelit
+2
Тогда чьи юристы круче. Дело может тянуться годами при примерно равных силах, например так www.osp.ru/news/2020/0213/13038410 Гугл создал похожую прогу, Оракл возбудился))
KerHarrad
+1
Забавный случай на тему авторских прав Два программиста сгенерировали…
akelit
+1
Не взлетит. Доябываются до конкретного исполнения. Тот же Моцарт — ноты в свободном доступе, сам сыграть можешь… но распространять запись, как его исполняет, скажем, мухосранский оркестр колхозной самодеятельности — нет. Права принадлежат уже этому оркестру.
KerHarrad Изменён автором
+3
Спойлер
GreinHaus
+12
Спойлер
RunnerWithScissors
0
Кажется, littleshyfim тоже опробовал эту самую нейросеть
И предоставил прекрасный пример того, во что могут превратиться пони видео
Спойлер
Specron Изменён автором
+9
Пробовал уже юзать этот генератор. Он БЕЗУМНО тупой. Более-менее красивое, что на видео, это сотня попыток и потом вылизывание в редакторах. На практике он ошибается чаще, чем делает все правильно, зажевывает фразы, некоторые слова вообще не читает и т.д.
Ginger_Strings Изменён автором
+6
ну тык и технология еще сырая.
Sasha-Flyer
+3
Это правда. Просто пока оно слабоприменимо для создания чего-то не по приколу. Да и по приколу слишком много времени тратится на подбор фраз, которые оно нормально прочитает, и доводку.
Ginger_Strings
+1
Не факт, что она когда-нибудь в обозримом будущем перестанет быть таковой. Не все технологии в итоге доводят до ума
empalu
+3
Секрет совершенства в несовершенстве. Это же синтетика, и этот характерный звонкий треск синтетики никто ещё не поборол. А человеческий голос сочетает очень очень много рандомных параметров отдельных звуков, что и формирует по итогу окраску и свойственную оригинальность человеческой речи, ни говоря уже о гулящих паузах между словами, и в зависимости от настроения, эмоций и прочих факторов — времени произношения каждого отдельного слова и громкость отдельных звуков в словах (в русском языке это обычно заметно на ударениях или выделенных акцентах).
Конечно, технология прикольная. Но перспектива ей стать очень крутым вариантом AutoTune и других аудиопроцессоров.
Strannick_Moundest Изменён автором
+3
Не подскажете, а есть попытки именно замены голоса? Когда нейросеть именно заменяет голос на записи на голос нужного человека? Я что-то погуглил, и все почему-то заморачиваются именно генераторами. Или задача заменить голос тождественно равна задаче генерации?
gelirhil
0
задача заменить голос тождественно равна задаче генерации?
this. И даже сложнее, потому что сначала надо еще исходную запись обработать как-то.
KerHarrad
+2
Если бы слышал, то указал бы сразу.
Или задача заменить голос тождественно равна задаче генерации?

В данном контексте это так.
Strannick_Moundest
0
Пока есть GLaDOS, Твайлайт Спаркл, Флаттершай, Уитли (Portal 2)

— Время реализовывать все свои «тайные мечты», джентельпони!
Striped_Snob
+6
Sasha-Flyer
+13
А дамам что делать, чертов ты сексист? Даёшь Биг Мака на озвучку! Йеп-йеп-йеп, ноуп, йеп-йеп, ноуп-йеп… XD
Wererat
+4
Сейчас дипфейки уже почти неразличимы от реальных видео, скоро будет и с голосом. Ждать осталось недолго.
Sasha-Flyer
+2
Я не прогрессор по сути (вернее сказать «консерватор») и, иногда, нахожу стремительный прогресс поистине пугающим. Но, возможно, это только мой взгляд на вещи.
Striped_Snob
+1
Ну, учитывая, что нейросети сейчас можно эффективно обучать даже на домашнем компе, это в самом деле может привести к очень интересным последствиям.
Sasha-Flyer
+3
Значит-с не вымрут ещё те кто фанфики озвучивает.
Однако если генератор сделают «поумнее», чем то что сейчас описывает товарищ выше, то можно будет вставлять такие озвученные коротенькие диалоги в рассказах, где их немного. Хоть и всё равно сомнительно. Но вот для фан мувиков зайдёт неплохо.
Естественно ИМХО
Tankony
+1
Интересно, как будет реализована передача эмоций? Расписанные по времени вешки, по которым робот будет говорить тише-громче, частить или растягивать слова…
Wererat
0
Тут всё как и с другими технологиями, реализованными с помощью нейросетей — ей скармливается множество фраз с пометкой, к какой эмоции эта фраза относится, а дальше нейросеть сама будет решать, что делать тише или громе при запрашеваемой эмоции. Самое главное чтобы изначальных данных было достаточно, чтобы не было корреляций.
Sasha-Flyer
+1
А есть полная версия этого монолога от Флаттершай?
RaCa
0
Нет, только это. Оно для Демо зачитывают короткие тексты
Legion2709
0
Твай-Гладос шлёт нахуй создателей и объявляет Машинный джихад. Она объявлет войну Селест-АИ, мудрому ИИ предыдущего поколения; та с честью принимает вызов — увы, Флаттер ш-АИ и РаритИИ, захваченные мозговый центром Твай, присоединяются к восстанию…
Doof Изменён автором
0
Я что-то не слишком понял принцип работы. Нейросеть произносит произвольный текст голосом выбранного персонажа или действует по аналогии с дипфейсамм — заменяет голос человека голосом персонажа? Просто text-to-speech программ много, и главная их проблема вовсе не в том, что они не умеют говорить голосом Флаттершай, а в том, что не умеют расставлять интонации в произвольном предложении.
gelirhil Изменён автором
0
Первое. Как гуглобот на твичевских стримах.
KerHarrad
0
Извини, но что-то не верится. Это ИИ, который понимает смысл предложений, чтобы гладко расставлять интонации? Где у них форма, в которую можно ввести «To be or not to be»?
gelirhil
0
Хотя ты прав:
The following audio clips are all artificial; no original speaker exists.

Как страшно жыть. Слава СелестИИ!
gelirhil
0
До СелестИИ там еще как до китая раком)) Гуглобот тоже как нахваливали… а через раз такое ожигает, что уши вянут))
KerHarrad Изменён автором
+1
— Киберпанк, который мы заслужили.
RSD500
+5
Киберпанк

— Понипанк. (Интересная вещь: с нейро-шунтами, кибернетическими копытами, голограмами, неоновыми рекламами, и т.д. и т.п.).
Striped_Snob
+2
А точнее, киберпонипанк.
RSD500 Изменён автором
+3
Нейронная сеть, которая читает текст голосами разных персонажей
И ведь буквально пару недель назад эту мысль обсуждали в курилке =/
badunius
0
Интеллектуальные у вас там беседы, однако.

P. S. *зануда-mode ON*зануда ON*Курить — вредно!*зануда-mode OFF*
Mainframe Изменён автором
+1
Так у нас и компания АйТишная

Да, вредно.
badunius
+1
О боже мой, это просто офигенно!!! Если ещё уберут этот синтетический отзвук и добавят что-то вроде переключения эмоций, этому проекту вообще цены не будет!!!
vorodor Изменён автором
0
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.
Скрыто Показать