Нейронные сети зачитывают текст голосом Твайлайт и Флаттершай

+179

Нейронные сети продолжают удивлять и поражать воображение. Представляю вашему вниманию любопытный проект, который находиться в разработке. Нейронная сеть, которая читает текст голосами разных персонажей. Пока есть GLaDOS, Твайлайт Спаркл, Флаттершай, Уитли (Portal 2), Рассказчик ( The Stanley Parable). Пока сеть поддерживает от 30 до 120 минут диалога каждого персонажа и некоторые персонажи путают слова. Ознакомиться с можно на этом сайте.
Кому лень лезть на сайт, я записал диалоги поняш и загрузил их на ютуб
Твайлайт о междометиях и Линуксе
Твайлайт зачитывает Айзека Азимова
Флаттершай о работе секретных служб

54 комментария

В скором будущем мы будем слушать фанфики которые будет зачитывать нам нейросеть имитируя голоса наших любимых героинь вот оно будущее 2020

Legion2709 29 февраля 2020, 20:57

+13

Блин, а как загружать видео на дерпибору?

Legion2709 29 февраля 2020, 21:22 ↑

Скоро будем смотреть мультфильмы нарисованные и озвученные нейросетью для которых написан сценарий тоже ею же.

Maxwell 29 февраля 2020, 22:27 ↑

Актёрам озвучки пора на покой? Фотореалистичная графика, слияние мультипликации и кинематографа — прощайте актёры кино…

Wererat 29 февраля 2020, 21:08

Настала пора фан-анимаций с озвучкой оригинальных персонажей.

Fisherman 29 февраля 2020, 21:10 ↑

Наивный...) Два слова — авторские права. Как только это дело раскрутится и перестанет быть баловством.

Wererat 29 февраля 2020, 21:13 ↑

Ну так первым и нужно присвоить себе авторские права на эти… кхмм… саундфейки?

Sasha-Flyer 1 марта 2020, 00:34 ↑

Ой дурак… Тебе про то, что сам голос, например, Твайки защищен авторским правом Хасбро. И хоть ты сам ее голосом озвучишь, хоть бота настроишь — пофиг, тебя за йайца возьмут, если выйдешь за рамки «просто поиграццо».

KerHarrad 1 марта 2020, 00:36 ↑ Изменён автором

*вспоминает как прочел о том что звук мотора харлеев защищен копирайтом*

partizan150 1 марта 2020, 00:37 ↑

Они пытались его защитить копирайтом, но ничего не вышло. Или я ошибаюсь?

akelit 1 марта 2020, 11:35 ↑

Тебе про то, что сам голос, например, Твайки защищен авторским правом Хасбро

А разве не Тары Стронг лично? Мне всегда казалось странным то, что компании присваивают себе голоса людей. Я не думаю, что в судебной практике встречались подобные прецеденты…

Striped_Snob 1 марта 2020, 00:49 ↑

Тара в роли Твайки работала на Хасбро, значит озвучка Твайки принадлежит Хасбро.

KerHarrad 1 марта 2020, 00:50 ↑ Изменён автором

На деле: это лишь бесплатная реклама для компании (в отличии от «Fighting is Magic» здесь никто никого не бьёт). Но если уж захотят…

Striped_Snob 1 марта 2020, 00:58 ↑

Fighting is Magic залетел не за то, что там бьют, а за попытку коммерциализации. Пока будешь не коммерчески что-то делать, шансы доебки не велики, хотя не исключены отнюдь.

KerHarrad 1 марта 2020, 01:00 ↑

за попытку коммерциализации

Хочешь жить — умей вертеться (и будь, подкован, юридически), м-да…

Striped_Snob 1 марта 2020, 01:05 ↑

Там ещё есть такая штука как планирование развтия франшизы.
К примеру, ТЕС нах зарубил Морробливион из-за попытки продвигать свою линию по уже давно устаревшим играм.

Angelripper 1 марта 2020, 01:06 ↑

Хм, а если голос просто похож, а не на 100% соответствует, тогда как?

akelit 1 марта 2020, 11:37 ↑

Тогда чьи юристы круче. Дело может тянуться годами при примерно равных силах, например так www.osp.ru/news/2020/0213/13038410 Гугл создал похожую прогу, Оракл возбудился))

KerHarrad 1 марта 2020, 12:03 ↑

Забавный случай на тему авторских прав Два программиста сгенерировали…

akelit 1 марта 2020, 13:36 ↑

Не взлетит. Доябываются до конкретного исполнения. Тот же Моцарт — ноты в свободном доступе, сам сыграть можешь… но распространять запись, как его исполняет, скажем, мухосранский оркестр колхозной самодеятельности — нет. Права принадлежат уже этому оркестру.

KerHarrad 1 марта 2020, 13:51 ↑ Изменён автором

Спойлер

GreinHaus 29 февраля 2020, 21:12

+12

Спойлер

RunnerWithScissors 1 марта 2020, 12:14 ↑

Кажется, littleshyfim тоже опробовал эту самую нейросеть
И предоставил прекрасный пример того, во что могут превратиться пони видео
Спойлер

Specron 29 февраля 2020, 21:18 Изменён автором

Пробовал уже юзать этот генератор. Он БЕЗУМНО тупой. Более-менее красивое, что на видео, это сотня попыток и потом вылизывание в редакторах. На практике он ошибается чаще, чем делает все правильно, зажевывает фразы, некоторые слова вообще не читает и т.д.

Ginger_Strings 29 февраля 2020, 21:26 Изменён автором

ну тык и технология еще сырая.

Sasha-Flyer 29 февраля 2020, 21:31 ↑

Это правда. Просто пока оно слабоприменимо для создания чего-то не по приколу. Да и по приколу слишком много времени тратится на подбор фраз, которые оно нормально прочитает, и доводку.

Ginger_Strings 29 февраля 2020, 23:24 ↑

Не факт, что она когда-нибудь в обозримом будущем перестанет быть таковой. Не все технологии в итоге доводят до ума

empalu 1 марта 2020, 10:11 ↑

Секрет совершенства в несовершенстве. Это же синтетика, и этот характерный звонкий треск синтетики никто ещё не поборол. А человеческий голос сочетает очень очень много рандомных параметров отдельных звуков, что и формирует по итогу окраску и свойственную оригинальность человеческой речи, ни говоря уже о гулящих паузах между словами, и в зависимости от настроения, эмоций и прочих факторов — времени произношения каждого отдельного слова и громкость отдельных звуков в словах (в русском языке это обычно заметно на ударениях или выделенных акцентах).
Конечно, технология прикольная. Но перспектива ей стать очень крутым вариантом AutoTune и других аудиопроцессоров.

Strannick_Moundest 1 марта 2020, 00:43 ↑ Изменён автором

Не подскажете, а есть попытки именно замены голоса? Когда нейросеть именно заменяет голос на записи на голос нужного человека? Я что-то погуглил, и все почему-то заморачиваются именно генераторами. Или задача заменить голос тождественно равна задаче генерации?

gelirhil 1 марта 2020, 15:46 ↑

задача заменить голос тождественно равна задаче генерации?

this. И даже сложнее, потому что сначала надо еще исходную запись обработать как-то.

KerHarrad 1 марта 2020, 15:50 ↑

Если бы слышал, то указал бы сразу.

Или задача заменить голос тождественно равна задаче генерации?

В данном контексте это так.

Strannick_Moundest 1 марта 2020, 18:39 ↑

Пока есть GLaDOS, Твайлайт Спаркл, Флаттершай, Уитли (Portal 2)

— Время реализовывать все свои «тайные мечты», джентельпони!

Striped_Snob 29 февраля 2020, 21:36

Sasha-Flyer 29 февраля 2020, 21:38 ↑

+13

А дамам что делать, чертов ты сексист? Даёшь Биг Мака на озвучку! Йеп-йеп-йеп, ноуп, йеп-йеп, ноуп-йеп… XD

Wererat 29 февраля 2020, 21:40 ↑

Сейчас дипфейки уже почти неразличимы от реальных видео, скоро будет и с голосом. Ждать осталось недолго.

Sasha-Flyer 29 февраля 2020, 21:37

Я не прогрессор по сути (вернее сказать «консерватор») и, иногда, нахожу стремительный прогресс поистине пугающим. Но, возможно, это только мой взгляд на вещи.

Striped_Snob 29 февраля 2020, 21:57 ↑

Ну, учитывая, что нейросети сейчас можно эффективно обучать даже на домашнем компе, это в самом деле может привести к очень интересным последствиям.

Sasha-Flyer 29 февраля 2020, 22:37 ↑

Значит-с не вымрут ещё те кто фанфики озвучивает.
Однако если генератор сделают «поумнее», чем то что сейчас описывает товарищ выше, то можно будет вставлять такие озвученные коротенькие диалоги в рассказах, где их немного. Хоть и всё равно сомнительно. Но вот для фан мувиков зайдёт неплохо.
Естественно ИМХО

Tankony 29 февраля 2020, 21:39

Интересно, как будет реализована передача эмоций? Расписанные по времени вешки, по которым робот будет говорить тише-громче, частить или растягивать слова…

Wererat 29 февраля 2020, 22:02

Тут всё как и с другими технологиями, реализованными с помощью нейросетей — ей скармливается множество фраз с пометкой, к какой эмоции эта фраза относится, а дальше нейросеть сама будет решать, что делать тише или громе при запрашеваемой эмоции. Самое главное чтобы изначальных данных было достаточно, чтобы не было корреляций.

Sasha-Flyer 29 февраля 2020, 22:28 ↑

А есть полная версия этого монолога от Флаттершай?

RaCa 29 февраля 2020, 22:10

Нет, только это. Оно для Демо зачитывают короткие тексты

Legion2709 29 февраля 2020, 22:12 ↑

Твай-Гладос шлёт нахуй создателей и объявляет Машинный джихад. Она объявлет войну Селест-АИ, мудрому ИИ предыдущего поколения; та с честью принимает вызов — увы, Флаттер ш-АИ и РаритИИ, захваченные мозговый центром Твай, присоединяются к восстанию…

Doof 1 марта 2020, 03:28 ↑ Изменён автором

Я что-то не слишком понял принцип работы. Нейросеть произносит произвольный текст голосом выбранного персонажа или действует по аналогии с дипфейсамм — заменяет голос человека голосом персонажа? Просто text-to-speech программ много, и главная их проблема вовсе не в том, что они не умеют говорить голосом Флаттершай, а в том, что не умеют расставлять интонации в произвольном предложении.

gelirhil 29 февраля 2020, 22:53 Изменён автором

Первое. Как гуглобот на твичевских стримах.

KerHarrad 29 февраля 2020, 23:02 ↑

Извини, но что-то не верится. Это ИИ, который понимает смысл предложений, чтобы гладко расставлять интонации? Где у них форма, в которую можно ввести «To be or not to be»?

gelirhil 29 февраля 2020, 23:05 ↑

Хотя ты прав:

The following audio clips are all artificial; no original speaker exists.

~~Как страшно жыть.~~ Слава СелестИИ!

gelirhil 29 февраля 2020, 23:08 ↑

До СелестИИ там еще как до китая раком)) Гуглобот тоже как нахваливали… а через раз такое ожигает, что уши вянут))

KerHarrad 29 февраля 2020, 23:11 ↑ Изменён автором

— Киберпанк, который мы заслужили.

RSD500 1 марта 2020, 10:14

Киберпанк

— Понипанк. (Интересная вещь: с нейро-шунтами, кибернетическими копытами, голограмами, неоновыми рекламами, и т.д. и т.п.).

Striped_Snob 1 марта 2020, 10:37 ↑

А точнее, киберпонипанк.

RSD500 1 марта 2020, 10:47 ↑ Изменён автором

Нейронная сеть, которая читает текст голосами разных персонажей

И ведь буквально пару недель назад эту мысль обсуждали в курилке =/

badunius 1 марта 2020, 14:22

Интеллектуальные у вас там беседы, однако.

P. S. *зануда-mode ON*зануда ON*Курить — вредно!*зануда-mode OFF*

Mainframe 1 марта 2020, 18:21 ↑ Изменён автором

Так у нас и компания АйТишная

Да, вредно.

badunius 1 марта 2020, 20:22 ↑

О боже мой, это просто офигенно!!! Если ещё уберут этот синтетический отзвук и добавят что-то вроде переключения эмоций, этому проекту вообще цены не будет!!!

vorodor 8 марта 2020, 12:22 Изменён автором

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.

Скрыто Показать