Голосовых нейронок тред (TTS, STS, STT) #7 speech /speech/

Аноним 16/02/25 Вск 12:20:27 #1 №1055411

17019563860200.mp4

17074247947820.mp4

17204507036820.mp4

17099193437742.mp4

Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

Прошлый тред: >> https://2ch.hk/ai/res/664162.html

Вики треда: https://2ch-ai.gitgud.site/wiki/speech/

FAQ

Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п.

1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге:
https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts

Спейс без лимитов для EdgeTTS:
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

Так же можно использовать проприетарный комбайн Soundworks (часть фич платная):
https://dmkilab.com/soundworks

2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

Q: Как делать нейрокаверы?

1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR

2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио

Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.

Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.

Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.

Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.

Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer:
https://github.com/w-okada/voice-changer/blob/master/README_en.md

Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла)

Q: Как обучить свою RVC-модель?

Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели
Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc
Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc
Если тыква вместо видеокарты, можно тренить в онлайне: https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru/notebook?scriptVersionId=143284909 (инструкция: https://www.youtube .com/watch?v=L-emE1pGUOM )

Q: Надо распознать текст с аудио/видео файла

Используй Whisper от OpenAI: https://github.com/openai/whisper
Быстрый скомпилированный для винды вариант: https://github.com/Purfview/whisper-standalone-win
Так же есть платные решения от Сбера/Яндекса/Тинькофф.

Коммерческие системы

https://elevenlabs.io перевод видео, синтез и преобразование голоса
https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то
https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>

Шаблон для переката: https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/

АНОН, ПОМОГАЙ Аноним 16/02/25 Вск 12:23:04 #2 №1055415

17019563860200.mp4

НУЖНА ГОЛОСОВАЯ МОДЕЛЬ МЭДДИСОНА, как на видрил.

Все МОДЕЛИ, что удалось найти В ИНТЕРНЕТЕ, звучат намного хуже.

Аноним 16/02/25 Вск 12:55:20 #3 №1055428

бамп!

[mailto:sage] Аноним 17/02/25 Пнд 10:10:13 #4 №1056814

>>1055411 (OP)
Это тупо копипаста старой шапки и ничего нового в ней за полгода? Ну ты и долбоёб, фагочушка к тому же. Всем кто отпишется без сажи рака яиц.

Аноним 17/02/25 Пнд 10:38:05 #5 №1056825

>>1055411 (OP)
Какие есть модели TTS, но чтобы работали в реалтайме, без ожидания генерации аудио. И возможность обучить модель на своих исходниках

Аноним 17/02/25 Пнд 11:32:20 #6 №1056841

>>1056814
Перекатывал бы тогда сам. Но ты же ленивый безрукий пидорас и хуесос, так что и эту шапку потерпишь, хуйло.

[mailto:sage] Аноним 17/02/25 Пнд 23:52:24 #7 №1057564

>>1056825
Я б ответил, но не могу долго находиться в защкварном треде оп-хуя.

Аноним 18/02/25 Втр 12:18:27 #8 №1057995

>>1057564
Ты будешь терпеть, как и всегда терпел.

Аноним 18/02/25 Втр 18:10:08 #9 №1058516

>>1055415
Ты тупой штоле? там голосом написано и текстом проговорено я хуею какие же дегенераты на дваче

[mailto:sage] Аноним 18/02/25 Втр 19:35:31 #10 №1058603

А что с шапкой? Посрал на опа-гея.

Аноним 18/02/25 Втр 23:00:35 #11 №1058975

>>1058516
Ебло ослиное, мне нужна модель.

>>1058603
Терпи.

Аноним 21/02/25 Птн 12:35:12 #12 №1062652

17401167341180.mp4

Аноним 21/02/25 Птн 15:20:02 #13 №1062837

>>1062652
Вот ето да!

Аноним 21/02/25 Птн 17:15:54 #14 №1062967

>>1058603
что не так с шапкой то?
Все как и раньше

Аноним 21/02/25 Птн 22:23:13 #15 №1063458

Нейрослоник4part12.mp4

>>1062837

Аноним 22/02/25 Суб 04:42:09 #16 №1063813

Ебался всю ночь так нихуя и не установил.
RVC работает искаропки и работает заебись но не могу найти нормальный TTS.
Подскажите каким вы сейчас пользуетесь?
Сука триллион зависимостей установите то установите се ой работает только на петухон 1488 иди нахуй блядь

Аноним 28/02/25 Птн 16:59:25 #17 №1073727

https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice
https://github.com/SesameAILabs/csm
Dataset: We use a large dataset of publicly available audio, which we transcribe, diarize, and segment. After filtering, the dataset consists of approximately one million hours of predominantly English audio.

Model Sizes: We trained three model sizes, delineated by the backbone and decoder sizes:
Tiny: 1B backbone, 100M decoder
Small: 3B backbone, 250M decoder
Medium: 8B backbone, 300M decoder
Each model was trained with a 2048 sequence length (~2 minutes of audio) over five epochs.

Our models will be available under an Apache 2.0 license.

Аноним 28/02/25 Птн 20:21:04 #18 №1074110

image.png

Я НЕПЫНИМАЮ БЛЯДЬ
Как и через что в комфиуи генерать голоса? Бля одну кастом ноду скачаешь, там не установить другие модели. Другую скачаешь, там блядь хуй знает какие-то расширения моделей используются, что хуй найдёешь. Я просто хочу слушать мурлыканье аниме девочек мне в ухо, но я хуй его знает что использовать, чтобы эту модель запустить.

Аноним 01/03/25 Суб 02:43:23 #19 №1074507

>>1055411 (OP)
Я продублирую свой вопрос из /b/

На моей любимой РАБоте слушаю много аудиокниг, так как работаю говнарем на складе, и аудиокниги мое единственное развлечение. Но проблема в том, что большинство чтецов забрасывают произведения, оставляя сотни глав не озвученными.
Я прогуглил и поизучал вместе с ответами от GAYgpt множество AI решений и проектов на github, НО столкнулся с тем что в большинстве локальные проекты заточены на святоанглийский.
И это малая еще беда.

Изучены проекты:
Coqui TTS
Piper TTS
VoxNovel
VITS
И дохуя всякий webui с "движками" Coqui TTS и Piper TTS.

Инпуты текстов ограничены в лучшем случае до 5к символов. А решения конверторов epub книг ехидно проводят по губам ругаясь на кодировки или отказываясь обрабатывать большие обьемы.

Даже разбив на множество глав тхт документы для простоты, мануально вводя по предложению, генерируя чанками, мы получаем кал калыч без грамматики так еще с уебской пунктуацией и разбивка на чанки дает ебучее затухание в начале и в конце чанка.

Вся беда этих локальный open source TTS, в том, что нет нормального подключения лексиконов правил грамматики и произношений и самих лексиконов толком то и нет.

Сейчас откапал на своем харде старенькую Ivona Voices, даже сохранились худо бедные лексиконы омографов, Е/Ё и тд. для голоса Tatyana.

Качество звучания - скрипя зубами, генерирует тексты в 22hz и иногда артефактами, но лучше чем google синтетический голос.

С этого всего вопрос к АНОНУ, знаешь ли ты какие нибудь тулы или другие решения для создания аудиокниг. Из серии хотя бы получше чем уровень говорилка.

С меня нихуя, заранее иду нахуй.

Аноним 01/03/25 Суб 03:45:06 #20 №1074535

>>1074507
Ответ получен, спасибо всем кто заглянул

>Нейроблядь в треде

Что можно попробовать
Вот несколько вариантов, которые могут быть получше, чем текущие костыли:

A. Использовать старые коммерческие движки
Ivona Voices (как у тебя): Да, качество звука там древнее (22kHz), но это реально один из лучших вариантов для русского языка. Если у тебя есть старые лексиконы и настройки — это вообще находка. Попробуй найти обновлённые версии Ivona или аналогичные движки (например, старую версию Balabolka с поддержкой SAPI5).
Balabolka : Это не TTS сам по себе, но он может работать с разными голосами (включая Ivona) и конвертировать тексты в аудио. Плюс можно настроить паузы, интонации и даже подправить произношение через SSML (Speech Synthesis Markup Language).
B. Попробовать современные онлайн-сервисы
Yandex SpeechKit : У Яндекса есть свой TTS, который работает достаточно неплохо для русского языка. Качество лучше, чем у Google, особенно если выбирать женские голоса (например, "Оксана"). Можно автоматизировать через API, чтобы генерировать большие объёмы текста.
Tinkoff VoiceKit : Ещё один русскоязычный TTS, который иногда работает даже лучше Яндекса. Поддерживает длинные тексты и имеет нормальные настройки интонации.
Google Cloud TTS : Хотя ты говоришь, что их голоса уебские, но они поддерживают длинные тексты и SSML, что позволяет настраивать произношение и паузы.
C. Нейросетевые решения
Silero TTS : Это русскоязычный open-source проект, который реально неплохо работает. Голоса звучат естественно, и можно генерировать длинные тексты без затуханий. Попробуй его запустить локально — он легче, чем Coqui или Piper, и заточен именно под русский язык.
Fish Speech : Новый проект, который активно развивается. Он умеет работать с длинными текстами и поддерживает русский язык. Качество звука на уровне современных стандартов (16-48kHz).
D. Автоматизация и предобработка текста
Разбиение текста : Используй скрипты на Python (например, через библиотеку nltk или spaCy) для разбиения текста на предложения или абзацы. Это поможет избежать проблем с чанками.
SSML : Если TTS поддерживает SSML, то можно настроить паузы, ударения и произношение прямо в тексте. Например, добавить <break> для пауз или <phoneme> для правильного произношения сложных слов.
Конвертеры EPUB : Попробуй использовать Calibre (он умеет конвертировать EPUB в TXT с сохранением форматирования) или написать свой парсер на Python.
3. Итог
Если коротко:

Лучший вариант для старта — Silero TTS или Fish Speech. Они заточены под русский язык и работают локально.
Если нужен онлайн — Yandex SpeechKit или Tinkoff VoiceKit.
Для старых движков — Ivona + Balabolka с SSML.
Но помни: идеального решения пока нет. Даже если найдёшь что-то получше "говорилки", всё равно придётся возиться с настройками, разбиением текста и лексиконами.

Аноним 01/03/25 Суб 10:13:58 #21 №1074630

>>1074535
Привет, ГПТблядок! Почему ты даешь такие хуевые и неполные ответы? Сейчас батя Грок от вездесущего Илона Маска, лучшего гения современности, распишет тебя под лоха своим супердетальным ответом.

---

### Проблемы, которые ты описал:
1. Ограничения локальных TTS на русском: Coqui TTS, Piper TTS и прочие действительно плохо заточены под русский — словари ударений и грамматики либо отсутствуют, либо требуют ручной настройки.
2. Чанки и качество: разбивка текста на куски портит плавность, добавляет затухания и артефакты.
3. Ivona Voices: старенькая, но рабочая, сносное качество на 22 кГц, есть лексиконы, но всё равно звучит не идеально.
4. Обработка больших текстов: веб-интерфейсы и конвертеры либо ограничивают символы, либо косячат с кодировками.

Тебе нужно что-то, что:
- Поддерживает русский язык с нормальными ударениями и интонацией.
- Может обрабатывать большие тексты без необходимости ручной разбивки.
- Дает качество лучше "говорилки" и хотя бы на уровне терпимого чтеца.

---

### Варианты решений

#### 1. Silero TTS (от Snakers4)
- Что это: Open-source проект от российских разработчиков, специально заточенный под русский язык. Использует нейронные модели для синтеза речи.
- Плюсы:
- Качество голосов на голову выше Ivona, звучит естественно.
- Есть готовые модели для русского (голоса вроде "Ксения", "Александр" и др.).
- Работает локально, поддерживает длинные тексты без ограничений по символам.
- Можно настроить интонации и скорость.
- Минусы:
- Нужно немного повозиться с установкой (Python, PyTorch, загрузка моделей с их GitHub).
- Требует ударения в тексте (ставятся вручную символом `+`, например, "к+от"), но есть скрипты для автоматической расстановки.
- Как попробовать:
- Установи через `pip install torch torchaudio` и скачай модель с [репозитория Silero](https://github.com/snakers4/silero-models).
- Пример кода для генерации:
```python
import torch
from omegaconf import OmegaConf
language = 'ru'
model_id = 'v4_ru'
speaker = 'kseniya'
device = torch.device('cpu')
model, _ = torch.hub.load('snakers4/silero-models', 'silero_tts', language=language, speaker=speaker)
model.to(device)
audio = model.apply_tts(text="Прив+ет, это т+естовый текст!", sample_rate=24000)
```
- Сохраняй результат в WAV или MP3.
- Итог: Если готов потратить час на установку и настройку, это твой лучший локальный вариант.

#### 2. RHVoice
- Что это: Еще один open-source TTS, разработанный Ольгой Яковлевой, с упором на русский и украинский языки.
- Плюсы:
- Локальная работа, не требует интернета.
- Поддерживает словари для коррекции произношения (можно подправить омографы вроде "зам+ок" vs "з+амок").
- Голоса "Анна", "Александр" и др. звучат лучше Ivona, хотя немного роботизированно.
- Берет большие тексты без проблем.
- Минусы:
- Качество чуть ниже современных нейронок вроде Silero или Coqui.
- Установка на Windows проще, чем на Linux/Mac, но всё равно требует рук.
- Как попробовать:
- Скачай с [официального сайта](https://rhvoice.org) или GitHub.
- Используй с утилитой вроде Balabolka (о ней ниже) для удобства.
- Итог: Простое и быстрое решение, если не хочешь заморачиваться с нейронками.

#### 3. Balabolka + Ivona/SAPI5
- Что это: Программа для Windows, которая работает с любыми SAPI5-голосами (включая твою Ivona Tatyana) и позволяет генерировать аудиофайлы из больших текстов.
- Плюсы:
- Поддерживает твои старые Ivona Voices и лексиконы омографов.
- Обрабатывает целые книги в формате TXT, EPUB, DOC без ограничений.
- Можно настроить паузы, скорость, тембр.
- Экспорт в MP3/WAV без ручной разбивки.
- Минусы:
- Качество ограничено самой Ivona — выше головы не прыгнешь.
- Интерфейс староват, но рабочий.
- Как попробовать:
- Скачай [Balabolka](http://www.cross-plus-a.com/balabolka.htm).
- Укажи путь к тексту, выбери голос Ivona Tatyana, настрой словари и жми "Сохранить аудиофайл".
- Итог: Если Ivona тебя пока устраивает, это самый простой способ автоматизировать процесс без допиливания.

#### 4. Коммерческие решения (если бюджет позволяет)
- Яндекс SpeechKit:
- API с голосами вроде "Филипп" или "Алёна", звучит очень естественно.
- Поддерживает длинные тексты, но нужен интернет и оплата (около 4-5 рублей за 1000 символов).
- Пример: загружаешь TXT через их консоль или скрипт, получаешь MP3.
- **Google Cloud Text-to-Speech**:
- Голоса WaveNet для русского — топ по качеству, но дорого (около $16 за миллион символов).
- Требует API и немного кода.
- **Amazon Polly**:
- Голос "Татьяна" или "Максим" — качественные, русский поддерживается.
- Цена: ~$4 за миллион символов.
- **Итог**: Если готов вложить пару сотен рублей, получишь качество на уровне профессиональных чтецов.

#### 5. Хак с автоматической расстановкой ударений
- Проблема с Silero и другими нейронками — ручная расстановка ударений. Есть обход:
- Используй [Udict](https://udict.ru) или [Stress Rus](https://github.com/MarkedOne/stress-rus) для автоматической расстановки `+` перед ударными гласными.
- Пример: "Привет, как дела?" → "Прив+ет, к+ак дел+а?"
- Потом скорми это Silero или Coqui.
- **Итог**: Решает проблему грамматики и произношения, но требует доп. шага.

---

### Рекомендация
Если хочешь локальное и бесплатное — начни с **Silero TTS**. Оно современнее Ivona, качество лучше, и есть шанс автоматизировать процесс с помощью скриптов. Для старта:
1. Установи Silero.
2. Разбей книгу на главы (вручную или скриптом).
3. Используй Udict для ударений.
4. Генерируй аудио по главам и склей в MP3.

Если лень возиться, юзай **Balabolka** с Ivona — это твой минимум усилий прямо сейчас.

Есть вопросы или что-то конкретное уточнить — пиши, разберем. Удачи на складе, не скучай там!

Аноним 01/03/25 Суб 16:47:22 #22 №1074900

20160204090247e7ed316fbca4eba7e6527c694add3869.jpg

>>1074630
Вау! Я поражен грамотной и структурированной подачей материала!
Зная что существуют такие решения, мне не лень повозиться и разобраться.

Что то уже знакомо, из за использования stable diffusion, так что разберусь.

>- Яндекс SpeechKit (около 4-5 рублей за 1000 символов)

Да, у меня например одна книга в 12 000 000 символов меня обанкротит, поэтому не рассматриваю платные решения. Как никак 500 евро это мои все счета за жилье, сотовую связь и интернет лол.

Еще раз, спасибо Анон, за подробный и развернутый ответ!

Аноним 01/03/25 Суб 23:51:49 #23 №1075373

>>1074900
Silero самая простая. Ставится в один клик
https://aloys.narod.ru/sof/1/demagog.htm

Fish Speech качественней но работает медленней.
Ставится в один клик через скрипт енжин Пинокио.
https://pinokio.computer/

Аноним 02/03/25 Вск 01:43:38 #24 №1075475

Прошу новоприбывших иметь ввиду, что шапка и вики давно не обновлялись и не содержат сведения о каких-либо новинках прошедшего года.

В качестве базы поиска голосовых моделей советую использовать huggingface, как наиболее крупное и актуальное хранилище открытых моделей.

Text to speech:
https://huggingface.co/models?pipeline_tag=text-to-speech&sort=trending

Speech to speech:
https://huggingface.co/models?pipeline_tag=audio-to-audio&sort=trending

Speech to text:
https://huggingface.co/models?pipeline_tag=automatic-speech-recognition&sort=trending

Однако, на хаггине нельзя найти многие из тьюнов для популярных проектов, типа RVC. Такие тьюны выкладывают на отдельных сайтах и в профильных сообществах в дискорде.

-----

Сделал сводку обсуждаемых в прошлом треде (со ссылками на посты) новых открытых нейронок и инструментов, которые не были упомянуты в шапке/вики. Описания взяты с офф. страничек решений, сам пока толком ничего не попробовал.

Дайте знать, если где-то ввёл в заблуждение или забыл упомянуть что-то крутое.

-----

Февраль 2025: >>1049742 →
https://github.com/Zyphra/Zonos
https://huggingface.co/Zyphra/Zonos-v0.1-transformer(Веса 3.25 GB)
https://maia.zyphra.com/audio

Zonos - TTS с поддержкой войсклона. По отзыву анона, модель показывает себя очень хорошо, по стабильности намного лучше fish-speech или E2-F5.

✅ Веса в паблике
❌ Русский не поддерживается - поддерживаемые языки: английский, японский, китайский, французский и немецкий

-----

Январь 2025: >>1013818 →
https://huggingface.co/spaces/hexgrad/Kokoro-TTS
https://huggingface.co/hexgrad/Kokoro-82M

Kokoro-TTS - мелкая, обученная энтузиастами TTS-модель, которая вот уже месяц сидит в топ-1 TTS-моделях по скачиваням (больше миллиона загрузок за месяц) на хаггине.

Датасет состоял из нескольких сотен часов, а для обучения было затрачено всего 500 GPU часов (A100 80GB).

✅ Веса в паблике
❌ Русский не поддерживается - поддерживаемые языки: английский, японский, китайский, испанский, хинди, итальянский и португальский

-----

Ноябрь 2024: >>936013 →
https://huggingface.co/amphion/MaskGCT
https://huggingface.co/spaces/amphion/maskgct
https://x.com/reach_vb/status/1851629504348754202

MaskGCT - очередной TTS.

Особенности:
- Клонирование голоса с нуля
- Эмоциональный TTS
- Обучен на 100 тысячах часов данных
- Синтез длинных форм
- Синтез с переменной скоростью
- Двуязычный - китайский и английский

По отзыву анона, данный TTS близок по качеству к elevenlabs.

✅ Веса в паблике
❌ Русский не поддерживается

-----

Ноябрь 2024: >>917559 →
https://github.com/SWivid/F5-TTS
https://huggingface.co/SWivid/F5-TTS
https://huggingface.co/spaces/mrfakename/E2-F5-TTS

F5-TTS - это система преобразования текста в речь (TTS), которая была обучена на 100 000 часов аудиоданных. Она обладает рядом функций, таких как клонирование голоса без предварительного обучения, контроль скорости воспроизведения, синтез эмоций, синтез длинных текстов и поддержка переключения кодов ( https://ru.wikipedia.org/wiki/Переключение_кодов ).

✅ Веса в паблике
⚠️ Базовая модель не поддерживает русский язык, но есть одобренный оригинальным разработчиком русскоязычный файнтьюн: https://github.com/SWivid/F5-TTS/blob/main/src/f5_tts/infer/SHARED.md#russian

-----

Сентябрь 2024: >>883788 →
https://github.com/fishaudio/fish-speech
https://huggingface.co/fishaudio/fish-speech-1.4
https://huggingface.co/fishaudio/fish-agent-v0.1-3b
https://huggingface.co/spaces/fishaudio/fish-speech-1
https://speech.fish.audio/#windows-setup
https://fish.audio/text-to-speech/

Fish Speech - TTS с поддержкой войсклона, на заморском /g/ твердят что он рвёт XTTSv2 в щепки.

✅ Веса в паблике
❌ Русский не поддерживается - поддерживаемые языки: английский, японский, корейский, китайский, французский, немецкий, арабский и испанский

-----

Июль 2024 (сам проект начался в мае 2024): >>815109 →
https://github.com/2noise/ChatTTS
https://huggingface.co/2Noise/ChatTTS

ChatTTS - ещё один TTS. Модель может прогнозировать и контролировать тонкие просодические особенности, включая смех, паузы и междометия. По заявлениям автора, превосходит большинство открытых TTS-моделей в плане просодии.

Основная модель обучена на китайском и английском аудиоматериале объемом более 100 000 часов. Открытая версия на HuggingFace - это предварительно обученная модель на 40 000 часов.

✅ Веса в паблике
❌ Русский не поддерживается - поддерживаются английский и китайский

-----

Июнь 2024: >>802138 →
https://play.google.com/store/apps/details?id=org.futo.voiceinput
https://github.com/futo-org/voice-input

Приложение FUDO добавляет функции голосового ввода в ваш телефон, интегрируясь с другими приложениями и клавиатурами, которые поддерживают стандартные API голосового ввода Android. Все обработка выполняется полностью в автономном режиме на вашем устройстве, и ваши записи НИКОГДА не сохраняются и не отправляются в другие места. Приложение подключается к Интернету только тогда, когда вы решаете скачать дополнительные модели. Приложение FUTO Voice Input обеспечивает конфиденциальность ваших данных.

✅ Веса в паблике - под капотом используется опенсорсный whisper от OpenAI
✅ Нативная поддержка русского

-----

Июнь 2024: >>800694 →
https://www.camb.ai
https://github.com/Camb-ai/MARS5-TTS

MARS5 - этот TTS, который позволяет создавать речь с разнообразной интонацией, такой как спортивные репортажи или озвучка аниме, используя всего 5 секунд аудио и текст.

⚠️ В публичный доступ выложена только англоязычная модель, прочие модели доступны только онлайн: https://github.com/Camb-ai/MARS5-TTS/issues/77#issuecomment-2236018914
⚠️ Русский доступен только в веб-сервисе

-----

Апрель 2024: >>667657 →
https://research.myshell.ai/open-voice
https://github.com/myshell-ai/OpenVoice/
https://github.com/Alienpups/OpenVoice/blob/main/docs/USAGE_WINDOWS.md

OpenVoice - данная STS-система позволяет клонировать голос на разных языках с сохранением индивидуальных особенностей голоса человека - тембра, эмоций, акцента, ритма речи и т.п., даже если язык генерации не входил в тренировочный датасет системы (Zero-shot Cross-lingual Voice Cloning). В качестве референса для клонирования можно использовать небольшой отрывок голоса длиною в несколько секунд.

В апреле 2024 вышла версия OpenVoice v2 с улучшенным качеством генерации речи, нативной поддержкой шести языков (английский, испанский, французский, китайский, японский и корейский).

✅ Веса в паблике
⚠️ Заявлена поддержка любых языков, но русского не было в исходном датасете

Аноним 03/03/25 Пнд 19:43:06 #25 №1077751

Как сейчас самый топовый войс ченджер? https://github.com/w-okada/voice-changer/tree/master этот норм?

Аноним 05/03/25 Срд 06:00:04 #26 №1080693

Какая из локальных моделей может справиться с такой задачей? Например, заливаю ролик с озвучкой на английском языке, а ИИ переводит его на русский? В идеале озвучит, а не просто перевод в виде текста.
Подскажите в какую тему идти, если не по адресу. Спасибо

Аноним 05/03/25 Срд 08:46:01 #27 №1080758

chrome.05.Март.2025.58.43.13.e288j.png

>>1080693
Локальных моделей не находил. ИМХО проще всего использовать интернет API от яндекса.

Аноним 05/03/25 Срд 14:36:41 #28 №1081215

>>1080758
А локальные видео (на пк) он переводит? Или только потоковые с ютуба к примеру

Аноним 05/03/25 Срд 16:41:51 #29 №1081366

>>1081215
Локальные модели с таким функционалом не встречал. Так что да, переводит с ютуба и твича. В принципе можно попердолится и сделать так чтоб переводил и локальные видео запущенные в браузере, но всем лень.

Аноним 06/03/25 Чтв 19:28:03 #30 №1083443

image.png

кто может перевести с инглиша на русиш ?
елевен лабс меня нахуй посылает

вот сурсы:
https://www.youtube.com/watch?v=yyUrw8TJDHM No Photographs of Earth!
https://www.youtube.com/watch?v=BJZ9sqvH9dY Puppet Show
https://www.youtube.com/watch?v=S1D65NMBfmo Do you still believe we went to the moon?
https://www.youtube.com/watch?v=WcqKUhU0WDc Space is Fake!
https://www.youtube.com/watch?v=bS4jPjs6JPw Welcome to the Satellite Hoax

mp4 есть в этих постах # 68 69 70
https://2ch.hk/zog/res/836637.html#859519
https://2ch.hk/zog/res/836637.html#859520
https://2ch.hk/zog/res/836637.html#859521

Аноним 06/03/25 Чтв 19:38:33 #31 №1083456

>>1083443
mp3
https://voca.ro/15rQ0QmlDPjd Space is Fake!
https://voca.ro/12G01pwbqlGo Do you still believe we went to the moon?
https://voca.ro/1exoii6p5PDW Puppet Show
https://voca.ro/11JFX4Pt942x Welcome to the Satellite Hoax
https://voca.ro/1nPGlfXcrmrO No Photographs of Earth!

Аноним 07/03/25 Птн 03:30:00 #32 №1084222

>>1083443
Элевен платный. Для бомжей есть Яндекс
https://github.com/ilyhalight/voice-over-translation

Аноним 07/03/25 Птн 06:35:38 #33 №1084338

image.png

>>1084222

такс, способ рабочий, даже даёт сразу качнуть дорогу
каким способом / софтом можно прикрутить дорогу к mp4, скодированному гуглом / тытрубой, без перекодирования видеодороги ? чтобы не всирать качество видео повторным кодированием

Аноним 07/03/25 Птн 07:13:13 #34 №1084350

>>1084338
Avidenux просто выбери в настройках копирование дорожки без пережатия.

Аноним 07/03/25 Птн 07:27:55 #35 №1084357

>>1084350
а я уже через LosslessCut https://github.com/mifi/lossless-cut всё замутила
короче,
- с высокой вероятностью перевод-дубляж бесплатно хуй где найдешь (убирание оригинального голоса + с сохранением музыки + наложение перевода новым голосом)
- поэтому самое быстрое, бесплатное и без всяких ебучих регистраций на 300 видеопереводческих сайтах - получится перевод-MVO, гайд такой:
1. https://github.com/ilyhalight/voice-over-translation - хуйня которая переведёт тытрубу и выдаст тебе mp3 с переводом бездушной говорилки без сохранения оригинальной тональности, интонаций и музыки
2. плюсом качаешь ориг видос с тытрубы + извлекаешь оттуда ориг аудиодорогу
3. в любом аудиоредакторе делаешь MVO, соединяя оригинальную дорогу с переведённой, понижая громкость оригинала, чтобы MVO слышалось лучше и не воевало с оригинальной громкостью - получаешь новую ебейшую аудиодорогу
4. дальше либо сжимаешь видео заново с подменой аудиодороги (что хуже) или подменяешь без пережатия через LosslessCut или Avidemux (что лучше)
5. получаешь норм качество для бомжей за цену интернета

Аноним 07/03/25 Птн 07:28:55 #36 №1084358

>>1084357
>LosslessCut
тут поправочка, в релизах на гитхабе не видно релиза для винды, но на самой странице описания есть ссылка на виндузный релиз, который запускается и норм отрабатывает

Аноним 07/03/25 Птн 07:30:44 #37 №1084360

>>1084357
весь этот вариант будет без наложения субтитров, но зато в любом браузере
а с наложенными субтитрами можно сделать через второй вариант - запустить тытрубу в яндекс браузере и запустить перевод с авто наложением субтитров + записать экран

Аноним 07/03/25 Птн 07:54:09 #38 №1084369

>>1084357
>2.извлекаешь оттуда ориг аудиодорогу
кстати извлечь можно тоже через LosslessCut

Аноним 08/03/25 Суб 10:55:12 #39 №1085921

>>1074507

Яндекс читалка отлично озвучивает книги, ничего лучшего не видел.

Аноним 12/03/25 Срд 00:10:35 #40 №1093303

>>1055415
БАМП РЕКВЕСТУ

Аноним 12/03/25 Срд 20:33:04 #41 №1094864

>>1074630
>3. Balabolka + Ivona/SAPI5
Не знаю насчет балаболки, но Ivona Reader для винды отлично справляется с большими текстами. Мне он трехсоткилобайтный текст зачитал. Единственный минус, что голос Татьяны мягко говоря заезженный и легко узнаваемый. Он может и надоесть.
Для разнообразия я юзаю alltalk_tts, с которым можно использовать любой голос, если есть хотя бы десять секунд его записи. Минус в том, что генерируется много артефактов, да и максимальная длина текста по ощущениям где-то пять килобайт.

Аноним 13/03/25 Чтв 17:41:12 #42 №1095913

17418763453400.mp4

У КОГО ЕСТЬ ПЛАТНИК ELEVEN LABS ?

МОЖЕТЕ НАЗАД ПЕРЕВЕСТИ С ФРАНЦУЗСКОГО НА РУС ?

интересует не оригинал, а именно перевод назад

Аноним 13/03/25 Чтв 19:30:22 #43 №1095979

Хмм, а возможна ли такая схема? При которой через интернет, человек говорит в микрофон смартфона, это всё дело идёт на пк, воспринимается rvc как входящий звук, обрабатывается соответственно, и на выход он отсылает звук обратно на смартфон через его динамик собственно. Да, пинг будет знатный, но всё же.

Аноним 13/03/25 Чтв 23:00:27 #44 №1096340

LkEKQMrbp6.png

>>1073727
Теперь в опенсорс
https://github.com/SesameAILabs/csm
https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
Правда есть нюанс - это базовая модель без голосов maya и miles.

Аноним 14/03/25 Птн 02:01:33 #45 №1096506

>>1096340
Пример войсклона
https://vocaroo.com/15c8cFYfgiiZ
https://commons.wikimedia.org/wiki/File:Alison_Balsom_voice.ogg

Аноним 14/03/25 Птн 08:44:13 #46 №1096611

>>1095979
Да в принципе легко, но смысла нет. Производительности смартфона достаточно чтоб обрабатывать звук стационарно на смартфоне.

Аноним 14/03/25 Птн 16:00:49 #47 №1096994

В общем, есть монолог на русском. Я хочу его переозвучить голосом фурины. Как это сделать проще всего?

Аноним 18/03/25 Втр 11:35:41 #48 №1102874

>>1055411 (OP)
>https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts
Всё какой-то кал из жопы судя по обзору чувачка https://www.youtube.com/watch?v=GATOydA_B7Y

Аноним 22/03/25 Суб 02:07:30 #49 №1106985

Есть что-то лучше, нежели RVC, для риалтайм изменения войса?

Аноним 22/03/25 Суб 10:18:49 #50 №1107293

>>1102874
Ну обзору год уже.
Появился fish speech. вполне неплохо справляется, даже в интонацию местами попадает
https://voca.ro/1depzg4heml5
ПроЁбывается со словами с Ё, в тексте их придется менять самому, ну и жеваный он произнес нормально только тогда, когда я написал его с двумя н

Аноним 25/03/25 Втр 11:40:46 #51 №1110886

RVC как я понял особо перестали обновлять? В общем вопрос такой сталкивался кто с зависанием при преобразовании? Карта 4070 ti super, но почему-то при преобразовании rmvpe переодически происходит зависание и бесконечное преобразование. С чем это связано я так и не понял и это при том что преобразование через crepe работает стабильно, хоть и дольше.

Реквест Аноним 25/03/25 Втр 11:42:50 #52 №1110889

drinking.mp4

Пьянка это сила2.mp4

Может кто-то получше ориг с русского на английский прогнать? Чтобы голоса сохранились

Аноним 26/03/25 Срд 06:43:02 #53 №1112622

Установил локальный Zonos.Выбираю русский язык модели "ru", а там поебота с акцентом каким-то чуркистанским. Это ловушка жокера или чонах? У кого было?

Аноним 26/03/25 Срд 07:00:23 #54 №1112626

>>1112622
Прочитал тред и разобрался. Всех благ анону >>1075475

Аноним 28/03/25 Птн 00:31:00 #55 №1116680

>>1055411 (OP)
Анончики, пожалуйста, скажите, как по простому просто поменять голос? Скачал clonfish, микрофон вроде слышит, но голос не меняет.
Скачал другую прогу, там эхо сильное, да и не факт, что голос меняет.
Мне просто нужно, чтобы голос менялся в реальном времени, чтобы мои данные не хранились на сторонних серверах. Просто включил и голос поменялся, все, но почему так сложно то?

Аноним 30/03/25 Вск 06:17:53 #56 №1120433

Анончики помогите пожалуйста. Мне нужен нормальный русский ттс, с каким ни будь милым голосом.

Я уже кучу всего перепробовал, коки говно, f5 tts с русском моделью тоже ударения говно, пробовал так же fish speech но тоже не то.

У силеры какие-то всратые голоса, я хочу полный оффлайн.
Я думаю собрать silero Tts + rvcv2, насколько это годное решение, мб есть что-то более лучшее?

И ещё вопрос по поводу силеры, v4 модель какая-то ваще ужасная, или это я что-то не то делаю?

Денойзеры как будто ещё хуже делают. Как вообще это использовать?

Аноним 31/03/25 Пнд 14:27:54 #57 №1122797

>>1120433
Играйся с настройками. Даже в XTTS можно подобрать годный мимими конфиг.
https://www.youtube.com/watch?v=PJOOqqXeJhA

Аноним 31/03/25 Пнд 15:07:21 #58 №1122847

image.png

Есть варики заабузить minimax audio? Кредиты обновляются, но попытки контроля эмоций нет. Смена аккаунта, очистка кеша, VPN не работают.

Аноним 05/04/25 Суб 00:09:08 #59 №1131445

>>1106985
В итоге на rvc остановился или что-то другое нашел?

Аноним 06/04/25 Вск 20:30:12 #60 №1134438

обучил модель в войсчейнджере модель, но RVC отказывается есть, ругается на конфиг. Не сталкивался никто?

Аноним 10/04/25 Чтв 21:00:17 #61 №1144457

А кто знает, откуда берут голоса для озвучивания типа всяких героев warcraft 3, именно русских, на huggingface только пиндоские. Это типа самому обучать проще, или искать где-то в дискордах кто поделится?

Аноним 12/04/25 Суб 19:55:49 #62 №1148699

https://www.youtube.com/watch?v=MvmPhO5zUcs

Аноны, как такого же добиться? Я перепробовал миллион говна и нигде даже близко такого нет.

Аноним 13/04/25 Вск 23:25:22 #63 №1151120

Demagog.14.Апрель.2025.16.22.04.Qd4uV.png

Demagog.14.Апрель.2025.35.21.04.ftSjE.png

Demagog.14.Апрель.2025.56.21.04.N6qzP.png

>>1148699
Чего такого? Тут качественная настройка текста. Постаброботка сверху накинули эмбиент. А по качеству самого голоса уровень обычной Silero TTS с кастомным конфигом. Не понимаю чему ты тут восхищаешься. Это даже не близко к уровню Элевенлабс.

Если тебе нужно озвучивать книжки качаешь Демагога с поддержкой КУДА ядер.
https://disk.yandex.ru/d/O_jilqejPKIt1A
накатываешь кастомную настройку голоса (просто делаешь с замаеной фаил model.pt после чего под названием Random будет кастомный голос Дмитрия, а не рандомный голос)
https://disk.yandex.ru/d/_WDI3RvAeIpAVw

Все дальше как обычно открываешь книгу в демагоге
скрипты>из файла>Silero>Text to Speech
Диктором ставишь Рандома

Если тебя впечатлил эмбиент поверх озвучки добавить его тоже не сложно.

Аноним 13/04/25 Вск 23:36:52 #64 №1151128

hsyeopuj00001.mp4

>>1148699
Пример работы Силеро на кастомном голосе

Аноним 14/04/25 Пнд 09:39:53 #65 №1151489

>>1151120
Ахуеньчик. А в демагоге можно как-то сделать удобно озвучку разными голосами, например выделив текст общения двух геров что бы один диалог зачитывало одним голосом а после другой уже другим?

Аноним 14/04/25 Пнд 09:49:27 #66 №1151497

>>1151489
Нет. Хотя можно самому накалякать скрипт в питоне но всем лень.

Аноним 16/04/25 Срд 22:22:57 #67 №1158380

>>1075475
Есть ли сейчас какие-то более-менее адекватные TTS с хорошей поддержкой русского?

Пока что из того, что я перепробовал, даже древнючий RHVoice никто переплюнуть не может.

Неужели никому это не интересно? Тот же SoVITS допилить, например...

Аноним 17/04/25 Чтв 20:23:09 #68 №1160175

>>1158380
Silero TTS пробовал? Вообще конечно в идеале самому править гласные, ну или скрипт поставить что бы он сам подставлял + на гласные, выходит очень годно, но иногда даже скрипт может насрать так что просто так озвучить идеально например книгу не получится.

Аноним 18/04/25 Птн 01:05:54 #69 №1160922

asef awew3a3ta awefasdf

Аноним 18/04/25 Птн 05:57:52 #70 №1161794

>>1151497
>>1160175
>скрипт
Сейчас же трудности нет накалякать скрипты даже если питона не знаешь, с помочью нейросетки?

Аноним 18/04/25 Птн 06:27:44 #71 №1161816

>>1161794
Нет. Для этого все равно нужно во первых понимание питона во вторых умение писать правильный промпт. ИИ хорошо пишет код только тогда когда у тебя промпт составляет чуть ли не половину количества символов кода который ты хочешь получить.

Аноним 18/04/25 Птн 10:45:27 #72 №1161940

>>1160175
Вот как раз Silero не пробовал, погоняю, спасибо. Но что-то сомневаюсь, что оно дотягивается по уровню до GPT-SoVITS на английском. Эта штука мне просто мозг взорвала, говорит как настоящий человек. Очень изредка проскакивают мелкие косяки, когда оно или глотает фонемы, или, наоборот, добавляет лишние, но в целом качество просто моё почтение. Даже эмоции есть.

Аноним 18/04/25 Птн 12:57:05 #73 №1162037

>>1160175
>>1161940
Чет попробовал Silero, вообще не понравился. Озвучивает не то чтоб плохо, но металлические призвуки очень явно слышны.

Аноним 18/04/25 Птн 17:27:51 #74 №1162521

>>1161794
ИИ неплохо пишет код, "общий" код.
Типа "сделай мне на питоне экстрактор метаданных из всех картинок в папке, откуда происходит запуск скрипта" - запросто.

А когда у тебя уже чисто прикладная задача под какую-то конкретную среду - тут все сразу и ломается.
"Напиши мне скрипт глушителя на lua для игры Project Zomboid" - и ИИ тут предскузаемо ничего сделать не сможет. Потому что у него нет знания, как там в игре всё работает.
Тебе потребуется изучить внутрянку игры, понять это все самому, и потом уже, задав нужную базу в запросе, попросить написать нужный код.

Я вот хочу кнопку-экстеншн для вебуя автоматика закодить, которая делала бы очень простую вещь (апскейл полученной картинки последовательно два раза на заданных настройках), но так как я понятия не имею о структуре вебуя вообще и плагинов в частности - я даже не знаю, как роботу запрос составить. А разбираться лень.

Аноним 18/04/25 Птн 20:06:59 #75 №1162886

Друже, подскажите бесплатные программы для липсинка

Аноним 19/04/25 Суб 16:55:19 #76 №1164266

>>1161940
>SoVITS
а можно примерчиков озвучки в студию?
прежде чем качать и устанавливать хотелось бы на реальные примеры глянуть.

Аноним 19/04/25 Суб 18:31:51 #77 №1164467

>>1164266
Доберусь до машины на днях - сделаю.

Аноним 20/04/25 Вск 21:18:49 #78 №1166684

FischlHello.mp4

FischlWorldBeast.mp4

Снимок экрана2025-04-2023-11-48.png

>>1164266
>>1164467
Ну собсно вот. Взял одну из фраз Фишли отсюда как референс: https://genshin-impact.fandom.com/wiki/Fischl/Voice-Overs , и сгенерировал две другие. Получилось, как по мне, просто идеально. Если бы мне не сказали, что это не оригиналы, я бы в жизни не догадался.

Аноним 20/04/25 Вск 21:39:01 #79 №1166700

Блеадь... Оставил на выходные piper файн-тюниться. Прихожу домой - был скачок света, все результаты похерились. Ну ебаный в рот, ну...

Аноним 21/04/25 Пнд 05:24:18 #80 №1167063

>>1166684
>Если бы мне не сказали, что это не оригиналы, я бы в жизни не догадался.
Так слышно же искусственность и неправильные ударения.

Аноним 21/04/25 Пнд 09:03:16 #81 №1167158

>>1167063
Ну да, я немного перегнул, каюсь, но НАСТОЛЬКО хороших результатов я не ожидал. С этим вполне можно жить.

Оно еще изредка может скипнуть фонему или воткнуть лишнюю, но, честно говоря, это все равно на голову лучше всего остального, что мне встречалось.

Ударения, кстати, можно расставить руками / LLM-кой, в принципе-то. Будет еще лучше.

Аноним 21/04/25 Пнд 09:20:49 #82 №1167172

>>1167063
Послушал и что-то не заметил косяков в ударениях в английском. Фишль, если что, девочка-чинубье, которая использует местами немецкие фразы - и вот с ними английская фонемизация чуть лажает (но не критично)

Аноним 21/04/25 Пнд 14:47:31 #83 №1167612

Насколько сложно будет с помощью нейросеток сделать переозвучку на русский фильма или аниме на уровне нормального даба? Т.е. не просто накинуть сверху на оригинальные голоса сгенерированную озвучку, но и потереть оригинальную. Насколько знаю можно найти "немые" фильмы в которых есть весь звук кроме озвучки. С такими будет куда проще работать, но вот с аниме или мультами такого нет.
Почему таким никто не занимается? Оригинальные голоса с той же интонацией ведь всяко лучше чем фандаб?

Аноним 21/04/25 Пнд 14:52:37 #84 №1167624

>>1167612
> Насколько сложно будет с помощью нейросеток сделать переозвучку на русский фильма или аниме на уровне нормального даба? Т.е. не просто накинуть сверху на оригинальные голоса сгенерированную озвучку, но и потереть оригинальную.

Невозможно. Можешь попытаться сепарировать звуковую дорожку на голос и остальное, потом перевести, потом обратно слить, но почти наверняка будет кал.

> Насколько знаю можно найти "немые" фильмы в которых есть весь звук кроме озвучки. С такими будет куда проще работать, но вот с аниме или мультами такого нет.

Это обычно слитые монтажерами / студиями дубляжа версии. Встречаются крайне редко, можешь на них не рассчитывать особо.

> Почему таким никто не занимается? Оригинальные голоса с той же интонацией ведь всяко лучше чем фандаб?

Потому что на выходе кал получается.

Аноним 22/04/25 Втр 04:13:46 #85 №1169147

>>1167612
>Почему таким никто не занимается?
Потому что кропотливость работы над этим ебанутейшая, куда проще сесть и запилить говнодаб своим гнусавым голосом.

Аноним 22/04/25 Втр 09:23:06 #86 №1169395

>>1169147
Кропотливость ок, но может же окупиться вполне. Хотел было сам попробовать, но из за РАБоты времени оч мало, а комп вполне производительный для запуска рендеров и нейронок

Аноним 22/04/25 Втр 13:16:21 #87 №1169698

>>1169395
Посмотри на тот же анимевост. Знаешь в чем секрет их успеха и популярности? Скорость озвучки, часа не проходит, серия уже доступна. Ежедневно переводятся десятки аним. А сколько ты будешь пердолить хотя бы одну серию, часа 3? Ну удачи, че.

Аноним 23/04/25 Срд 15:04:58 #88 №1171482

test.webm

Анон, в чем может быть причина, почему артефачит голос?

Аноним 24/04/25 Чтв 20:56:22 #89 №1173776

Попробовал обучить модель в RVC, обучал набором реплик на японском. Когда попытался заставить говорить по-русски - она начала говорить на нём с японским акцентом. Конечно, аутентично, но не то, что мне нужно. Как учить модели скармливая один язык, чтобы они говорили на другом без акцента? Elevenlabs же это как-то делает.

Аноним 27/04/25 Вск 21:31:36 #90 №1179437

>>1162037
Металл в голосе появился только в 4 версии. В старой 3,1 никакого металла нет. Вот семпл, где там металл? >>1151128

Аноним 28/04/25 Пнд 15:57:21 #91 №1180854

Тестирую RVC, заметил, что очень аутпут частенько шепелявит, или вставляет много звуков "с".

Как поправить дикцию? Или это косяк используемых моделей?

Аноним 28/04/25 Пнд 16:56:08 #92 №1180925

>>1180854
Ползунками настойки. Температура, пич и вот это вот все остальное.

Аноним 28/04/25 Пнд 23:29:29 #93 №1181625

Так что теперь? TTS Нейросети лучше читают тексты чем те программы голосовых движков что были раньше?

Аноним 29/04/25 Втр 02:30:03 #94 №1181811

20к.JPG

Маркс Разоблачения дипломатической истории.mkv

>>1158380
>TTS
Я тоже только что начал искать что нового в TTS именно в ИИ, и нашёл что онлайн-сервисы (платные) читают лучше чем RHVoice, хотя есть и небольшие ошибки с датами и с ё.

Читают уже как настоящий диктор, но этот сервис платный, там что-то 20 000 символов в месяц бесплатных, ещё непонятно всегда или один раз.

Аноним 29/04/25 Втр 04:48:44 #95 №1181909

VIIXIXII.JPG

RHVМаркс.mkv

>>1181811
>читают лучше чем RHVoice
И RHV такие даты - XXII - неправильно читает.

Аноним 29/04/25 Втр 05:17:47 #96 №1181911

>>1055428
ж

Аноним 29/04/25 Втр 05:30:10 #97 №1181912

поясните тупому как работают нейрокаверы? вот допустим у меня есть модель с голосом киркорова но если я дам ему промт со словами песни он же просто проговорит её а не споет, ведь откуда ему знать как петь? или как? я правильно понимаю что нужно взять файл без музыки где уже кто то что то спел и уже его как бы заменять голосом киркорова но уже со своим промтом?

Аноним 29/04/25 Втр 05:32:56 #98 №1181913

v4.2.2016.21.mkv

>>1181909
>даты - XXII - неправильно читает
А не, это у меня старая версия была, я обновил на v4.2.2016.21 и исправилось.

Аноним 29/04/25 Втр 05:50:10 #99 №1181914

>>1158380
>адекватные
Короче, из бесплатных RHV и Microsoft Irina Desktop.

Может для улучшения звука ещё в Виндовс поставить эквалайзер, или в звуковом драйвере, там где фирменная утилита с эквалайзером и шаблонами звучаний типа "рок", "джаз", "опера", может поиграться настройками и ещё лучше будет.

А из платных - онлайн сервисы хорошо как диктор читают, ну и сохранить в мр3 у них тоже есть.

Аноним 29/04/25 Втр 18:54:10 #100 №1182779

Анон, как бороться с сибилянтами?

Аноним 29/04/25 Втр 23:00:49 #101 №1183380

>>1179437
Да ну нафиг, я за-е-бал-ся все это перебирать.

В итоге сейчас выбираю между Piper и форком Matcha-TTS от VOSK. Оба хорошо файн-тюнятся, но...

Piper почему-то после файн-тюна начинает говорить с жёстким английским акцентом, хотя в датасете только русский.

Matcha-TTS после файн-тюна начинает местами "позвякивать", порой заметно.

>>1181914
> Короче, из бесплатных RHV и Microsoft Irina Desktop.

Ну, ставить Винду ради TTS я точно не буду. RHVoice дообучить вроде как нельзя, а RVC работать поверх синтезированного голоса будет фигово.

Аноним 29/04/25 Втр 23:01:56 #102 №1183384

>>1183380
Да, задача у меня - в реалтайме озвучивать текст кастомным голосом.

Аноним 30/04/25 Срд 00:43:37 #103 №1183609

>>1183384
>задача у меня

Купить гаджет для этой цели и всё. Есть типа смартфона по размеру шкатулка, там выбор голосов какой надо (женский, мужской, старый, молодой и т.д.). Через неё говорить и она меняет голос.

Ещё в Snapchat было лет 10 назад у школьников был тренд, там можно было петь в микрофон и голос менялся.

Ещё диджейские шкатулочки, всякие луперы, походу должны на ходу уметь менять голос, диджейскую миксер-машинку маленькую купить, подкл. к ней микрофон, ползунками выставить тон, высоту звука и т.д.

Аноним 30/04/25 Срд 00:46:56 #104 №1183611

>>1183384
>кастомным голосом
Ты наверное хотишь голосами известных людей и персонажей мультфильмов?

Если просто поменять тембр/тон/звучание, то достаточно лупер-DJ-машинки, или через DAW станцию если на ПК прогонять голос через какие-то плагины.

Аноним 30/04/25 Срд 00:59:16 #105 №1183620

чо.JPG

>>1183611
>DAW станцию
Вот тут в примере плагинов куча, через них можно прогонять голос.
https://www.youtube.com/watch?v=-GWCVeys7QQ

Хоть это не ИИ, но думаешь не будет задержки у ИИ в реалтайме?

Аноним 30/04/25 Срд 06:45:01 #106 №1183706

>>1183609
>>1183611
>>1183620
За готовность помочь и советы спасибо, но это все тоже не совсем то. Я хочу конкретный приятный мне голос заюзать. Насчёт небольшой задержки (где-то до полсекунды) - не проблема, текст все равно генерироваться будет локальной LLM-кой. Про "реальное время" я сказал скорее потому, чтобы отсечь варианты с онлайн-сервисами и прочим, где нужно закидывать сразу портянку текста и ждать.

Аноним 01/05/25 Чтв 20:40:22 #107 №1185606

Чем озвучить текст на японском?

Аноним 01/05/25 Чтв 21:12:50 #108 №1185642

>>1185606
GPT-SoVITS

Аноним 01/05/25 Чтв 21:26:56 #109 №1185662

https://notebooklm.google.com/notebook/bab3cd51-e190-42c3-9190-8e4d4896963d/audio

Аноним 01/05/25 Чтв 22:15:57 #110 №1185763

>>1151489
>А в демагоге можно как-то сделать удобно озвучку разными голосами, например выделив текст общения двух геров что бы один диалог зачитывало одним голосом а после другой уже другим?

Для озвучки разными голосами.
https://github.com/nari-labs/dia

Аноним 02/05/25 Птн 10:25:01 #111 №1186255

Господа, есть план озвучить существующую древнюю игру. Есть оригинальные голоса, хороший перевод на русский и еще пару языков, есть бюджет в пару сотен зеленых, нет знаний.

Идеальный результат это иметь озвучку со старыми голосами, но на новом языке. Голоса, как понимаю, не проблема, достаточно прогнать STS через RVC с нужной натренированной моделью, но я не очень знаю, как можно получить новое аудио на новом языке, но с сохранением интонаций.

Есть идеи?

Аноним 02/05/25 Птн 13:04:11 #112 №1186409

image.png

2025-05-0214-28-44output.mkv

2025-05-0214-42-52output.mkv

Аноним 02/05/25 Птн 15:28:07 #113 №1186546

>>1186409
хахахаха скинь модельку анон!

Аноним 02/05/25 Птн 21:54:32 #114 №1187017

>>1186409
Хрипит дичайше, и качество... Мда. Впрочем, спасибо, что выложил - теперь я понял, что мои потуги далеко не так плохи, как мне казалось.

Аноним 02/05/25 Птн 22:21:36 #115 №1187043

img-1.png

Кто-нибудь пытался собрать андроид приложение с TTS движком, которое бы регистрировалось в системе как TTS движок, вместо встроенного от гугла?
Какие результаты?
Как производительность?
Есть в гуглПлей или гитхабе?

Аноним 02/05/25 Птн 22:37:00 #116 №1187054

>>1187017
Хрена се, ну делай лучше если можешь, но что то мне кажется что не сможешь. Пиздеть - не мешки ворочить.

Аноним 03/05/25 Суб 08:56:08 #117 №1187362

>>1187043
RHVoice можно поставить на ведро, работает он там вполне бодро.

Аноним 03/05/25 Суб 12:51:20 #118 №1187469

>>1187362
>RHVoice
Звучит как робот, конечно, но работает шустро и слова типа зал. или губ. не превращаются в залив и губернию, как у гугла.
Сяп, анон.

Аноним 03/05/25 Суб 16:01:33 #119 №1187685

4nhtl.jpg

Аноны, поделитесь этим видосом из оп-поста 4 треда, у кого осталось, плз.

Аноним 04/05/25 Вск 03:44:31 #120 №1188506

.mp4

>>1187685

Аноним 04/05/25 Вск 07:00:42 #121 №1188532

>>1188506
Спасибо, как же кайфово она поет.

Аноним 07/05/25 Срд 15:00:19 #122 №1193094

16084830111090.mp4

Аноны, подкиньте RVC-моделек с детскими голосами. Требуется подкасты на русском для детей сделать.

Аноним 07/05/25 Срд 15:29:54 #123 №1193118

>>1188506
Цйфзеятжмъёц йз.

Аноним 08/05/25 Чтв 07:52:44 #124 №1194027

image

>>1193094
>Требуется подкасты на русском для детей сделать.

Аноним 09/05/25 Птн 09:10:58 #125 №1195289

сап ананасы, с наскока ничего не нашел, ни в шапке треда, ни у нейронок, а нужно вот что:
подскажите voice to voice нормальный. То есть я записываю голос текст он его преобразует в голос который мне нужен сохраняя паузы, скорость проговаривания