Модели ASR и голоса́ TTS

Эти интеграции нужны для распознавания и синтеза речи:

Во время звонков. Подробнее о телефонии читайте в статье Как настроить звонки.
В текстовых каналах для распознавания или генерации аудиофайлов.

Учетные данные для этих интеграций описаны в статье Учетные данные для ASR/TTS.

Модели ASR

3i VoxKit

Модель — идентификатор модели для распознавания речи.

Audiogram

Сервис распознает речь только на русском языке. У интеграции нет дополнительных настроек.

Azure

Язык — введите код языка, на котором говорят ваши клиенты. Например, ru-RU для русского языка. Полный список языков смотрите в документации Azure.

Google Cloud

Язык — выберите язык, на котором будут говорить ваши клиенты.
Модель — название модели для распознавания речи.

В документации Google Cloud вы можете посмотреть список поддерживаемых языков и моделей.

SaluteSpeech

Сервис распознает речь только на русском языке. У интеграции нет дополнительных настроек.

T-Bank VoiceKit

Сервис распознает речь только на русском языке. У интеграции нет дополнительных настроек.

Yandex SpeechKit

Язык — код языка, на котором говорят ваши клиенты.
Модель — версия модели для распознавания речи.
Числа прописью — если опция включена, то в распознанном тексте числа записываются словами. Например, тринадцать вместо 13.
Подавление шума — опция уменьшает чувствительность модели к фоновым шумам.

Голоса TTS

3i VoxKit

Голос — выберите голос для синтеза речи.

Audiogram

Модель — модель для синтеза речи. Сейчас доступна только модель high_quality.
Голос — голос для синтеза речи:
- Женские голоса:
  - borisova
  - kishchik
- Мужские голоса:
  - gandzhaev
  - gavrilov
Эмоция — эмоциональная окраска голоса:
- neutral — нейтральная
- happy — радостная

Azure

Голос — введите идентификатор голоса. Полный список голосов смотрите в документации Azure. Agent Platform поддерживает только нейронные голоса (Neural).

ElevenLabs

Модель:
- eleven_turbo_v2_5 — модель с хорошим балансом между качеством речи и скоростью генерации.
- eleven_flash_v2_5 — быстрая модель с минимальной задержкой.
- eleven_multilingual_v2 — модель с высоким качеством синтеза, но имеет более высокую задержку и цену.
Сходство с оригиналом — определяет, насколько точно ИИ должен имитировать оригинальный голос.
Скорость — чем выше значение, тем быстрее будет речь.
Стабильность — определяет стабильность голоса и вариативность синтеза. При низких значениях голос звучит эмоционально, при высоких — монотонно.
Экспрессия — подчеркивает уникальные черты голоса и делает голос более выразительным. Значения выше 0 требуют больше ресурсов и могут увеличить задержку.
Голос — идентификатор голоса для синтеза речи. Вы можете получить идентификатор (Voice ID) в личном кабинете ElevenLabs. Пример: 12a34Bcd5EfgHi6jkLMN.

примечание

Сходство с оригиналом, Стабильность и Экспрессия соответствуют параметрам Similarity, Stability и Style Exaggeration в ElevenLabs.

Языки

ElevenLabs поддерживает множество языков.

примечание
Сайт ElevenLabs недоступен для российских IP-адресов.
Провайдер сам определяет язык синтеза на основе полученного текста. Вам не нужно указывать язык вручную.
Некоторые голоса могут иметь акценты.

Google Cloud

Высота голоса — например, значение 20 повысит тон голоса на 20 полутонов.
Скорость — чем выше значение, тем быстрее будет речь.
Голос — название голоса для синтеза речи.
Громкость — измеряется в децибелах (dB). Не рекомендуется устанавливать значение выше 10.

В документации Google Cloud вы можете посмотреть список поддерживаемых голосов.

SaluteSpeech

Голос — введите код голоса для синтеза речи, например Nec_8000. Agent Platform поддерживает только голоса с частотой 8 кГц — коды таких голосов заканчиваются на _8000.

Смотрите список голосов в документации SaluteSpeech.

Yandex SpeechKit

Язык — код языка, на котором будет синтезироваться речь.
Манера речи — соответствует амплуа из документации Yandex SpeechKit. Это характеристика звучания голоса — например, диктор может говорить более дружелюбно или шепотом.
Скорость — чем выше значение, тем быстрее будет речь. 1 — нормальная скорость голоса.
Голос — название голоса для синтеза речи. Agent Platform поддерживает голоса v3.
Громкость — громкость относительно цифровой полной шкалы LKFS/LUFS. Рекомендуемый диапазон значений: от −20 до −16.

к сведению

Список доступных голосов v3, языков и амплуа смотрите в документации Yandex SpeechKit.

Модели ASR​

3i VoxKit​

Audiogram​

Azure​

Google Cloud​

SaluteSpeech​

T-Bank VoiceKit​

Yandex SpeechKit​

Голоса TTS​

3i VoxKit​

Audiogram​

Azure​

ElevenLabs​

Языки​

Google Cloud​

SaluteSpeech​

Yandex SpeechKit​

Модели ASR

3i VoxKit

Audiogram

Azure

Google Cloud

SaluteSpeech

T-Bank VoiceKit

Yandex SpeechKit

Голоса TTS

3i VoxKit

Audiogram

Azure

ElevenLabs

Языки

Google Cloud

SaluteSpeech

Yandex SpeechKit