Модели ASR и голоса́ TTS
Эти интеграции нужны для распознавания и синтеза речи:
- Во время звонков. Подробнее о телефонии читайте в статье Как настроить звонки.
- В текстовых каналах для распознавания или генерации аудиофайлов.
Учетные данные для этих интеграций описаны в статье Учетные данные для ASR/TTS.
Модели ASR
3i VoxKit
Модель — идентификатор модели для распознавания речи.
Audiogram
Сервис распознает речь только на русском языке. У интеграции нет дополнительных настроек.
Azure
Язык — введите код языка, на котором говорят ваши клиенты. Например, ru-RU для русского языка. Полный список языков смотрите в документации Azure.
Google Cloud
- Язык — выберите язык, на котором будут говорить ваши клиенты.
- Модель — название модели для распознавания речи.
В документации Google Cloud вы можете посмотреть список поддерживаемых языков и моделей.
SaluteSpeech
Сервис распознает речь только на русском языке. У интеграции нет дополнительных настроек.
T-Bank VoiceKit
Сервис распознает речь только на русском языке. У интеграции нет дополнительных настроек.
Yandex SpeechKit
- Язык — код языка, на котором говорят ваши клиенты.
- Модель — версия модели для распознавания речи.
- Числа прописью — если опция включена, то в распознанном тексте числа записываются словами. Например,
тринадцатьвместо13. - Подавление шума — опция уменьшает чувствительность модели к фоновым шумам.
Голоса TTS
3i VoxKit
Голос — выберите голос для синтеза речи.
Audiogram
-
Модель — модель для синтеза речи. Сейчас доступна только модель high_quality.
-
Голос — голос для синтеза речи:
-
Женские голоса:
- borisova
- kishchik
-
Мужские голоса:
- gandzhaev
- gavrilov
-
-
Эмоция — эмоциональная окраска голоса:
- neutral — нейтральная
- happy — радостная
Azure
Голос — введите идентификатор голоса. Полный список голосов смотрите в документации Azure. Agent Platform поддерживает только нейронные голоса (Neural).
ElevenLabs
-
Модель:
eleven_turbo_v2_5— модель с хорошим балансом между качеством речи и скоростью генерации.eleven_flash_v2_5— быстрая модель с минимальной задержкой.eleven_multilingual_v2— модель с высоким качеством синтеза, но имеет более высокую задержку и цену.
-
Сходство с оригиналом — определяет, насколько точно ИИ должен имитировать оригинальный голос.
-
Скорость — чем выше значение, тем быстрее будет речь.
-
Стабильность — определяет стабильность голоса и вариативность синтеза. При низких значениях голос звучит эмоционально, при высоких — монотонно.
-
Экспрессия — подчеркивает уникальные черты голоса и делает голос более выразительным. Значения выше 0 требуют больше ресурсов и могут увеличить задержку.
-
Голос — идентификатор голоса для синтеза речи. Вы можете получить идентификатор (Voice ID) в личном кабинете ElevenLabs. Пример:
12a34Bcd5EfgHi6jkLMN.
Сходство с оригиналом, Стабильность и Экспрессия соответствуют параметрам Similarity, Stability и Style Exaggeration в ElevenLabs.
Языки
-
ElevenLabs поддерживает множество языков.
примечаниеСайт ElevenLabs недоступен для российских IP-адресов.
-
Провайдер сам определяет язык синтеза на основе полученного текста. Вам не нужно указывать язык вручную.
-
Некоторые голоса могут иметь акценты.
Google Cloud
- Высота голоса — например, значение
20повысит тон голоса на20полутонов. - Скорость — чем выше значение, тем быстрее будет речь.
- Голос — название голоса для синтеза речи.
- Громкость — измеряется в децибелах (dB). Не рекомендуется устанавливать значение выше
10.
В документации Google Cloud вы можете посмотреть список поддерживаемых голосов.
SaluteSpeech
Голос — введите код голоса для синтеза речи, например Nec_8000.
Agent Platform поддерживает только голоса с частотой 8 кГц — коды таких голосов заканчиваются на _8000.
Смотрите список голосов в документации SaluteSpeech.
Yandex SpeechKit
- Язык — код языка, на котором будет синтезироваться речь.
- Манера речи — соответствует амплуа из документации Yandex SpeechKit. Это характеристика звучания голоса — например, диктор может говорить более дружелюбно или шепотом.
- Скорость — чем выше значение, тем быстрее будет речь.
1— нормальная скорость голоса. - Голос — название голоса для синтеза речи. Agent Platform поддерживает голоса v3.
- Громкость — громкость относительно цифровой полной шкалы LKFS/LUFS. Рекомендуемый диапазон значений: от
−20до−16.
Список доступных голосов v3, языков и амплуа смотрите в документации Yandex SpeechKit.