Перейти к основному содержимому

Модели ASR и голоса́ TTS

Эти интеграции нужны для распознавания и синтеза речи:

Учетные данные для этих интеграций описаны в статье Учетные данные для ASR/TTS.

Модели ASR

3i VoxKit

Модель — идентификатор модели для распознавания речи.

Audiogram

Сервис распознает речь только на русском языке. У интеграции нет дополнительных настроек.

Azure

Язык — введите код языка, на котором говорят ваши клиенты. Например, ru-RU для русского языка. Полный список языков смотрите в документации Azure.

Google Cloud

  • Язык — выберите язык, на котором будут говорить ваши клиенты.
  • Модель — название модели для распознавания речи.

В документации Google Cloud вы можете посмотреть список поддерживаемых языков и моделей.

SaluteSpeech

Сервис распознает речь только на русском языке. У интеграции нет дополнительных настроек.

T-Bank VoiceKit

Сервис распознает речь только на русском языке. У интеграции нет дополнительных настроек.

Yandex SpeechKit

  • Язык — код языка, на котором говорят ваши клиенты.
  • Модель — версия модели для распознавания речи.
  • Числа прописью — если опция включена, то в распознанном тексте числа записываются словами. Например, тринадцать вместо 13.
  • Подавление шума — опция уменьшает чувствительность модели к фоновым шумам.

Голоса TTS

3i VoxKit

Голос — выберите голос для синтеза речи.

Audiogram

  • Модель — модель для синтеза речи. Сейчас доступна только модель high_quality.

  • Голос — голос для синтеза речи:

    • Женские голоса:

      • borisova
      • kishchik
    • Мужские голоса:

      • gandzhaev
      • gavrilov
  • Эмоция — эмоциональная окраска голоса:

    • neutral — нейтральная
    • happy — радостная

Azure

Голос — введите идентификатор голоса. Полный список голосов смотрите в документации Azure. Agent Platform поддерживает только нейронные голоса (Neural).

ElevenLabs

  • Модель:

    • eleven_turbo_v2_5 — модель с хорошим балансом между качеством речи и скоростью генерации.
    • eleven_flash_v2_5 — быстрая модель с минимальной задержкой.
    • eleven_multilingual_v2 — модель с высоким качеством синтеза, но имеет более высокую задержку и цену.
  • Сходство с оригиналом — определяет, насколько точно ИИ должен имитировать оригинальный голос.

  • Скорость — чем выше значение, тем быстрее будет речь.

  • Стабильность — определяет стабильность голоса и вариативность синтеза. При низких значениях голос звучит эмоционально, при высоких — монотонно.

  • Экспрессия — подчеркивает уникальные черты голоса и делает голос более выразительным. Значения выше 0 требуют больше ресурсов и могут увеличить задержку.

  • Голос — идентификатор голоса для синтеза речи. Вы можете получить идентификатор (Voice ID) в личном кабинете ElevenLabs. Пример: 12a34Bcd5EfgHi6jkLMN.

примечание

Сходство с оригиналом, Стабильность и Экспрессия соответствуют параметрам Similarity, Stability и Style Exaggeration в ElevenLabs.

Языки

  • ElevenLabs поддерживает множество языков.

    примечание

    Сайт ElevenLabs недоступен для российских IP-адресов.

  • Провайдер сам определяет язык синтеза на основе полученного текста. Вам не нужно указывать язык вручную.

  • Некоторые голоса могут иметь акценты.

Google Cloud

  • Высота голоса — например, значение 20 повысит тон голоса на 20 полутонов.
  • Скорость — чем выше значение, тем быстрее будет речь.
  • Голос — название голоса для синтеза речи.
  • Громкость — измеряется в децибелах (dB). Не рекомендуется устанавливать значение выше 10.

В документации Google Cloud вы можете посмотреть список поддерживаемых голосов.

SaluteSpeech

Голос — введите код голоса для синтеза речи, например Nec_8000. Agent Platform поддерживает только голоса с частотой 8 кГц — коды таких голосов заканчиваются на _8000.

Смотрите список голосов в документации SaluteSpeech.

Yandex SpeechKit

  • Язык — код языка, на котором будет синтезироваться речь.
  • Манера речи — соответствует амплуа из документации Yandex SpeechKit. Это характеристика звучания голоса — например, диктор может говорить более дружелюбно или шепотом.
  • Скорость — чем выше значение, тем быстрее будет речь. 1 — нормальная скорость голоса.
  • Голос — название голоса для синтеза речи. Agent Platform поддерживает голоса v3.
  • Громкость — громкость относительно цифровой полной шкалы LKFS/LUFS. Рекомендуемый диапазон значений: от −20 до −16.
к сведению

Список доступных голосов v3, языков и амплуа смотрите в документации Yandex SpeechKit.