Обновленный планировщик и возможности для работы с речью
В этом релизе мы доработали триггер «Планировщик», добавили новые встроенные функции для работы с речью и расширили список поддерживаемых ASR/TTS-провайдеров.
Что нового в этом релизе
- Запускайте процессы по расписанию проще: триггер «Планировщик» получил новый интерфейс. Выбирайте дни недели и месяцы визуально, а время указывайте в часовом поясе вашего браузера — больше не нужно конвертировать в UTC. Подробнее
- Работайте с речью в текстовых каналах: новые встроенные функции
$Asr.recognizeи$Tts.synthesizeпозволяют распознавать речь в аудиофайлах и синтезировать аудио в текстовых каналах. Например, можно расшифровать запись совещания или сгенерировать подкаст. Подробнее - Новые ASR/TTS-провайдеры для голосовых AI-агентов: расширен список поддерживаемых сервисов распознавания и синтеза речи. Теперь доступны Azure, Yandex SpeechKit, SaluteSpeech и T-Bank VoiceKit. Подробнее
Простая настройка расписания запуска процессов
Мы полностью переработали интерфейс триггера «Планировщик», чтобы сделать настройку расписания более интуитивной и гибкой.
Что изменилось:
- Визуальный выбор расписания. Вместо сложных cron-выражений теперь можно выбрать день недели и месяц первого запуска прямо в интерфейсе — просто отметьте нужный день в календаре и укажите время в селекторах. Это делает настройку расписания проще и нагляднее.
- Условия завершения. Укажите, когда триггер должен прекратить работу: никогда, после определенной даты или после заданного количества повторений.
- Часовой пояс браузера. Теперь все настройки времени указываются в часовом поясе вашего браузера, а не в UTC. Это избавляет от необходимости вручную пересчитывать время и снижает риск ошибок.
- Превью следующих запусков. В интерфейсе триггера отображаются 5 ближайших запланированных запусков, чтобы вы сразу видели, правильно ли настроено расписание.
Cron-выражения по-прежнему поддерживаются для более гибкой настройки расписания.
Новые встроенные функции для работы с речью
Теперь доступны встроенные функции $Asr.recognize и $Tts.synthesize, которые позволяют работать с речью в текстовых каналах и процессах. Это открывает новые возможности: анализ записей встреч, расшифровка голосовых сообщений в чат-ботах, генерация подкастов и многое другое.
-
$Asr.recognize— распознает речь из аудиофайла. Функция принимает URL аудиофайла и ключ интеграции ASR, а возвращает детальный результат распознавания от провайдера. Это позволяет реализовать сложные процессы обработки голосовых сообщений. -
$Tts.synthesize— преобразует текст в речь. Функция принимает текст и ключ интеграции TTS, а возвращает публичную ссылку на сгенерированный аудиофайл. Вы можете указать язык и формат аудио, или использовать значения по умолчанию.
Функции доступны для использования во всех проектах.
Расширенная поддержка ASR/TTS-провайдеров
Мы значительно расширили список поддерживаемых сервисов распознавания и синтеза речи для голосовых AI-агентов.
Теперь при настройке телефонного канала и использовании встроенных функций $Asr.recognize и $Tts.synthesize доступны следующие провайдеры:
| Провайдер | ASR | TTS |
|---|---|---|
| Azure | ✓ | ✓ |
| Google Cloud | ✓ | ✓ |
| Yandex SpeechKit | ✓ | ✓ |
| SaluteSpeech (Сбер) | ✓ | ✓ |
| T-Bank VoiceKit | ✓ | — |
| ElevenLabs | — | ✓ |
| 3i VoxKit | ✓ | ✓ |
Это дает вам больше гибкости при выборе сервиса, который лучше всего соответствует вашим требованиям по качеству, языковой поддержке и стоимости.
Учетные данные для подключения к этим провайдерам настраиваются в разделе Настройки → Учетные данные или непосредственно при создании интеграций «Модель ASR» и «Голос TTS».
Обновление уже доступно для всех пользователей. Вступайте в чат для разработчиков решений в Agent Platform и делитесь своими впечатлениями и успехами!