Перейти к основному содержимому

Обновленный планировщик и возможности для работы с речью

В этом релизе мы доработали триггер «Планировщик», добавили новые встроенные функции для работы с речью и расширили список поддерживаемых ASR/TTS-провайдеров.

Что нового в этом релизе

  • Запускайте процессы по расписанию проще: триггер «Планировщик» получил новый интерфейс. Выбирайте дни недели и месяцы визуально, а время указывайте в часовом поясе вашего браузера — больше не нужно конвертировать в UTC. Подробнее
  • Работайте с речью в текстовых каналах: новые встроенные функции $Asr.recognize и $Tts.synthesize позволяют распознавать речь в аудиофайлах и синтезировать аудио в текстовых каналах. Например, можно расшифровать запись совещания или сгенерировать подкаст. Подробнее
  • Новые ASR/TTS-провайдеры для голосовых AI-агентов: расширен список поддерживаемых сервисов распознавания и синтеза речи. Теперь доступны Azure, Yandex SpeechKit, SaluteSpeech и T-Bank VoiceKit. Подробнее

Простая настройка расписания запуска процессов

Мы полностью переработали интерфейс триггера «Планировщик», чтобы сделать настройку расписания более интуитивной и гибкой.

Что изменилось:

  • Визуальный выбор расписания. Вместо сложных cron-выражений теперь можно выбрать день недели и месяц первого запуска прямо в интерфейсе — просто отметьте нужный день в календаре и укажите время в селекторах. Это делает настройку расписания проще и нагляднее.
  • Условия завершения. Укажите, когда триггер должен прекратить работу: никогда, после определенной даты или после заданного количества повторений.
  • Часовой пояс браузера. Теперь все настройки времени указываются в часовом поясе вашего браузера, а не в UTC. Это избавляет от необходимости вручную пересчитывать время и снижает риск ошибок.
  • Превью следующих запусков. В интерфейсе триггера отображаются 5 ближайших запланированных запусков, чтобы вы сразу видели, правильно ли настроено расписание.

Cron-выражения по-прежнему поддерживаются для более гибкой настройки расписания.

Новые встроенные функции для работы с речью

Теперь доступны встроенные функции $Asr.recognize и $Tts.synthesize, которые позволяют работать с речью в текстовых каналах и процессах. Это открывает новые возможности: анализ записей встреч, расшифровка голосовых сообщений в чат-ботах, генерация подкастов и многое другое.

  • $Asr.recognize — распознает речь из аудиофайла. Функция принимает URL аудиофайла и ключ интеграции ASR, а возвращает детальный результат распознавания от провайдера. Это позволяет реализовать сложные процессы обработки голосовых сообщений.

  • $Tts.synthesize — преобразует текст в речь. Функция принимает текст и ключ интеграции TTS, а возвращает публичную ссылку на сгенерированный аудиофайл. Вы можете указать язык и формат аудио, или использовать значения по умолчанию.

Функции доступны для использования во всех проектах.

Расширенная поддержка ASR/TTS-провайдеров

Мы значительно расширили список поддерживаемых сервисов распознавания и синтеза речи для голосовых AI-агентов. Теперь при настройке телефонного канала и использовании встроенных функций $Asr.recognize и $Tts.synthesize доступны следующие провайдеры:

ПровайдерASRTTS
Azure
Google Cloud
Yandex SpeechKit
SaluteSpeech (Сбер)
T-Bank VoiceKit
ElevenLabs
3i VoxKit

Это дает вам больше гибкости при выборе сервиса, который лучше всего соответствует вашим требованиям по качеству, языковой поддержке и стоимости.

Учетные данные для подключения к этим провайдерам настраиваются в разделе Настройки → Учетные данные или непосредственно при создании интеграций «Модель ASR» и «Голос TTS».


Обновление уже доступно для всех пользователей. Вступайте в чат для разработчиков решений в Agent Platform и делитесь своими впечатлениями и успехами!