SynthesizeAndSave

Метод SynthesizeAndSave

Примените метод SynthesizeAndSave, чтобы преобразовать текст в речь по заданным параметрам с последующим сохранением аудиофайла в библиотеку приложения. Для этого выполните POST-запрос с входными параметрами к точке подключения, указанными ниже.

Точка подключения:

POST: https://api.exolve-test.rnd.mtt/media/v1/SynthesizeAndSave

Авторизация

Передайте следующие Заголовки HTTP для успешной авторизации.

Имя Тип Описание
Authorization string API-ключ приложения с Bearer перед ним. Пример: Bearer e***s0, где e***s0 замените на API-ключ вашего приложения

Входные параметры

Передайте следующие параметры в теле запроса в JSON-формате. Параметры, выделенные жирным, обязательны.

Параметр Тип Описание
full_name string название аудиофайла с синтезированной речью
description string описание аудиофайла
text string текст синтезируемой речи (от 1 до 500 символов, кодировка не учитывается)
voice_settings VoiceSettings голосовые настройки синтеза

VoiceSettings

Параметр Тип Описание
lang array Lang язык синтезируемой речи
voice array Voice голос для озвучивания текста
emotion array Emotion эмоция для озвучивания текста
speed float скорость синтезируемой речи (от 0.1 до 3.0, где 0.1 — самая медленная, 3.0 — самая быстрая, по умолчанию 1.0)
loudness_normalization int32 нормализация громкости (от -145 до 0, где -145 — наименьшее усиление, 0 — наибольшее усиление громкости, по умолчанию -19)

Нормализация применяется, чтобы выровнять громкость синтезированной речи по сравнению с «живой» речью собеседников. LUFS — это единицы измерения громкости. Этот способ измерения объединяет воспринимаемую человеческим слухом громкость и истинную интенсивность аудиосигнала


Lang
Параметр Тип Язык
1 enum русский (по умолчанию)
2 enum английский
3 enum немецкий
4 enum итальянский
5 enum казахский
6 enum узбекский
Voice
Параметр Тип Голос Пол Эмоция Язык
1 enum Алёна (по умолчанию) Ж 1 — нейтральная (по умолчанию), 2 — добрая 1 — русский
2 enum Ермил М 1 — нейтральная (по умолчанию), 2 — радостная 1 — русский
3 enum Джейн Ж 1 — нейтральная (по умолчанию), 2 — радостная, 3 — раздраженная 1 — русский
4 enum Омаж Ж 1 — нейтральная (по умолчанию), 3 — раздраженная 1 — русский
5 enum Захар М 1 — нейтральная (по умолчанию), 2 — радостная 1 — русский
6 enum Филипп М 1 — русский
7 enum Мадирус М 1 — русский
8 enum Даша Ж 1 — нейтральная (по умолчанию), 2 — радостная, 4 — дружелюбная 1 — русский
9 enum Юлия Ж 1 — нейтральная (по умолчанию), 5 — строгая 1 — русский
10 enum Лера Ж 1 — нейтральная (по умолчанию), 4 — дружелюбная 1 — русский
11 enum Марина Ж 1 — нейтральная (по умолчанию), 4 — дружелюбная, 6 — шёпот 1 — русский
12 enum Александр М 1 — нейтральная (по умолчанию), 2 — радостная 1 — русский
13 enum Кирилл М 1 — нейтральная (по умолчанию), 2 — радостная, 5 — строгая 1 — русский
14 enum Антон М 1 — нейтральная (по умолчанию), 2 — радостная 1 — русский
15 enum Маша Ж 2 — радостная (по умолчанию), 4 — дружелюбная, 5 — строгая 1 — русский
16 enum Лея Ж 3 — немецкий
17 enum Джон М 2 — английский
18 enum Наоми Ж 7 — современный, 8 — классический 4 — итальянский
19 enum Амира Ж 5 — казахский
20 enum Мади Ж 5 — казахский
21 enum Нигора Ж 6 — узбекский
Emotion
Параметр Тип Эмоция
1 enum нейтральная
2 enum радостная
3 enum раздражённая
4 enum дружелюбная
5 enum строгая
6 enum шёпот
7 enum современная
8 enum классическая

Выходные параметры

Параметр Тип Описание
file_id uint64 идентификатор аудиофайла с синтезированной речью
resource_id uint64 идентификатор ресурса аудио
application_uuid string идентификатор приложения, в библиотеку которого добавлен аудиофайл
file_type array FileType тип сформированного аудиофайла
name string название аудиофайла
description string описание аудиофайла
size uint64 размер аудиофайла в байтах
extension string расширение аудиофайла
duration uint32 длительность аудиофайла
file_metadata File_metadata голосовые настройки синтеза — совпадают с входными параметрами
date_created Timestamp дата и время добавления аудиофайла в библиотеку приложения
FileMetadata

Параметры совпадаются с VoiceSettings

FileType
Параметр Тип Описание
201 enum аудиофайл, загруженный из локального хранилища в библиотеку приложения
202 enum аудиофайл с синтезированной речью

Возможные ошибки

Код Статус Пример сообщения Описание
401 Unauthorized failed to parse token не указан или неправильно указан API-ключ приложения
404 Not Found некорректно введён URL запроса

Примеры

Входные параметры:

{
   "full_name": "exolve_audio",
   "description": "synthesized audio",
   "text": "МТС Exolve — конструктор омниканальных диалогов для бизнеса",
   "voice_settings": {
       "lang": 1,
       "voice": 1,
       "emotion": 2,
       "speed": 1.1,
       "loudness_normalization": -19
   }
}

Выходные параметры:

{
   "file_id": "2095897362747621376",
   "resource_id": "712100",
   "application_uuid": "026f737d-9d90-4536-beae-943b655460b5",
   "file_type": "202",
   "name": "exolve_audio",
   "description": "synthesized audio",
   "size": "5.3",
   "extension": "wav",
   "duration": 1.23,
   "date_created": {
       "seconds": "1726058871",
       "nanos": 169070680
   },
   "file_metadata": {
       "synthesis": {
           "lang": 1,
           "voice": 1,
           "emotion": 1,
           "speed": 1.2,
           "loudness_normalization": -19
       }
   }
}