Text-to-speech

POST

/tts/speech

API v1

Synthesizes speech from text and streams audio. Follows the OpenAI audio/speech API convention. Returns chunked audio stream.

Request Body^required

object

model

required

TTS model (currently only “kokoro”)

string

default: kokoro

input

required

Text to synthesize

string

>= 1 characters <= 4096 characters

voice

required

Voice name or blend expression

string

response_format

string

default: mp3

Allowed values: mp3 wav opus flac pcm

speed

number format: double

default: 1 >= 0.25 <= 4

Responses

200

Streaming audio

string format: binary

400

Invalid request

object

error

required

string

message

required

string

details

object

key

additional properties

any

Text-to-speech

Request Body required

Responses

200

400

Request Body^required