Voice Cloning - ModelsLab

curl --request POST \ --url https://modelslab.com/api/v6/voice/text_to_audio \ --header 'Content-Type: application/json' \ --data ' { "key": "<string>", "prompt": "<string>", "init_audio": "<string>", "voice_id": "<string>", "language": "english", "speed": 1, "base64": false, "temp": false, "webhook": "<string>", "track_id": 123 } '

{ "generationTime": 123, "id": 123, "output": [ "<string>" ], "proxy_links": [ "<string>" ], "future_links": [ "<string>" ], "links": [ "<string>" ], "meta": {}, "eta": 123, "message": "<string>", "tip": "<string>", "fetch_result": "<string>", "audio_time": 123 }

Body

json

{
  "key": "your_api_key", 
  "prompt":"Narrative voices capable of pronouncing terminologies & acronyms in training and ai learning materials.", 
  "init_audio":"https://pub-f3505056e06f40d6990886c8e14102b2.r2.dev/audio/tom_hanks_1.wav", 
  "voice_id": "your_voice_id",
  "language":"english", 
  "webhook": null, 
  "track_id": null
}

Body

application/json

key

string

required

API key for authentication

prompt

string

required

Text prompt describing audio to be generated

init_audio

string<uri>

required

Valid URL pointing to audio file for voice cloning (4-30 seconds)

voice_id

string

ID of voice from available list Find Voice IDs Here

language

enum<string>

default:english

Language for the voice

Available options:

arabic,

assamese,

bengali,

brazilian portuguese,

chinese,

czech,

danish,

dutch,

english,

finnish,

french,

german,

greek,

gujarati,

hebrew,

hindi,

hungarian,

indonesian,

italian,

japanese,

kannada,

korean,

maithili,

malay,

malayalam,

marathi,

min nan chinese,

nepali,

odia,

persian,

polish,

punjabi,

russian,

sindhi,

sinhala,

slovak,

spanish,

swahili,

swedish,

tamil,

telugu,

thai,

turkish,

ukrainian,

urdu,

vietnamese,

welsh,

yue chinese

speed

number

default:1

Playback speed of generated audio

base64

boolean

default:false

Whether input audio is in base64 format

temp

boolean

default:false

Use temporary links valid for 24 hours

webhook

string<uri>

URL to receive POST notification upon completion

track_id

integer

ID for webhook identification

Response

Text to audio response

status

enum<string>

Status of the voice generation

Available options:

success,

processing,

error

generationTime

number

Time taken to generate the audio in seconds

integer

Unique identifier for the voice generation

output

string<uri>[]

Array of generated audio URLs

proxy_links

string<uri>[]

Array of proxy audio URLs

future_links

string<uri>[]

Array of future audio URLs for queued requests

links

string<uri>[]

Array of audio URLs (voice cover response)

​Request

​Body

Body

Response

Request

Body