VoxCPM2: il TTS che parla 30 lingue senza trucchi
OpenBMB ha rilasciato VoxCPM2, un sistema di sintesi vocale open-source che genera voce naturale in 30 lingue direttamente da testo. Niente tokenizer, niente passaggi intermedi: solo diffusione diretta e audio a 48kHz. E sì, puoi anche creare una voce intera da una descrizione scritta.

Partiamo da un fatto: la sintesi vocale negli ultimi anni è stata ossessionata dai tokenizer discreti. Prendi il testo, converti tutto in token, genera token di voce, poi ricostruisci l'audio. È efficiente, ok, ma VoxCPM2 ha deciso di fare diversamente.
Il sistema lavora senza tokenizer, generando direttamente rappresentazioni vocali continue attraverso un'architettura diffusion-autoregressive end-to-end. Suona complicato? In pratica significa che il modello "pensa" direttamente al suono, senza passare per quella traduzione intermedia. Il risultato è una voce più naturale e espressiva, addestrata su oltre 2 milioni di ore di dati multilinguistici.
E le 30 lingue supportate non sono uno slogan: funzionano davvero, dal cinese al turco, dal thai al portoghese, con tanto di dialetti cinesi (四川话,粤语, eccetera). Scrivi in qualsiasi lingua e il modello sintetizza direttamente.
Ma la vera magia sono tre feature che cambiano il gioco. Primo: Voice Design. Descrivi una voce con parole — "una donna giovane, voce dolce e gentile" — e il modello la crea dal nulla. Niente file audio di riferimento, solo la tua immaginazione a dettare il risultato. Secondo: Clonazione controllabile. Dai un clip audio di 5-10 secondi e puoi clonare la voce, con opzioni per forzare emozione, ritmo ed espressione mentre mantieni il timbro originale. Terzo: la modalità "Ultimate Cloning" per chi vuole la perfezione assoluta — fornisci sia l'audio che la trascrizione, e il modello continua esattamente da dove hai lasciato, riproducendo ogni sfumatura vocale.
L'output è audio a 48kHz — qualità studio — elaborato da un'AudioVAE V2 con design asimmetrico che non richiede upsampler esterni. E sì, è veloce: Real Time Factor di 0.3 su una RTX 4090, 0.13 con Nano-vLLM.
L'ultima cosa: tutto è open-source sotto Apache-2.0, free per usi commerciali. Code e pesi su GitHub, playground disponibile per fare i test subito.
Cosa significa per te
Se costruisci app con voce, chatbot vocali o contenuti multilingue, hai uno strumento gratuito e potente che funziona davvero — non è una promessa tecnica, è codice che gira. Se sei creativo e vuoi sperimentare con generazione vocale senza scrivere dissertazioni su parametri nascosti, puoi partire in un pomeriggio.