Quantcast
News

Consigli su come utilizzare al meglio la “sintesi vocale”

Condividi l'articolo

Per “sintesi vocale” (o in inglese speech synthesis) si intende una tecnica utilizzata per riprodurre artificialmente la voce umana, permettendo così una lettura automatica e artificiale di un testo scritto.

Gli strumenti utilizzati a questo scopo si chiamano sintetizzatori vocali, e possono essere sia dispositivi fisici che software. Questi sistemi possono anche essere denominati sistemi text-to-speech (TTS), ovvero letteralmente “da testo a voce”.

Il processo di sintesi vocali si compone di due fasi chiamate front-end e back-end.

Durante la prima fase viene analizzato il testo scritto e vengono convertiti in parole tutti i numeri, le sigle o abbreviazioni presenti. Questa fase iniziale si chiama normalizzazione (in inglese tokenization). Viene poi eseguita la cosiddetta analisi linguistica grazie alla quale il testo viene suddiviso in proposizioni, frasi e periodi. La seconda ed ultima fase, ovvero quella di back-end, si occupa infine di convertire il testo in suono generando così la voce vera e propria.

La sintesi vocale non è una novità in ambito tecnologico. Il primo sistema meccanico di sintesi vocale risale infatti al 1779, e permetteva la riproduzione dei 5 suoni vocalici (a, e, i, o, u). Negli anni successivi diversi inventori implementarono la riproduzione delle consonanti, aggiungendo ulteriori parti meccaniche che simulassero labbra, palato e lingua. Questi sintetizzatori erano spesso incomprensibili e ricreavano una voce gracchiante e metallica.

Leggi anche:

Verso la fine degli anni ‘50 furono creati i primi dispositivi elettronici, basati sull’utilizzo dei primi computer. Ad oggi i sistemi di sintesi vocale sono in grado di riprodurre una voce paragonabile a quella reale, e quindi quasi indistinguibile ad una voce umana. Un sintetizzatore vocale può essere più o meno qualitativo a seconda della lunghezza dei campioni vocali sfruttati. Un sintetizzatore concatena infatti registrazioni di parti vocali memorizzate in un database.

Se i campioni vocali consistono unicamente in fonemi singoli o doppi la qualità risulterà bassa e il risultato sarà poco comprensibile. Per aumentare la qualità dei sintetizzatori vengono spesso registrate parole intere o talvolta intere frasi.

I campi di applicazione dei sintetizzatori vocali e dei sistemi TTS sono molteplici. Il primo campo in cui la sintesi vocale è stata applicata è l’accessibilità: tramite questa tecnologia infatti chi è affetto da dislessia o da problemi alla vista può essere in grado di comprendere un testo scritto. La sintesi vocale trova inoltre impiego nelle stazioni ferroviarie (per fare annunci) o nella produzione di videogiochi. Un esempio di software che esegua la sintesi vocale è Panopreter.

Quest’ultimo è un software text-to-speech realizzato per utenti Windows, ed è in grado di leggere i testi presenti su pagine web o su file in formato txt, rtf, docx, pdf e altro ancora.Include estensioni di sintesi vocale per i browser Web Chrome, Firefox e Internet Explorer, che leggono il testo della pagina Web, quindi non è necessario fissare lo schermo o la pagina, e converte il testo in file audio wav, mp3, ogg ed flac.

Il software presenta inoltre diversi pacchetti per poter eseguire la sintesi in tutte le lingue.

Ti potrebbe interessare:
Segui guruhitech su:

Esprimi il tuo parere!

Ti è stato utile questo articolo sulla sintesi vocale? Lascia un commento nell’apposita sezione che trovi più in basso e se ti va, iscriviti alla newsletter.

Per qualsiasi domanda, informazione o assistenza nel mondo della tecnologia, puoi inviare una email all’indirizzo [email protected].

+1
0
+1
1
+1
0
+1
0
+1
0
+1
0
+1
0
0 0 votes
Article Rating

Rispondi

0 Commenti
Newest
Oldest Most Voted
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x