Lectura Voice Edition

En cours de développement

Lectura Voice Edition est un environnement de lecture assistée qui combine synthèse vocale, reconnaissance vocale et sous-titrage synchronisé avec un mode syllabique. Le texte est prononcé à haute voix pendant que chaque mot ou syllabe est surligné en temps réel, offrant un support visuel et auditif pour l’apprentissage de la lecture.

Synthèse vocale

Voice Edition s’appuie sur les trois moteurs TTS de Lectura :

Multi-Speaker — 6 voix françaises (3 féminines, 3 masculines), 7 styles expressifs (neutre, narratif, dialogue, expressif, méditatif, rapide, lent). Modèle neuronal ~40 Mo, ~50x temps réel sur CPU.
Monospeaker — voix haute qualité avec contrôles prosodiques fins (pitch, énergie, débit, pauses). Modèle ~17 Mo.
Diphone — moteur par concaténation, particulièrement adapté au mode syllabique grâce à sa prononciation précise et uniforme de chaque syllabe.

Un système de conversion vocale (6 timbres, variantes homme/enfant) est combinable avec chaque moteur.

Sous-titrage synchronisé

Chaque moteur TTS produit des timestamps par phonème, ce qui permet un surlignage synchronisé à trois niveaux de granularité :

Mode	Description
Fluide	Lecture continue avec surlignage mot par mot
Mot à mot	Chaque groupe de lecture est prononcé individuellement avec surlignage
Syllabes	Chaque syllabe est prononcée séparément et surlignée au moment de sa lecture

Le mode syllabique repose sur le pipeline complet de Lectura : phonémisation, alignement graphème-phonème, syllabation, gestion des liaisons et des lettres muettes. Les syllabes orthographiques et phonétiques sont calculées par l’Aligneur-Syllabeur, puis chacune est associée à son segment audio.

Reconnaissance vocale

Le pipeline de reconnaissance vocale de Lectura (décodeur acoustique + convertisseur phonèmes vers texte, ~43 Mo) permet d’écouter l’utilisateur et de transcrire sa parole en temps réel. Cela ouvre la voie à des fonctions de lecture interactive :

Suivi de lecture : comparer la prononciation de l’utilisateur au texte affiché.
Saisie vocale : dicter du texte avec reconnaissance des nombres, dates et sigles.
Transcription phonétique : afficher la transcription IPA de ce qui a été prononcé.

Applications visées

Apprentissage de la lecture : accompagnement visuel et auditif syllabe par syllabe pour les lecteurs débutants ou en difficulté.
FLE (Français Langue Étrangère) : écouter la prononciation correcte tout en suivant le texte, puis s’enregistrer pour comparer.
Accessibilité : lecture à voix haute de tout contenu textuel avec contrôle du débit et du mode de lecture.
Livres audio interactifs : narration multi-voix avec sous-titrage synchronisé.

En savoir plus

Les technologies sous-jacentes sont documentées en détail :

Synthèse vocale — présentation des trois moteurs TTS
Reconnaissance vocale — pipeline STT
Analyse du langage — phonémisation, alignement syllabique, formules

Version démo et licence à venir.