Reconnaissance vocale

Lectura propose un pipeline de transcription audio du français en deux couches : un décodeur acoustique (audio vers phonèmes IPA) et un convertisseur (phonèmes vers texte orthographique). Le tout en ~43 Mo de modèles, sans GPU, avec des performances comparables à Whisper small (10x plus léger et plus rapide).

Ce que Lectura est capable de faire

Capacité	Description
Transcription phonétique	Audio vers phonèmes IPA avec séparateurs de mots, liaisons et ponctuation
Transcription orthographique	Audio vers texte français avec majuscules, élisions et ponctuation
Reconnaissance de formules	Nombres, dates, sigles, heures détectés automatiquement dans la parole
Transcription de formules	Modèle spécialisé pour la saisie vocale de données structurées (87 tokens sémantiques)

Métrique	Score
WER (pipeline complet)	~15%
PER (décodeur phonétique)	~4.34%
Taille totale	~43 Mo (vs 461 Mo pour Whisper small)

Essayer en ligne

La démo utilise l’API Lectura — enregistrez votre voix ou chargez un fichier audio.

Audio source :

(Aucun fichier) ou

Mode :

Phonétique (IPA)

Sélectionnez un fichier audio ou enregistrez votre voix, puis cliquez sur Transcrire.

Texte (STT)

Applications

Sous-titrage : transcription automatique de vidéos et podcasts en français.
Saisie vocale : dictée pour applications et formulaires, avec reconnaissance des nombres et dates.
Analyse de contenu : indexation et recherche dans des archives audio.
Applications embarquées : transcription sur appareil (mobile, IoT) grâce à la taille réduite (~43 Mo).
Saisie de données structurées : le modèle STT-Formules reconnaît directement les nombres, mois, devises et lettres pour la saisie vocale de formulaires.

En savoir plus

Documentation technique STT — architecture, installation, API
Graphémiseur (P2G) — le convertisseur phonèmes vers texte utilisé dans le pipeline

Contact

Pour intégrer la reconnaissance vocale dans votre projet : nous contacter