Reconnaissance vocale

Lectura propose un pipeline de transcription audio du français en deux couches : un décodeur acoustique (audio vers phonèmes IPA) et un convertisseur (phonèmes vers texte orthographique). Le tout en ~43 Mo de modèles, sans GPU, avec des performances comparables à Whisper small (10x plus léger et plus rapide).


Ce que Lectura est capable de faire

Capacité Description
Transcription phonétique Audio vers phonèmes IPA avec séparateurs de mots, liaisons et ponctuation
Transcription orthographique Audio vers texte français avec majuscules, élisions et ponctuation
Reconnaissance de formules Nombres, dates, sigles, heures détectés automatiquement dans la parole
Transcription de formules Modèle spécialisé pour la saisie vocale de données structurées (87 tokens sémantiques)
Métrique Score
WER (pipeline complet) ~15%
PER (décodeur phonétique) ~4.34%
Taille totale ~43 Mo (vs 461 Mo pour Whisper small)

Essayer en ligne

La démo utilise l’API Lectura — enregistrez votre voix ou chargez un fichier audio.

(Aucun fichier) ou
Phonétique (IPA)
Sélectionnez un fichier audio ou enregistrez votre voix, puis cliquez sur Transcrire.
Texte (STT)

  

Applications

  • Sous-titrage : transcription automatique de vidéos et podcasts en français.
  • Saisie vocale : dictée pour applications et formulaires, avec reconnaissance des nombres et dates.
  • Analyse de contenu : indexation et recherche dans des archives audio.
  • Applications embarquées : transcription sur appareil (mobile, IoT) grâce à la taille réduite (~43 Mo).
  • Saisie de données structurées : le modèle STT-Formules reconnaît directement les nombres, mois, devises et lettres pour la saisie vocale de formulaires.

En savoir plus


Contact

Pour intégrer la reconnaissance vocale dans votre projet : nous contacter