Reconnaissance vocale
Lectura propose un pipeline de transcription audio du français en deux couches : un décodeur acoustique (audio vers phonèmes IPA) et un convertisseur (phonèmes vers texte orthographique). Le tout en ~43 Mo de modèles, sans GPU, avec des performances comparables à Whisper small (10x plus léger et plus rapide).
Ce que Lectura est capable de faire
| Capacité | Description |
|---|---|
| Transcription phonétique | Audio vers phonèmes IPA avec séparateurs de mots, liaisons et ponctuation |
| Transcription orthographique | Audio vers texte français avec majuscules, élisions et ponctuation |
| Reconnaissance de formules | Nombres, dates, sigles, heures détectés automatiquement dans la parole |
| Transcription de formules | Modèle spécialisé pour la saisie vocale de données structurées (87 tokens sémantiques) |
| Métrique | Score |
|---|---|
| WER (pipeline complet) | ~15% |
| PER (décodeur phonétique) | ~4.34% |
| Taille totale | ~43 Mo (vs 461 Mo pour Whisper small) |
Essayer en ligne
La démo utilise l’API Lectura — enregistrez votre voix ou chargez un fichier audio.
Phonétique (IPA)
Sélectionnez un fichier audio ou enregistrez votre voix, puis cliquez sur Transcrire.
Texte (STT)
Applications
- Sous-titrage : transcription automatique de vidéos et podcasts en français.
- Saisie vocale : dictée pour applications et formulaires, avec reconnaissance des nombres et dates.
- Analyse de contenu : indexation et recherche dans des archives audio.
- Applications embarquées : transcription sur appareil (mobile, IoT) grâce à la taille réduite (~43 Mo).
- Saisie de données structurées : le modèle STT-Formules reconnaît directement les nombres, mois, devises et lettres pour la saisie vocale de formulaires.
En savoir plus
- Documentation technique STT — architecture, installation, API
- Graphémiseur (P2G) — le convertisseur phonèmes vers texte utilisé dans le pipeline
Contact
Pour intégrer la reconnaissance vocale dans votre projet : nous contacter