Pipeline STT
Pipeline STT
Audio français → texte orthographique — pipeline Décodeur + P2G + Formules
Présentation
Le pipeline STT orchestre le Décodeur avec le pipeline P2G pour transcrire de l’audio en texte français orthographique.
Pipeline
Audio 16kHz mono
│
▼
┌─────────────┐
│ CTC │ CNN-BiGRU-CTC medium (10.6M params)
│ │ → phones IPA avec séparateurs et ponctuation
└─────┬───────┘
│
▼
┌─────────────┐
│ _parse_ctc │ extraction mots IPA + ponctuation + liaisons
└─────┬───────┘
│
▼
┌─────────────┐
│ Pipeline P2G │ graphémiseur + formules + noms propres
└─────┬───────┘
│
▼
┌─────────────┐
│ _assembler │ majuscules + élisions + ponctuation
└─────┬───────┘
│
▼
Texte français orthographié
Benchmark
| Métrique | Score |
|---|---|
| WER (parole courante) | ~15% |
| PER (CTC seul) | ~4.34% |
Pipeline CTC + P2G v7 + post-traitement grammatical. Performances comparables à Whisper small (241M params, 461 Mo) avec un pipeline 10x plus léger (~43 Mo de modèles).
Essayer en ligne
La démo utilise l’API Lectura — aucun téléchargement nécessaire.
Phonétique (IPA)
Sélectionnez un fichier audio ou enregistrez votre voix, puis cliquez sur Transcrire.
Texte (STT)
Exemple de code
from lectura_stt import creer_engine
engine = creer_engine() # CTC + P2G automatique
result = engine.transcrire(audio, sr=16000)
print(result.ipa) # "b ɔ̃ ʒ u ʁ | l ə | m ɔ̃ d ."
print(result.texte) # "Bonjour le monde."
Briques utilisées
| Brique | Package | Rôle dans le pipeline |
|---|---|---|
| Décodeur | lectura-decodeur |
Décodeur phonétique (audio → phones IPA) |
| Graphémiseur | lectura-graphemiseur |
Modèle P2G core |
| Pipeline P2G | lectura-p2g |
Formules + noms propres |
| Formules | lectura-formules |
Nombres, sigles (mode tolerance=”stt”) |
Installation
# Pipeline STT complet (audio → texte, avec P2G + formules)
pip install lectura-stt
# STT avec backend ONNX local (inférence rapide décodeur + graphémiseur)
pip install lectura-stt[onnx]
# Décodeur seul (audio → phones IPA, sans P2G) — voir page Décodeur
pip install lectura-decodeur[onnx]
| Extra | Contenu |
|---|---|
[onnx] |
Backends ONNX locaux pour le décodeur et le graphémiseur (inférence offline) |
Le pipeline P2G est inclus par défaut (dépendance dure).
Par défaut, les modules utilisent l’API Lectura si aucun modèle local n’est trouvé.
Caractéristiques techniques
- WER ~15% (parole courante), comparable à Whisper small avec 10x moins de paramètres
- Pipeline optimal : CTC → segmentation phonétique → P2G v7 (lex-select) → merge_and_rescore → post-traitement grammatical → texte
- P2G optionnel : fonctionne en mode phones seuls si P2G non installé
- Cascade P2G :
lectura-p2g(complet) →lectura-graphemiseur(core) → aucun - Élisions automatiques : l’, d’, j’, n’, s’, qu’, m’, t’, c’
- Ponctuation et majuscules : reconstruction fidèle du texte
- Formules : nombres, sigles (via
lectura-p2g) - Python 3.10+ avec type hints complets
- Licence : AGPL-3.0 (code) — modèles sous licence commerciale