Pipeline STT

Pipeline STT

Audio français → texte orthographique — pipeline Décodeur + P2G + Formules

Présentation

Le pipeline STT orchestre le Décodeur avec le pipeline P2G pour transcrire de l’audio en texte français orthographique.

Pipeline

Audio 16kHz mono
     │
     ▼
┌─────────────┐
│ CTC          │  CNN-BiGRU-CTC medium (10.6M params)
│              │  → phones IPA avec séparateurs et ponctuation
└─────┬───────┘
      │
      ▼
┌─────────────┐
│ _parse_ctc   │  extraction mots IPA + ponctuation + liaisons
└─────┬───────┘
      │
      ▼
┌─────────────┐
│ Pipeline P2G │  graphémiseur + formules + noms propres
└─────┬───────┘
      │
      ▼
┌─────────────┐
│ _assembler   │  majuscules + élisions + ponctuation
└─────┬───────┘
      │
      ▼
  Texte français orthographié

Benchmark

Métrique Score
WER (parole courante) ~15%
PER (CTC seul) ~4.34%

Pipeline CTC + P2G v7 + post-traitement grammatical. Performances comparables à Whisper small (241M params, 461 Mo) avec un pipeline 10x plus léger (~43 Mo de modèles).


Essayer en ligne

La démo utilise l’API Lectura — aucun téléchargement nécessaire.

(Aucun fichier) ou
Phonétique (IPA)
Sélectionnez un fichier audio ou enregistrez votre voix, puis cliquez sur Transcrire.
Texte (STT)

  

Exemple de code

from lectura_stt import creer_engine

engine = creer_engine()  # CTC + P2G automatique

result = engine.transcrire(audio, sr=16000)
print(result.ipa)    # "b ɔ̃ ʒ u ʁ | l ə | m ɔ̃ d ."
print(result.texte)  # "Bonjour le monde."

Briques utilisées

Brique Package Rôle dans le pipeline
Décodeur lectura-decodeur Décodeur phonétique (audio → phones IPA)
Graphémiseur lectura-graphemiseur Modèle P2G core
Pipeline P2G lectura-p2g Formules + noms propres
Formules lectura-formules Nombres, sigles (mode tolerance=”stt”)

Installation

# Pipeline STT complet (audio → texte, avec P2G + formules)
pip install lectura-stt

# STT avec backend ONNX local (inférence rapide décodeur + graphémiseur)
pip install lectura-stt[onnx]

# Décodeur seul (audio → phones IPA, sans P2G) — voir page Décodeur
pip install lectura-decodeur[onnx]
Extra Contenu
[onnx] Backends ONNX locaux pour le décodeur et le graphémiseur (inférence offline)

Le pipeline P2G est inclus par défaut (dépendance dure).

Par défaut, les modules utilisent l’API Lectura si aucun modèle local n’est trouvé.


Caractéristiques techniques

  • WER ~15% (parole courante), comparable à Whisper small avec 10x moins de paramètres
  • Pipeline optimal : CTC → segmentation phonétique → P2G v7 (lex-select) → merge_and_rescore → post-traitement grammatical → texte
  • P2G optionnel : fonctionne en mode phones seuls si P2G non installé
  • Cascade P2G : lectura-p2g (complet) → lectura-graphemiseur (core) → aucun
  • Élisions automatiques : l’, d’, j’, n’, s’, qu’, m’, t’, c’
  • Ponctuation et majuscules : reconstruction fidèle du texte
  • Formules : nombres, sigles (via lectura-p2g)
  • Python 3.10+ avec type hints complets
  • Licence : AGPL-3.0 (code) — modèles sous licence commerciale