Pipeline STT

Audio français → texte orthographique — pipeline Décodeur + P2G + Formules

PyPI GitHub pip install lectura-stt

Présentation

Le pipeline STT orchestre le Décodeur avec le pipeline P2G pour transcrire de l’audio en texte français orthographique.

Pipeline

Audio 16kHz mono
     │
     ▼
┌─────────────┐
│ CTC          │  CNN-BiGRU-CTC medium (10.6M params)
│              │  → phones IPA avec séparateurs et ponctuation
└─────┬───────┘
      │
      ▼
┌─────────────┐
│ _parse_ctc   │  extraction mots IPA + ponctuation + liaisons
└─────┬───────┘
      │
      ▼
┌─────────────┐
│ Pipeline P2G │  graphémiseur + formules + noms propres
└─────┬───────┘
      │
      ▼
┌─────────────┐
│ _assembler   │  majuscules + élisions + ponctuation
└─────┬───────┘
      │
      ▼
  Texte français orthographié

Benchmark

Métrique	Score
WER (parole courante)	~15%
PER (CTC seul)	~4.34%

Pipeline CTC + P2G v7 + post-traitement grammatical. Performances comparables à Whisper small (241M params, 461 Mo) avec un pipeline 10x plus léger (~43 Mo de modèles).

Essayer en ligne

La démo utilise l’API Lectura — aucun téléchargement nécessaire.

Audio source :

(Aucun fichier) ou

Mode :

Phonétique (IPA)

Sélectionnez un fichier audio ou enregistrez votre voix, puis cliquez sur Transcrire.

Texte (STT)

Exemple de code

from lectura_stt import creer_engine

engine = creer_engine()  # CTC + P2G automatique

result = engine.transcrire(audio, sr=16000)
print(result.ipa)    # "b ɔ̃ ʒ u ʁ | l ə | m ɔ̃ d ."
print(result.texte)  # "Bonjour le monde."

Briques utilisées

Brique	Package	Rôle dans le pipeline
Décodeur	`lectura-decodeur`	Décodeur phonétique (audio → phones IPA)
Graphémiseur	`lectura-graphemiseur`	Modèle P2G core
Pipeline P2G	`lectura-p2g`	Formules + noms propres
Formules	`lectura-formules`	Nombres, sigles (mode tolerance=”stt”)

Installation

# Pipeline STT complet (audio → texte, avec P2G + formules)
pip install lectura-stt

# STT avec backend ONNX local (inférence rapide décodeur + graphémiseur)
pip install lectura-stt[onnx]

# Décodeur seul (audio → phones IPA, sans P2G) — voir page Décodeur
pip install lectura-decodeur[onnx]

Extra	Contenu
`[onnx]`	Backends ONNX locaux pour le décodeur et le graphémiseur (inférence offline)

Le pipeline P2G est inclus par défaut (dépendance dure).

Par défaut, les modules utilisent l’API Lectura si aucun modèle local n’est trouvé.

Caractéristiques techniques

WER ~15% (parole courante), comparable à Whisper small avec 10x moins de paramètres
Pipeline optimal : CTC → segmentation phonétique → P2G v7 (lex-select) → merge_and_rescore → post-traitement grammatical → texte
P2G optionnel : fonctionne en mode phones seuls si P2G non installé
Cascade P2G : lectura-p2g (complet) → lectura-graphemiseur (core) → aucun
Élisions automatiques : l’, d’, j’, n’, s’, qu’, m’, t’, c’
Ponctuation et majuscules : reconstruction fidèle du texte
Formules : nombres, sigles (via lectura-p2g)
Python 3.10+ avec type hints complets
Licence : AGPL-3.0 (code) — modèles sous licence commerciale