Analyse du langage

Lectura propose plusieurs outils d’analyse du langage français. Chaque module fonctionne de manière autonome et s’intègre dans un pipeline complet : du texte brut jusqu’à l’analyse phonétique, grammaticale et syllabique. Tous les outils sont utilisables via l’API Lectura ou comme modules Python autonomes, et testables directement ci-dessous.


Tokenisation

Transformer un texte en suite de tokens (mots, ponctuation, formules) avec normalisation typographique. Le tokeniseur détecte automatiquement plus de 15 types de formules : nombres, dates, heures, sigles, monnaies, pourcentages, expressions mathématiques.

Cliquez sur le bouton pour lancer la démo.

Phonémisation (orthographe vers phonétique)

Un seul modèle BiLSTM multi-tête transforme l’orthographe en transcription phonétique IPA et prédit simultanément 4 tâches : phonémisation (98.5%), catégorie grammaticale (19 étiquettes POS, 98.2%), morphologie (genre, nombre, temps, mode, personne) et liaisons (F1 90.6%). Le modèle prend en compte le contexte phrastique pour désambiguïser les homographes et prédire les liaisons.

Le Phonémiseur construit également les groupes de lecture : regroupement des mots connectés par élision (l’enfant), liaison (les‿enfants) ou enchaînement (avec‿elle), qui sont ensuite transmis à l’Aligneur-Syllabeur pour la syllabation.

Cliquez sur le bouton pour lancer la démo.

Graphémisation (phonétique vers orthographe)

Le chemin inverse de la phonémisation : à partir d’une transcription phonétique IPA, reconstruire l’orthographe française avec accentuation, accords et reconnaissance des noms propres. Le modèle prédit également la catégorie grammaticale et la morphologie. Précision : ~95% par mot (pipeline complet sur texte courant).

i (i) e (e) ɛ (ai) a (a) ɑ (a) ɔ (o) o (o) u (ou) y (u) ø (oeu) œ (eu) ə (e) ɑ̃ (an) ɛ̃ (in) ɔ̃ (on) œ̃ (un) j (y) w (w) ɥ (u) p b t d k ɡ (gu) f v s z ʃ (ch) ʒ (j) m n ɲ (gn) ŋ (ng) l ʁ (r)
Cliquez sur le bouton pour lancer la démo.

Aligneur syllabique

Pivot central du pipeline Lectura. Aligne une séquence orthographique avec une séquence phonémique : découpage en syllabes (orthographiques et phonétiques), identification des lettres muettes et des graphèmes fusionnés, décomposition attaque/noyau/coda. L’Aligneur reçoit en entrée les groupes de lecture construits par le Phonémiseur et effectue la syllabation de chaque groupe.

Cliquez sur le bouton pour lancer la démo.

Formules

Reconnaissance des types de formules (nombres, dates, heures, sigles, monnaies, expressions mathématiques…), passage d’une formule à son écriture textuelle ou phonétique et vice versa. Plus de 15 types pris en charge.

Type Exemple Lecture
Nombre 42 quarante-deux
Date 25/12/2024 vingt-cinq décembre deux-mille-vingt-quatre
Heure 14h30 quatorze heures trente
Sigle SNCF esse-enne-ce-effe
Maths 2x+5x-3 deux x au carré plus cinq x moins trois
Cliquez sur le bouton pour lancer la démo.

Applications

Ces outils d’analyse du langage constituent la base de tous les pipelines Lectura :

  • Synthèse vocale (TTS) : le pipeline G2P + Aligneur + Formules alimente les moteurs de synthèse vocale. Chaque mot est phonémisé, aligné et syllabé avant d’être prononcé.
  • Reconnaissance vocale (STT) : le pipeline inverse (P2G + Formules) reconstruit le texte à partir des phonèmes détectés par le décodeur acoustique.
  • Apprentissage de la lecture : le Phonémiseur construit les groupes de lecture, l’Aligneur produit les syllabes colorées et les lettres muettes utilisés dans les programmes de lecture assistée.
  • Correction orthographique : la chaîne G2P → P2G permet de détecter les erreurs phonétiquement cohérentes (un mot mal écrit mais prononcé correctement).
  • Annotation de corpus : étiquetage POS, morphologie et phonétique automatiques pour la recherche linguistique.
  • Accessibilité : transcription phonétique pour les apprenants FLE, affichage syllabique pour les lecteurs en difficulté.

En savoir plus

Chaque outil est disponible comme module Python indépendant avec documentation technique complète :


Contact

Pour intégrer ces outils dans votre projet : nous contacter