Kit d'entraînement G2P / P2G

Disponible

Kit complet pour entraîner et reproduire les modèles G2P et P2G de Lectura.


Corpus phrases	22 649 phrases annotées (train / dev / test)
Lexique aligné	1 163 639 mots avec alignement phone-graphème
Scripts	Préparation, entraînement, évaluation, export ONNX
Sources	UD French-GSD (CC BY-SA 4.0), GLAFF 1.2.1 (CC BY-SA 3.0), Lexique383 (CC BY-SA 4.0)

Corpus de phrases annotées

22 649 phrases du français avec annotation complète pour chaque token :

{
  "sent_id": "fr-ud-train_00001",
  "text": "Les commotions cérébrales sont ...",
  "tokens": [
    {
      "form": "Les",
      "pos_tag": "ART:def",
      "phone": "le",
      "liaison": "none",
      "morpho": {"Number": "Plur", "Gender": "_"}
    },
    {
      "form": "commotions",
      "pos_tag": "NOM",
      "phone": "komosjɔ̃",
      "morpho": {"Gender": "Fem", "Number": "Plur"}
    }
  ]
}

Split	Phrases	Usage
Train	17 968	Entraînement
Dev	2 969	Validation / early stopping
Test	1 712	Évaluation finale

Source : UD French-GSD (CC BY-SA 4.0), enrichi phonétiquement par Lectura.

Lexique aligné

1 163 639 mots avec alignement caractère par caractère entre phonèmes et graphèmes :

{"ipa": "abaka", "labels": ["a", "b", "a", "c", "a"]}
{"ipa": "ʃɔkɔla", "labels": ["ch", "o", "c", "o", "l", "a", "t_"]}

Sources : GLAFF 1.2.1 (CC BY-SA 3.0), Lexique383 (CC BY-SA 4.0).

Scripts d’entraînement

Pipeline complet en Python (PyTorch) :

Script	G2P	P2G	Rôle
`preparer_donnees.py`	✓	✓	Alignement du corpus et création des splits
`entrainer.py`	✓	✓	Entraînement en 2 phases
`evaluer.py`	✓	✓	Évaluation multi-tâche
`exporter.py`	✓	✓	Export ONNX INT8 + poids JSON (NumPy)

Entraînement en 2 phases

Pré-entraînement sur le lexique aligné (~1M mots isolés, 30 epochs)
Fine-tuning multi-tâche sur les phrases (G2P/P2G + POS + morphologie + liaison, 80 epochs avec early stopping)

Prérequis

Python 3.10+
PyTorch 2.0+
Un GPU avec au moins 6 Go de VRAM (entraîné sur RTX 3060)

Performances de référence

Modèle	Tâche principale	Performance
G2P unifié	Graphème → Phonème	98,5% précision
P2G unifié	Phonème → Graphème	~95% précision

Le kit fournit les données et les scripts d’entraînement. Les modèles pré-entraînés sont disponibles séparément via les paquets PyPI (lectura-phonemiseur, lectura-graphemiseur).

Sources et licences

UD French-GSD : CC BY-SA 4.0
GLAFF 1.2.1 : CC BY-SA 3.0 (Franck Sajous, Nabil Hathout, Basilio Calderone)
Lexique383 : CC BY-SA 4.0 (Boris New, Christophe Pallier)

Obtenir cette ressource

Deux modes d’accès sont disponibles :

Lien direct : contactez-nous en précisant la ressource souhaitée, nous vous envoyons un lien de téléchargement personnalisé par email.
Via l’API : utilisez l’endpoint GET /download/{resource_id} avec votre clé API. Voir la documentation API.

Nous contacter Détails d'accès