Kit d'entraînement G2P / P2G
Disponible
Kit complet pour entraîner et reproduire les modèles G2P et P2G de Lectura.
| Corpus phrases | 22 649 phrases annotées (train / dev / test) |
| Lexique aligné | 1 163 639 mots avec alignement phone-graphème |
| Scripts | Préparation, entraînement, évaluation, export ONNX |
| Sources | UD French-GSD (CC BY-SA 4.0), GLAFF 1.2.1 (CC BY-SA 3.0), Lexique383 (CC BY-SA 4.0) |
Corpus de phrases annotées
22 649 phrases du français avec annotation complète pour chaque token :
{
"sent_id": "fr-ud-train_00001",
"text": "Les commotions cérébrales sont ...",
"tokens": [
{
"form": "Les",
"pos_tag": "ART:def",
"phone": "le",
"liaison": "none",
"morpho": {"Number": "Plur", "Gender": "_"}
},
{
"form": "commotions",
"pos_tag": "NOM",
"phone": "komosjɔ̃",
"morpho": {"Gender": "Fem", "Number": "Plur"}
}
]
}
| Split | Phrases | Usage |
|---|---|---|
| Train | 17 968 | Entraînement |
| Dev | 2 969 | Validation / early stopping |
| Test | 1 712 | Évaluation finale |
Source : UD French-GSD (CC BY-SA 4.0), enrichi phonétiquement par Lectura.
Lexique aligné
1 163 639 mots avec alignement caractère par caractère entre phonèmes et graphèmes :
{"ipa": "abaka", "labels": ["a", "b", "a", "c", "a"]}
{"ipa": "ʃɔkɔla", "labels": ["ch", "o", "c", "o", "l", "a", "t_"]}
Sources : GLAFF 1.2.1 (CC BY-SA 3.0), Lexique383 (CC BY-SA 4.0).
Scripts d’entraînement
Pipeline complet en Python (PyTorch) :
| Script | G2P | P2G | Rôle |
|---|---|---|---|
preparer_donnees.py |
✓ | ✓ | Alignement du corpus et création des splits |
entrainer.py |
✓ | ✓ | Entraînement en 2 phases |
evaluer.py |
✓ | ✓ | Évaluation multi-tâche |
exporter.py |
✓ | ✓ | Export ONNX INT8 + poids JSON (NumPy) |
Entraînement en 2 phases
- Pré-entraînement sur le lexique aligné (~1M mots isolés, 30 epochs)
- Fine-tuning multi-tâche sur les phrases (G2P/P2G + POS + morphologie + liaison, 80 epochs avec early stopping)
Prérequis
- Python 3.10+
- PyTorch 2.0+
- Un GPU avec au moins 6 Go de VRAM (entraîné sur RTX 3060)
Performances de référence
| Modèle | Tâche principale | Performance |
|---|---|---|
| G2P unifié | Graphème → Phonème | 98,5% précision |
| P2G unifié | Phonème → Graphème | ~95% précision |
Le kit fournit les données et les scripts d’entraînement. Les modèles pré-entraînés sont disponibles séparément via les paquets PyPI (lectura-phonemiseur, lectura-graphemiseur).
Sources et licences
- UD French-GSD : CC BY-SA 4.0
- GLAFF 1.2.1 : CC BY-SA 3.0 (Franck Sajous, Nabil Hathout, Basilio Calderone)
- Lexique383 : CC BY-SA 4.0 (Boris New, Christophe Pallier)
Obtenir cette ressource
Deux modes d’accès sont disponibles :
- Lien direct : contactez-nous en précisant la ressource souhaitée, nous vous envoyons un lien de téléchargement personnalisé par email.
- Via l’API : utilisez l’endpoint
GET /download/{resource_id}avec votre clé API. Voir la documentation API.