Ressources
Corpus, données linguistiques et kits d’entraînement distribués par Lectura. Ces ressources sont le fruit du travail de développement des modules et peuvent servir de base à des projets de recherche, d’éducation ou de développement.
LeXiK Lite
Versions allégées du lexique LeXiK : complète (1,52M entrées) et fréquente (314K entrées). Phonétique IPA, syllabes, orthocode, fréquences, morphologie.
DisponibleKit d'entraînement G2P / P2G
Corpus annoté (22 649 phrases), lexique aligné (1,16M mots), scripts d'entraînement PyTorch et modèles pré-entraînés pour reproduire les pipelines G2P et P2G de Lectura.
DisponibleCorpus de Voix
880K phrases françaises avec transcription phonétique IPA alignée, issues de SIWIS, M-AILABS et Common Voice. Textes et alignements fournis, audio récupérable via les sources ouvertes.
DisponibleCorpus de Syllabes
4 307 syllabes + 1 474 de liaison, avec décomposition phonétique et fichiers audio (voix homme et femme, Amazon Polly).
DisponibleObtenir les ressources
Les ressources sont distribuées sous forme d’archives zip. Deux modes d’accès sont disponibles :
Lien direct (par email)
La façon la plus simple. Contactez-nous en précisant les ressources souhaitées : nous vous envoyons par email un lien de téléchargement personnalisé, valable pour une durée limitée.
Via l’API
Pour les développeurs ou les usages automatisés :
- Contactez-nous pour obtenir une clé API avec accès aux ressources
- Utilisez l’endpoint
GET /download/{resource_id}de l’API pour télécharger les archives - L’endpoint
GET /download/liste les ressources disponibles et leurs identifiants
Authentification : header Authorization: Bearer <votre_clé> — les clés de type « paid » ou « unlimited » donnent accès au téléchargement.
Tarification : nous contacter pour connaître les modalités d’accès selon votre usage (recherche, éducation, commercial).