Liens

Liens

Ressources, projets et outils en lien avec l’écosystème Lectura.

Autres projets

Humanuscrit — Projet d’écriture explorant l’IA et la créativité humaine
Zmaths — Cours de mathématiques en ligne

Services Lectura

Lexique en ligne — 1,35 million d’entrées, consultable en ligne
API Lectura — Documentation interactive (Swagger)
GitHub — Code source des modules Lectura
PyPI — 18+ modules publiés (TTS, STT, NLP, VC)

Ressources & données ouvertes

Bases lexicales :

Lexique383 — Base lexicale du français, 142 000 entrées (CC BY-SA)
GLAFF — Lexique morphologique, 1,4 million d’entrées (CC BY-SA 3.0)
Morphalou — Lexique morphologique français (Ortolang)
Wiktionnaire — Définitions et données sémantiques
Wikidata — Base de connaissances structurée (2,5M entités liées dans LeXiK)

Corpus vocaux :

Common Voice — Corpus vocal participatif Mozilla (CC-0)
LibriVox — Enregistrements audio du domaine public
SIWIS — Corpus vocal studio haute qualité
OpenSubtitles — Corpus de sous-titres pour les statistiques de fréquence

Corpus & annotations linguistiques :

UD French-GSD — Treebank syntaxique du français (CC BY-SA 4.0)
Ortolang — Infrastructure de recherche pour les données linguistiques ouvertes

Projets open-source

Synthèse vocale (TTS) :

Piper — TTS rapide et léger, modèles ONNX multilingues (Rhasspy)
Kokoro — TTS expressif 82M paramètres, Apache 2.0
Coqui TTS — Boîte à outils TTS (VITS, Tacotron, XTTS)
eSpeak-NG — Synthèse par formants et G2P multilingue
Matcha-TTS — TTS par flow-matching OT-CFM
HiFi-GAN — Vocoder neuronal universel

Conversion vocale (VC) :

OpenVoice — Conversion vocale zero-shot (MyShell)
RVC — Conversion vocale par récupération

Reconnaissance vocale (STT) :

Whisper — STT multilingue par OpenAI
Vosk — STT offline léger, 20+ langues
MFA — Alignement forcé phonème-audio (Montreal)

NLP & traitement du texte :

spaCy — Pipeline NLP industriel (tokenisation, POS, NER, dépendances)
Stanza — NLP multilingue par Stanford (UD-compatible)
NLTK — Boîte à outils NLP historique, ressources pédagogiques
Phonemizer — Conversion texte-phonèmes multilingue (eSpeak, Festival)
Lexconvert — Conversion entre formats de transcription phonétique
Universal Dependencies — Annotations syntaxiques multilingues

Outils & infrastructures

ONNX Runtime — Inférence optimisée pour modèles ONNX
PyTorch — Framework d’entraînement des modèles
WORLD Vocoder — Vocodeur haute qualité (Morise et al.)
Hugging Face — Hub de modèles et datasets