Liens

Liens

Ressources, projets et outils en lien avec l’écosystème Lectura.


Autres projets

  • Humanuscrit — Projet d’écriture explorant l’IA et la créativité humaine
  • Zmaths — Cours de mathématiques en ligne

Services Lectura

  • Lexique en ligne — 1,35 million d’entrées, consultable en ligne
  • API Lectura — Documentation interactive (Swagger)
  • GitHub — Code source des modules Lectura
  • PyPI — 18+ modules publiés (TTS, STT, NLP, VC)

Ressources & données ouvertes

Bases lexicales :

  • Lexique383 — Base lexicale du français, 142 000 entrées (CC BY-SA)
  • GLAFF — Lexique morphologique, 1,4 million d’entrées (CC BY-SA 3.0)
  • Morphalou — Lexique morphologique français (Ortolang)
  • Wiktionnaire — Définitions et données sémantiques
  • Wikidata — Base de connaissances structurée (2,5M entités liées dans LeXiK)

Corpus vocaux :

  • Common Voice — Corpus vocal participatif Mozilla (CC-0)
  • LibriVox — Enregistrements audio du domaine public
  • SIWIS — Corpus vocal studio haute qualité
  • OpenSubtitles — Corpus de sous-titres pour les statistiques de fréquence

Corpus & annotations linguistiques :

  • UD French-GSD — Treebank syntaxique du français (CC BY-SA 4.0)
  • Ortolang — Infrastructure de recherche pour les données linguistiques ouvertes

Projets open-source

Synthèse vocale (TTS) :

  • Piper — TTS rapide et léger, modèles ONNX multilingues (Rhasspy)
  • Kokoro — TTS expressif 82M paramètres, Apache 2.0
  • Coqui TTS — Boîte à outils TTS (VITS, Tacotron, XTTS)
  • eSpeak-NG — Synthèse par formants et G2P multilingue
  • Matcha-TTS — TTS par flow-matching OT-CFM
  • HiFi-GAN — Vocoder neuronal universel

Conversion vocale (VC) :

  • OpenVoice — Conversion vocale zero-shot (MyShell)
  • RVC — Conversion vocale par récupération

Reconnaissance vocale (STT) :

  • Whisper — STT multilingue par OpenAI
  • Vosk — STT offline léger, 20+ langues
  • MFA — Alignement forcé phonème-audio (Montreal)

NLP & traitement du texte :

  • spaCy — Pipeline NLP industriel (tokenisation, POS, NER, dépendances)
  • Stanza — NLP multilingue par Stanford (UD-compatible)
  • NLTK — Boîte à outils NLP historique, ressources pédagogiques
  • Phonemizer — Conversion texte-phonèmes multilingue (eSpeak, Festival)
  • Lexconvert — Conversion entre formats de transcription phonétique
  • Universal Dependencies — Annotations syntaxiques multilingues

Outils & infrastructures