LeXiK Lite

Disponible

Versions allégées du lexique LeXiK (1,52 million d’entrées), destinées à l’intégration dans des applications, la recherche linguistique ou le développement d’outils de traitement du français.


Fichiers

Deux fichiers CSV (encodage UTF-8), accompagnés d’un décodeur Multext en Python :

Fichier Entrées Taille Description
lexik_lite.csv 1 518 155 ~131 Mo Toutes les formes (hors entités nommées)
lexik_lite_freq.csv 314 212 ~28 Mo Uniquement les formes avec fréquence > 0
multext_decoder.py Script Python de décodage des codes Multext

Colonnes

Colonne Description Exemple
ortho Forme orthographique chocolat
lemme Lemme de rattachement chocolat
cgram Catégorie grammaticale NOM
multext Code morphologique Multext Ncms
phone Transcription phonétique IPA ʃokola
syllabes Découpage syllabique (séparateur .) ʃo.ko.la
orthocode Code orthographique Lectura cho.co.lat°
freq_composite Fréquence composite (moyenne pondérée de 4 sources) 23.48
source Source de la donnée GLAFF

Codes Multext

Le code multext encode les propriétés morphologiques sur une chaîne compacte. Le script multext_decoder.py permet de le décoder :

from multext_decoder import decode_multext

decode_multext("Ncms")
# {'categorie': 'Nom', 'type': 'commun', 'genre': 'masculin', 'nombre': 'singulier'}

decode_multext("Vmip3s-")
# {'categorie': 'Verbe', 'type': 'principal', 'mode': 'indicatif',
#  'temps': 'présent', 'personne': '3', 'nombre': 'singulier'}

decode_multext("Yms")
# {'categorie': 'Sigle', 'genre': 'masculin', 'type': 'sigle'}

Catégories principales

Code Catégorie Positions suivantes
N Nom type (c/p), genre (m/f), nombre (s/p)
V Verbe type (m/v), mode, temps, personne, nombre
A Adjectif type, degré, genre, nombre
D Déterminant type, genre, nombre
P Pronom type, genre, nombre
R Adverbe type, degré
S Adposition type (p/d)
C Conjonction type (c/s)
Y Sigle genre (m/f), type (s/a)
I Interjection

Le caractère - indique une valeur non spécifiée.


Sources

Les données proviennent de trois sources, indiquées dans la colonne source :

  • GLAFF (1,24M formes) : GLAFF 1.2.1, sous licence CC BY-SA 3.0
  • WIK (~100K formes) : données extraites du Wiktionnaire
  • LEX (~10K formes) : Lexique383, sous licence CC BY-SA 4.0

Fréquences

La fréquence composite est une moyenne pondérée de quatre corpus :

  • Frantext (littérature française)
  • LM10 (corpus journalistique)
  • frWaC (web francophone)
  • OpenSubtitles (sous-titres)

Une valeur vide signifie qu’aucune fréquence n’a été trouvée dans les corpus de référence.


Obtenir cette ressource

Deux modes d’accès sont disponibles :

  • Lien direct : contactez-nous en précisant la ressource souhaitée, nous vous envoyons un lien de téléchargement personnalisé par email.
  • Via l’API : utilisez l’endpoint GET /download/{resource_id} avec votre clé API. Voir la documentation API.