Tokeniseur

Lectura Tokeniseur

Normalisateur et tokeniseur complet pour le français

Présentation

Module autonome, zéro dépendance externe. Normalise le texte français (typographie, espaces, Unicode) et le découpe en tokens structurés : mots, ponctuation et formules détectées automatiquement.

Le Tokeniseur identifie et classifie plus de 15 types de formules :

  • Nombres (entiers, décimaux, négatifs)
  • Dates, heures, téléphones
  • Sigles et acronymes
  • Ordinaux, fractions, pourcentages
  • Monnaies, unités de mesure
  • Expressions mathématiques
  • Chiffres romains

Exemple

from lectura_tokeniseur import tokenise, Formule

tokens = tokenise("Le 25/12/2024, il a lu 42 pages.")

for token in tokens:
    detail = token.formule_type.name if isinstance(token, Formule) else ""
    print(f"{token.text:25s}  {token.type.name:12s}  {detail}")
Le                         MOT
25/12/2024                 FORMULE       DATE
,                          PONCTUATION
il                         MOT
a                          MOT
lu                         MOT
42                         FORMULE       NOMBRE
pages                      MOT
.                          PONCTUATION

Essayer en ligne


Installation

pip install lectura-tokeniseur                # zéro dépendance
pip install lectura-tokeniseur[formules]      # + lectura-formules (enrichissement automatique)

Fonctionnalités

Fonction Description
Normalisation Typographie française, espaces, nettoyage Unicode
Tokenisation Découpage en mots, ponctuation, séparateurs
Détection de formules 15+ types : nombres, dates, heures, sigles, monnaies…
API simple tokenise(texte) renvoie une liste de tokens

Caractéristiques techniques

  • Zéro dépendance Python (aucune dépendance tierce)
  • Indépendant de Formules (fonctionne seul, enrichissement optionnel si lectura-formules est installé)
  • Python 3.10+ avec type hints complets (PEP-561)
  • Version : 2.3.0
  • Licence : AGPL-3.0 (non commerciale) — licence commerciale sur demande : nous contacter