Skip to the content.
LVTag Logo

Spécification LVTag

Version 1.0
Créé par Danslav Slavenskoj
Date : Mai 2025

Langues : 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски

Liens rapides

Aperçu

Le format Language Variant Tag (LVTag) est une approche systématique de la classification des langues qui étend la norme BCP 47 en utilisant des sous-étiquettes à usage privé. Il permet l’identification précise des variétés linguistiques à travers plusieurs dimensions, y compris la formalité, la politesse, le domaine et l’orthographe.

Avantages clés

Rigueur de classification : LVTag apporte une organisation systématique au marquage linguistique en fournissant des dimensions claires et séparées pour différents types de variation. Contrairement aux sous-étiquettes et systèmes existants qui mélangent différentes catégories au même niveau, LVTag maintient une séparation stricte entre formalité, politesse, domaine et autres dimensions.

Compatibilité avec les normes : LVTag est entièrement compatible avec BCP 47 (RFC 5646) et fonctionne parfaitement avec :

Intégration technologique : Les balises LVTag peuvent être utilisées directement dans :

Cas d’usage :

Justification

Bien que BCP 47 fournisse un excellent support pour identifier les langues, les écritures et les régions, il manque de mécanismes standardisés pour capturer la variation sociolinguistique au sein d’une langue. Les normes actuelles n’abordent pas :

LVTag comble ces lacunes en utilisant le mécanisme d’extension à usage privé de BCP 47 (-x-), fournissant un moyen systématique et lisible par machine d’encoder ces dimensions critiques de la variation linguistique tout en maintenant une compatibilité ascendante complète.

Classification linguistique précise

L’avènement des grands modèles de langage et des outils NLP sophistiqués a rendu la classification précise des variétés linguistiques non seulement utile mais essentielle. Les systèmes modernes doivent :

LVTag fournit les métadonnées granulaires nécessaires pour comprendre non seulement quelle langue est utilisée, mais comment elle est utilisée, permettant des pipelines de traitement du langage plus nuancés et appropriés.

Spécification du format

Structure de base

language-x-[classifier]-[value]-[classifier2]-[value2]...

Où :

Balises magiques

LVTag prend en charge les classificateurs « magiques » sous forme longue et courte pour plus de flexibilité :

Forme longue Forme courte Description
ortho w Variante orthographique
form f Niveau de formalité (échelle 1-5)
polite p Niveau de politesse/respect (échelle 1-5)
domain d Vocabulaire spécialisé ou contexte professionnel
geo g Variété géographique ou régionale
proto a Proto-langue ou langue reconstruite
hist h Période historique ou stade d’une langue
genre e Genre textuel ou style littéraire
medium m Média de communication (parlé, écrit, numérique)
socio s Sociolecte ou variété de groupe social
modality o Mode de production du langage
register r Registre linguistique
pragma u Fonction communicative
temporal t Marquage temporel
evidence v Source d’information
affect k Ton émotionnel
age n Variété d’âge/génération
gender i Variété de genre
expert b Niveau d’expertise
interact 2 Structure interactionnelle
prosody y Caractéristiques prosodiques
lexical l Densité lexicale (0-100)
syntax z Complexité syntaxique (0-100)
start 0 Date de début (ISO 8601 sans ponctuation)
end 1 Date de fin (ISO 8601 sans ponctuation)
taboo j Niveau de contenu tabou/vulgaire (échelle 0-5)
conf c Score de confiance (0-100) pour la balise précédente
q, 3-9 Réservé pour usage futur

Classificateurs

1. Classificateur orthographique (ortho ou w)

Identifie les conventions orthographiques spécifiques ou les variantes du système d’écriture au-delà des balises d’écriture standard.

Format :

Exemples (combinés avec des balises d’écriture standard) :

2. Classificateur de formalité (form ou f)

Identifie le niveau de formalité de l’usage linguistique.

Format :

Échelle de formalité :

Exemples :

3. Classificateur de politesse (polite ou p)

Identifie le niveau de politesse/respect de l’usage linguistique.

Format :

Échelle de politesse :

Exemples :

4. Classificateur de domaine (domain ou d)

Identifie le vocabulaire spécialisé ou le contexte professionnel.

Format :

Exemples :

5. Classificateur géographique (geo ou g)

Identifie les variétés linguistiques régionales ou géographiques.

Format :

Exemples :

6. Classificateur proto (proto ou a)

Identifie les proto-langues ou les langues historiques reconstruites.

Format :

Règles :

Exemples utilisant les codes ISO 639-5 :

Exemples sans codes ISO 639-5 (descriptifs, plus de trois caractères) :

Note :

7. Classificateur historique (hist ou h)

Identifie les périodes historiques ou les stades d’une langue.

Format :

Exemples :

8. Classificateur de genre (genre ou e)

Identifie le genre textuel ou le style littéraire.

Format :

Exemples :

9. Classificateur de média (medium ou m)

Identifie le média de communication.

Format :

Exemples :

10. Classificateur socio (socio ou s)

Identifie le sociolecte ou les variétés de groupes sociaux.

Format :

Exemples :

11. Classificateur de modalité (modality ou o)

Identifie le mode fondamental de production du langage.

Format :

Exemples :

12. Classificateur de registre (register ou r)

Identifie le registre linguistique ou la variété fonctionnelle de l’usage linguistique.

Format :

Exemples :

13. Classificateur de fonction pragmatique (pragma ou u)

Identifie la fonction communicative ou l’acte de parole.

Format :

Exemples :

14. Classificateur de marquage temporel (temporal ou t)

Identifie les aspects temporels ou les modèles d’utilisation du temps.

Format :

Exemples :

15. Classificateur d’évidentialité (evidence ou v)

Identifie le marquage de la source d’information.

Format :

Exemples :

16. Classificateur d’affect/émotion (affect ou k)

Identifie le ton émotionnel ou l’affect.

Format :

Exemples :

17. Classificateur d’âge/génération (age ou n)

Identifie les variétés linguistiques liées à l’âge ou à la génération.

Format :

Exemples :

18. Classificateur de genre (gender ou i)

Identifie les variétés linguistiques liées au genre.

Format :

19. Classificateur du niveau d’expertise (expert ou b)

Identifie le niveau d’expertise du domaine sur une échelle de 0 à 10.

Format :

Échelle d’expertise :

Exemples :

20. Classificateur de structure interactionnelle (interact ou 2)

Identifie les modèles conversationnels ou interactionnels.

Format :

Exemples :

21. Classificateur de caractéristiques prosodiques (prosody ou y)

Identifie les caractéristiques prosodiques ou suprasegmentales.

Format :

Exemples :

22. Classificateur de densité lexicale (lexical ou l)

Identifie la densité lexicale comme valeur numérique (0-100).

Format :

Exemples :

23. Classificateur de complexité syntaxique (syntax ou z)

Identifie la complexité syntaxique comme valeur numérique (0-100).

Format :

Exemples :

24. Classificateur de date de début (start ou 0)

Identifie la date de début de l’utilisation linguistique (format ISO 8601 sans ponctuation).

Format :

Formats de date :

Exemples :

25. Classificateur de date de fin (end ou 1)

Identifie la date de fin de l’utilisation linguistique (format ISO 8601 sans ponctuation).

Format :

Formats de date :

Exemples :

26. Classificateur de tabou (taboo ou j)

Identifie le niveau de contenu tabou, vulgaire ou offensant.

Format :

Exemples :

27. Classificateur de confiance (conf ou c)

Indique le score de confiance pour le classificateur immédiatement précédent.

Format :

Comportement spécial :

Exemples :

Classifications multiples

LVTag prend en charge plusieurs classificateurs dans une seule balise pour fournir une identification linguistique précise. Les formes longues et courtes peuvent être mélangées :

ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

Les exemples ci-dessus montrent le coréen avec une formalité informelle (4) mais un discours poli (2) dans un contexte commercial.

Valeurs valides

Note : Toutes les valeurs doivent avoir 8 caractères ou moins pour se conformer aux restrictions de longueur des sous-étiquettes BCP 47. Bien que les valeurs spécifiques pour de nombreux classificateurs doivent être établies par l’usage expert et le consensus communautaire, les échelles numériques, les formats de date et les valeurs de base énumérées ci-dessous sont définis dans cette norme.

Échelle de formalité (Universelle)

Niveau Description Exemples
1 Le plus formel Documents juridiques, cérémonies officielles, articles académiques
2 Formel Lettres d’affaires, articles de presse, présentations
3 Neutre Conversation standard, courriel, écriture générale
4 Informel Conversation décontractée, blogs personnels, messages texte
5 Le plus familier Argot, conversation intime, médias sociaux

Échelle de politesse (Universelle)

Niveau Description Exemples
1 Le plus respectueux Adresse royale, chefs religieux, respect des aînés
2 Très poli Service client, réunions formelles, enseignants
3 Poli/neutre Interactions standard, collègues
4 Familier Amis, pairs, connaissances occasionnelles
5 Intime/simple Famille proche, partenaires intimes

Échelle d’expertise (Universelle)

Niveau Description
0 Aucune connaissance
1-2 Débutant
3-4 Intermédiaire
5-6 Avancé
7-8 Expert
9-10 Maître/Autorité

Échelle de tabou (Universelle)

Niveau Description
0 Aucun contenu tabou
1 Tabou léger
2 Tabou faible
3 Tabou modéré
4 Tabou élevé
5 Tabou extrême

Échelle de densité lexicale (Universelle)

Niveau Description
0-20 Très faible densité
21-40 Faible densité
41-60 Densité modérée
61-80 Haute densité
81-100 Très haute densité

Échelle de complexité syntaxique (Universelle)

Niveau Description
0-20 Très simple
21-40 Simple
41-60 Complexité modérée
61-80 Complexe
81-100 Très complexe

Valeurs de domaine

Valeur Description
legal Terminologie juridique
med Terminologie médicale
tech Technique/IT
business Affaires/entreprise
fin Finance/banque
acad Académique/savant
sci Scientifique/recherche

Exemples d’implémentation

Classificateur unique (Forme longue)

# Coréen le plus formel
ko-x-form-1

# Japonais très poli
ja-x-polite-2

# Anglais juridique
en-x-domain-legal

# Coréen de Gyeongsang
ko-x-geo-gyeong

# Proto-indo-européen
x-proto-ine

Classificateur unique (Forme courte)

# Coréen le plus formel
ko-x-f-1

# Japonais très poli
ja-x-p-2

# Anglais juridique
en-x-d-legal

# Coréen de Gyeongsang
ko-x-g-gyeong

# Proto-indo-européen
x-a-ine

Classificateurs multiples

# Langue d'affaires coréenne informelle mais polie
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

# Langue médicale japonaise formelle et respectueuse
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med

# Vietnamien du sud avec formalité neutre, discours poli, domaine technique
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech

# Classification complexe avec plusieurs dimensions
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written

# Variétés linguistiques montrant la distinction formalité/politesse
ko-x-f-5-p-2  # Très familier mais poli (à un ami plus âgé)
ko-x-f-1-p-4  # Très formel mais familier (écrit à un pair)
ja-x-f-4-p-1  # Formalité familière mais plus haut respect
en-x-f-5-j-4  # Anglais très familier avec un niveau de tabou élevé

Cas d’usage

  1. Applications d’apprentissage des langues
    • Enseigner le registre approprié pour différents contextes sociaux
    • Fournir une formation de vocabulaire spécifique au domaine
  2. Traduction automatique
    • Maintenir la cohérence du registre dans les traductions
    • Appliquer la terminologie spécifique au domaine
  3. Classification du contenu
    • Catégoriser automatiquement le texte par formalité et domaine
    • Router le contenu vers les réviseurs ou systèmes appropriés
  4. Linguistique de corpus
    • Construire des corpus étiquetés pour la recherche linguistique
    • Étudier la variation de registre et de domaine

Règles de validation

  1. Longueur de sous-étiquette : Chaque sous-étiquette après x- doit avoir 8 caractères ou moins
  2. Ordre : Les classificateurs peuvent apparaître dans n’importe quel ordre après x-
  3. Unicité : Chaque type de classificateur ne doit apparaître qu’une seule fois par balise (sauf conf qui peut apparaître plusieurs fois)
  4. Casse : Les balises doivent être en minuscules (insensible à la casse selon BCP 47)
  5. Balises magiques : Les balises de forme courte sont des caractères uniques ; q, 3-9 sont réservés pour une utilisation future
  6. Mélange : Les formes longues et courtes peuvent être mélangées dans la même balise
  7. Balises proto : Doivent commencer par x- et DEVRAIENT utiliser les codes ISO 639-5 lorsqu’ils sont disponibles (par ex., x-proto-sla pas x-proto-slavic)
  8. Confiance : Le classificateur conf/c s’applique au classificateur immédiatement précédent
  9. Valeurs numériques : Doivent être dans les plages définies (0-5 pour tabou, 0-10 pour expertise, 0-100 pour les valeurs en pourcentage)
  10. Format de date : Les dates utilisent ISO 8601 sans ponctuation (YYYY, YYYYMM ou YYYYMMDD)

Compatibilité

Le format LVTag est entièrement compatible avec :

Avantages

  1. Précision : Permet l’identification fine des variétés linguistiques
  2. Extensibilité : De nouveaux registres et domaines peuvent être ajoutés
  3. Basé sur des normes : Construit sur le mécanisme d’usage privé BCP 47 établi
  4. Lisible par machine : Le format systématique permet un traitement automatisé
  5. Lisible par l’homme : Sous-étiquettes claires et descriptives
  6. Flexibilité : Support pour les balises de forme longue détaillée et de forme courte concise
  7. Brièveté : Les balises magiques courtes permettent une représentation compacte tout en maintenant la clarté

Extensions futures

LVTag est conçu pour évoluer avec les besoins de la communauté technologique linguistique. Nous accueillons les suggestions pour de nouveaux classificateurs, des améliorations aux classificateurs existants, et des retours d’expérience d’implémentations réelles.

Pour proposer des extensions ou contribuer à la spécification :

Les codes à caractère unique réservés (q, 3-9) sont disponibles pour de futures extensions standardisées.

Références


Licence et octroi de brevets

Cette spécification est publiée sous CC0 1.0 Universal (Dédicace au domaine public).

Pourquoi CC0 : Pour garantir une adoption maximale et une liberté d’implémentation, LVTag est placé dans le domaine public. Cela signifie :

Octroi de brevets : Tous les brevets couvrant la spécification LVTag sont par la présente licenciés sans redevance pour toute implémentation conforme à cette spécification.

Aucune approbation : L’utilisation de LVTag n’implique pas l’approbation des auteurs de la spécification.

Dans la mesure permise par la loi, Danslav Slavenskoj a renoncé à tous les droits d’auteur et droits connexes ou voisins à la spécification du format Language Variant Tag (LVTag). Ce travail est publié depuis : États-Unis d’Amérique. EOF < /dev/null