Skip to the content.
LVTag Logo

Especificación LVTag

Versión 1.0
Creado por Danslav Slavenskoj
Fecha: Mayo 2025

Idiomas: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски

Enlaces rápidos

Resumen

El formato Language Variant Tag (LVTag) es un enfoque sistemático para la clasificación de idiomas que extiende el estándar BCP 47 utilizando subetiquetas de uso privado. Permite la identificación precisa de variedades lingüísticas a través de múltiples dimensiones, incluyendo formalidad, cortesía, dominio y ortografía.

Beneficios clave

Rigor de clasificación: LVTag aporta organización sistemática al etiquetado de idiomas proporcionando dimensiones claras y separadas para diferentes tipos de variación. A diferencia de las subetiquetas y sistemas existentes que mezclan diferentes categorías en el mismo nivel, LVTag mantiene una separación estricta entre formalidad, cortesía, dominio y otras dimensiones.

Compatibilidad con estándares: LVTag es totalmente compatible con BCP 47 (RFC 5646) y funciona perfectamente con:

Integración tecnológica: Las etiquetas LVTag se pueden usar directamente en:

Casos de uso:

Justificación

Aunque BCP 47 proporciona un excelente soporte para identificar idiomas, escrituras y regiones, carece de mecanismos estandarizados para capturar la variación sociolingüística dentro de un idioma. Los estándares actuales no abordan:

LVTag llena estos vacíos utilizando el mecanismo de extensión de uso privado de BCP 47 (-x-), proporcionando una forma sistemática y legible por máquina de codificar estas dimensiones críticas de la variación lingüística mientras mantiene total compatibilidad hacia atrás.

Clasificación lingüística precisa

La llegada de grandes modelos de lenguaje y herramientas NLP sofisticadas ha hecho que la clasificación precisa de variedades lingüísticas no solo sea útil sino esencial. Los sistemas modernos necesitan:

LVTag proporciona los metadatos granulares necesarios para entender no solo qué idioma se está usando, sino cómo se está usando, permitiendo pipelines de procesamiento de lenguaje más matizados y apropiados.

Especificación del formato

Estructura básica

language-x-[classifier]-[value]-[classifier2]-[value2]...

Donde:

Etiquetas mágicas

LVTag admite clasificadores “mágicos” tanto de forma larga como corta para mayor flexibilidad:

Forma larga Forma corta Descripción
ortho w Variante ortográfica
form f Nivel de formalidad (escala 1-5)
polite p Nivel de cortesía/respeto (escala 1-5)
domain d Vocabulario especializado o contexto profesional
geo g Variedad geográfica o regional
proto a Protolengua o lengua reconstruida
hist h Período histórico o etapa de una lengua
genre e Género textual o estilo literario
medium m Medio de comunicación (hablado, escrito, digital)
socio s Sociolecto o variedad de grupo social
modality o Modo de producción del lenguaje
register r Registro lingüístico
pragma u Función comunicativa
temporal t Marcación temporal
evidence v Fuente de información
affect k Tono emocional
age n Variedad de edad/generación
gender i Variedad de género
expert b Nivel de experiencia
interact 2 Estructura interaccional
prosody y Características prosódicas
lexical l Densidad léxica (0-100)
syntax z Complejidad sintáctica (0-100)
start 0 Fecha de inicio (ISO 8601 sin puntuación)
end 1 Fecha de fin (ISO 8601 sin puntuación)
taboo j Nivel de contenido tabú/vulgar (escala 0-5)
conf c Puntuación de confianza (0-100) para la etiqueta anterior
q, 3-9 Reservado para uso futuro

Clasificadores

1. Clasificador ortográfico (ortho o w)

Identifica convenciones ortográficas específicas o variantes del sistema de escritura más allá de las etiquetas estándar de escritura.

Formato:

Ejemplos (combinados con etiquetas estándar de escritura):

2. Clasificador de formalidad (form o f)

Identifica el nivel de formalidad del uso del lenguaje.

Formato:

Escala de formalidad:

Ejemplos:

3. Clasificador de cortesía (polite o p)

Identifica el nivel de cortesía/respeto del uso del lenguaje.

Formato:

Escala de cortesía:

Ejemplos:

4. Clasificador de dominio (domain o d)

Identifica vocabulario especializado o contexto profesional.

Formato:

Ejemplos:

5. Clasificador geográfico (geo o g)

Identifica variedades lingüísticas regionales o geográficas.

Formato:

Ejemplos:

6. Clasificador proto (proto o a)

Identifica protolenguajes o lenguas históricas reconstruidas.

Formato:

Reglas:

Ejemplos usando códigos ISO 639-5:

Ejemplos sin códigos ISO 639-5 (descriptivos, más de tres caracteres):

Nota:

7. Clasificador histórico (hist o h)

Identifica períodos históricos o etapas de una lengua.

Formato:

Ejemplos:

8. Clasificador de género (genre o e)

Identifica el género textual o estilo literario.

Formato:

Ejemplos:

9. Clasificador de medio (medium o m)

Identifica el medio de comunicación.

Formato:

Ejemplos:

10. Clasificador socio (socio o s)

Identifica sociolecto o variedades de grupos sociales.

Formato:

Ejemplos:

11. Clasificador de modalidad (modality o o)

Identifica el modo fundamental de producción del lenguaje.

Formato:

Ejemplos:

12. Clasificador de registro (register o r)

Identifica el registro lingüístico o variedad funcional del uso del lenguaje.

Formato:

Ejemplos:

13. Clasificador de función pragmática (pragma o u)

Identifica la función comunicativa o acto de habla.

Formato:

Ejemplos:

14. Clasificador de marcación temporal (temporal o t)

Identifica aspectos temporales o patrones de uso del tiempo.

Formato:

Ejemplos:

15. Clasificador de evidencialidad (evidence o v)

Identifica la marcación de fuente de información.

Formato:

Ejemplos:

16. Clasificador de afecto/emoción (affect o k)

Identifica el tono emocional o afecto.

Formato:

Ejemplos:

17. Clasificador de edad/generación (age o n)

Identifica variedades lingüísticas relacionadas con la edad o generación.

Formato:

Ejemplos:

18. Clasificador de género (gender o i)

Identifica variedades lingüísticas relacionadas con el género.

Formato:

19. Clasificador de nivel de experiencia (expert o b)

Identifica el nivel de experiencia en el dominio en una escala de 0-10.

Formato:

Escala de experiencia:

Ejemplos:

20. Clasificador de estructura interaccional (interact o 2)

Identifica patrones conversacionales o interaccionales.

Formato:

Ejemplos:

21. Clasificador de características prosódicas (prosody o y)

Identifica características prosódicas o suprasegmentales.

Formato:

Ejemplos:

22. Clasificador de densidad léxica (lexical o l)

Identifica la densidad léxica como un valor numérico (0-100).

Formato:

Ejemplos:

23. Clasificador de complejidad sintáctica (syntax o z)

Identifica la complejidad sintáctica como un valor numérico (0-100).

Formato:

Ejemplos:

24. Clasificador de fecha de inicio (start o 0)

Identifica la fecha de inicio del uso del lenguaje (formato ISO 8601 sin puntuación).

Formato:

Formatos de fecha:

Ejemplos:

25. Clasificador de fecha de fin (end o 1)

Identifica la fecha de fin del uso del lenguaje (formato ISO 8601 sin puntuación).

Formato:

Formatos de fecha:

Ejemplos:

26. Clasificador de tabú (taboo o j)

Identifica el nivel de contenido tabú, vulgar u ofensivo.

Formato:

Ejemplos:

27. Clasificador de confianza (conf o c)

Indica la puntuación de confianza para el clasificador inmediatamente anterior.

Formato:

Comportamiento especial:

Ejemplos:

Clasificaciones múltiples

LVTag admite múltiples clasificadores en una sola etiqueta para proporcionar una identificación precisa del idioma. Se pueden mezclar formas largas y cortas:

ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

Los ejemplos anteriores muestran coreano con formalidad informal (4) pero habla cortés (2) en contexto empresarial.

Valores válidos

Nota: Todos los valores deben tener 8 caracteres o menos para cumplir con las restricciones de longitud de subetiqueta BCP 47. Si bien los valores específicos para muchos clasificadores deben establecerse a través del uso experto y el consenso de la comunidad, las escalas numéricas, formatos de fecha y valores básicos enumerados a continuación están definidos en este estándar.

Escala de formalidad (Universal)

Nivel Descripción Ejemplos
1 Más formal Documentos legales, ceremonias oficiales, artículos académicos
2 Formal Cartas comerciales, artículos de noticias, presentaciones
3 Neutral Conversación estándar, correo electrónico, escritura general
4 Informal Conversación casual, blogs personales, mensajes de texto
5 Más casual Jerga, conversación íntima, redes sociales

Escala de cortesía (Universal)

Nivel Descripción Ejemplos
1 Más respetuoso Dirección real, líderes religiosos, respeto a los ancianos
2 Muy cortés Servicio al cliente, reuniones formales, maestros
3 Cortés/neutral Interacciones estándar, colegas
4 Familiar Amigos, compañeros, conocidos casuales
5 Íntimo/llano Familia cercana, parejas íntimas

Escala de experiencia (Universal)

Nivel Descripción
0 Sin conocimiento
1-2 Principiante
3-4 Intermedio
5-6 Avanzado
7-8 Experto
9-10 Maestro/Autoridad

Escala de tabú (Universal)

Nivel Descripción
0 Sin contenido tabú
1 Tabú leve
2 Tabú ligero
3 Tabú moderado
4 Tabú alto
5 Tabú extremo

Escala de densidad léxica (Universal)

Nivel Descripción
0-20 Densidad muy baja
21-40 Densidad baja
41-60 Densidad moderada
61-80 Densidad alta
81-100 Densidad muy alta

Escala de complejidad sintáctica (Universal)

Nivel Descripción
0-20 Muy simple
21-40 Simple
41-60 Complejidad moderada
61-80 Complejo
81-100 Muy complejo

Valores de dominio

Valor Descripción
legal Terminología legal
med Terminología médica
tech Técnico/TI
business Negocios/corporativo
fin Finanzas/banca
acad Académico/erudito
sci Científico/investigación

Ejemplos de implementación

Clasificador único (Forma larga)

# Coreano más formal
ko-x-form-1

# Japonés muy cortés
ja-x-polite-2

# Inglés legal
en-x-domain-legal

# Coreano de Gyeongsang
ko-x-geo-gyeong

# Protoindoeuropeo
x-proto-ine

Clasificador único (Forma corta)

# Coreano más formal
ko-x-f-1

# Japonés muy cortés
ja-x-p-2

# Inglés legal
en-x-d-legal

# Coreano de Gyeongsang
ko-x-g-gyeong

# Protoindoeuropeo
x-a-ine

Múltiples clasificadores

# Lenguaje empresarial coreano informal pero cortés
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

# Lenguaje médico japonés formal y respetuoso
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med

# Vietnamita del sur con formalidad neutral, habla cortés, dominio técnico
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech

# Clasificación compleja con múltiples dimensiones
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written

# Variedades lingüísticas que muestran distinción formalidad/cortesía
ko-x-f-5-p-2  # Muy casual pero cortés (a un amigo mayor)
ko-x-f-1-p-4  # Muy formal pero familiar (escrito a un compañero)
ja-x-f-4-p-1  # Formalidad casual pero máximo respeto
en-x-f-5-j-4  # Inglés muy casual con alto nivel de tabú

Casos de uso

  1. Aplicaciones de aprendizaje de idiomas
    • Enseñar el registro apropiado para diferentes contextos sociales
    • Proporcionar entrenamiento de vocabulario específico del dominio
  2. Traducción automática
    • Mantener la consistencia del registro en las traducciones
    • Aplicar terminología específica del dominio
  3. Clasificación de contenido
    • Categorizar automáticamente el texto por formalidad y dominio
    • Dirigir el contenido a revisores o sistemas apropiados
  4. Lingüística de corpus
    • Construir corpus etiquetados para investigación lingüística
    • Estudiar la variación de registro y dominio

Reglas de validación

  1. Longitud de subetiqueta: Cada subetiqueta después de x- debe tener 8 caracteres o menos
  2. Orden: Los clasificadores pueden aparecer en cualquier orden después de x-
  3. Unicidad: Cada tipo de clasificador debe aparecer solo una vez por etiqueta (excepto conf que puede aparecer múltiples veces)
  4. Mayúsculas/minúsculas: Las etiquetas deben estar en minúsculas (no sensible a mayúsculas según BCP 47)
  5. Etiquetas mágicas: Las etiquetas de forma corta son caracteres únicos; q, 3-9 están reservados para uso futuro
  6. Mezcla: Las formas largas y cortas se pueden mezclar dentro de la misma etiqueta
  7. Etiquetas proto: Deben comenzar con x- y DEBERÍAN usar códigos ISO 639-5 cuando estén disponibles (p. ej., x-proto-sla no x-proto-slavic)
  8. Confianza: El clasificador conf/c se aplica al clasificador inmediatamente anterior
  9. Valores numéricos: Deben estar dentro de los rangos definidos (0-5 para tabú, 0-10 para experiencia, 0-100 para valores porcentuales)
  10. Formato de fecha: Las fechas usan ISO 8601 sin puntuación (YYYY, YYYYMM o YYYYMMDD)

Compatibilidad

El formato LVTag es totalmente compatible con:

Beneficios

  1. Precisión: Permite la identificación de variedades lingüísticas de grano fino
  2. Extensibilidad: Se pueden agregar nuevos registros y dominios
  3. Basado en estándares: Construido sobre el mecanismo de uso privado BCP 47 establecido
  4. Legible por máquina: El formato sistemático permite el procesamiento automatizado
  5. Legible por humanos: Subetiquetas claras y descriptivas
  6. Flexibilidad: Soporte para etiquetas tanto de forma larga detallada como de forma corta concisa
  7. Brevedad: Las etiquetas mágicas cortas permiten una representación compacta manteniendo la claridad

Extensiones futuras

LVTag está diseñado para evolucionar con las necesidades de la comunidad de tecnología lingüística. Damos la bienvenida a sugerencias para nuevos clasificadores, mejoras a los existentes y comentarios de implementaciones del mundo real.

Para proponer extensiones o contribuir a la especificación:

Los códigos de un solo carácter reservados (q, 3-9) están disponibles para futuras extensiones estandarizadas.

Referencias


Licencia y concesión de patentes

Esta especificación se publica bajo CC0 1.0 Universal (Dedicación de dominio público).

Por qué CC0: Para garantizar la máxima adopción y libertad de implementación, LVTag se coloca en el dominio público. Esto significa:

Concesión de patentes: Cualquier patente que cubra la especificación LVTag se licencia por la presente libre de regalías para cualquier implementación que cumpla con esta especificación.

Sin respaldo: El uso de LVTag no implica respaldo por parte de los autores de la especificación.

En la medida permitida por la ley, Danslav Slavenskoj ha renunciado a todos los derechos de autor y derechos relacionados o conexos a la Especificación del formato Language Variant Tag (LVTag). Este trabajo se publica desde: Estados Unidos de América.