Especificación LVTag
Versión 1.0
Creado por Danslav Slavenskoj
Fecha: Mayo 2025
Idiomas: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски
Enlaces rápidos
- Esquema JSON - Esquema de validación completo para el formato LVTag
 - Definiciones de clasificadores - Especificaciones de clasificadores legibles por máquina
 - Especificación - Saltar a los detalles del formato
 - Ejemplos - Ver LVTag en acción
 
Resumen
El formato Language Variant Tag (LVTag) es un enfoque sistemático para la clasificación de idiomas que extiende el estándar BCP 47 utilizando subetiquetas de uso privado. Permite la identificación precisa de variedades lingüísticas a través de múltiples dimensiones, incluyendo formalidad, cortesía, dominio y ortografía.
Beneficios clave
Rigor de clasificación: LVTag aporta organización sistemática al etiquetado de idiomas proporcionando dimensiones claras y separadas para diferentes tipos de variación. A diferencia de las subetiquetas y sistemas existentes que mezclan diferentes categorías en el mismo nivel, LVTag mantiene una separación estricta entre formalidad, cortesía, dominio y otras dimensiones.
Compatibilidad con estándares: LVTag es totalmente compatible con BCP 47 (RFC 5646) y funciona perfectamente con:
- Registro de subetiquetas de idioma IANA
 - Códigos de idioma ISO 639
 - Unicode CLDR
 - Etiquetas de idioma W3C
 - Encabezados HTTP Accept-Language
 - Atributos lang XML
 - Atributos lang HTML
 
Integración tecnológica: Las etiquetas LVTag se pueden usar directamente en:
- Pipelines de procesamiento de lenguaje natural (NLP)
 - Sistemas de traducción automática
 - Sistemas de gestión de contenidos (CMS)
 - Bibliotecas de detección de idiomas
 - Motores de búsqueda y recuperación de información
 - Aplicaciones web y APIs
 - Flujos de trabajo de localización
 
Casos de uso:
- Orientación de audiencia: Adaptar el contenido a audiencias apropiadas según el registro y dominio
 - Calidad de traducción: Mantener niveles apropiados de formalidad y cortesía en traducción automática
 - Aprendizaje de idiomas: Enseñar a los estudiantes el registro apropiado para diferentes contextos
 - Lingüística de corpus: Construir corpus etiquetados con precisión para investigación
 - Análisis de redes sociales: Clasificar contenido generado por usuarios según registro y dominio
 - Servicio al cliente: Dirigir mensajes según formalidad y dominio a agentes apropiados
 
Justificación
Aunque BCP 47 proporciona un excelente soporte para identificar idiomas, escrituras y regiones, carece de mecanismos estandarizados para capturar la variación sociolingüística dentro de un idioma. Los estándares actuales no abordan:
- Variación de registro: No hay forma de distinguir entre variedades formales e informales del mismo idioma
 - Niveles de cortesía: Crítico para idiomas como japonés, coreano y tailandés donde la cortesía está codificada gramaticalmente
 - Lenguaje específico de dominio: No hay estándar para marcar variedades técnicas, médicas o legales del lenguaje
 - Sociolectos: No hay mecanismo para identificar variedades de grupos sociales (lenguaje juvenil, jerga profesional)
 - Etapas históricas: Soporte limitado para distinguir formas clásicas de modernas
 - Gradientes de formalidad: No hay escala numérica para el procesamiento computacional del registro
 - Protolenguajes: Codificación inconsistente: algunos protolenguajes tienen códigos ISO (p. ej., 
inepara PIE) mientras que otros no, y los códigos de familia ISO 639-5 no son válidos en las etiquetas BCP 47, creando un panorama confuso para la lingüística histórica - Variación ortográfica: Aunque BCP 47 maneja escrituras, no captura efectivamente las variaciones dentro de las escrituras (reformas ortográficas, sistemas de romanización, estándares en competencia) que afectan fundamentalmente el procesamiento de texto, búsqueda y corrección ortográfica
 
LVTag llena estos vacíos utilizando el mecanismo de extensión de uso privado de BCP 47 (-x-), proporcionando una forma sistemática y legible por máquina de codificar estas dimensiones críticas de la variación lingüística mientras mantiene total compatibilidad hacia atrás.
Clasificación lingüística precisa
La llegada de grandes modelos de lenguaje y herramientas NLP sofisticadas ha hecho que la clasificación precisa de variedades lingüísticas no solo sea útil sino esencial. Los sistemas modernos necesitan:
- Generar texto apropiado para contextos específicos (formal vs. informal, cortés vs. casual)
 - Entrenar en corpus correctamente clasificados para evitar mezclar registros inapropiadamente
 - Proporcionar respuestas cultural y contextualmente apropiadas
 - Manejar con precisión el cambio de código y contenido de idiomas mixtos
 - Preservar la consistencia estilística al traducir o transformar texto
 - Filtrar datos de entrenamiento según formalidad, dominio u otras características
 - Adaptar la salida para coincidir con las preferencias o requisitos del usuario
 
LVTag proporciona los metadatos granulares necesarios para entender no solo qué idioma se está usando, sino cómo se está usando, permitiendo pipelines de procesamiento de lenguaje más matizados y apropiados.
Especificación del formato
Estructura básica
language-x-[classifier]-[value]-[classifier2]-[value2]...
Donde:
languagees una subetiqueta de idioma principal válida de BCP 47 (p. ej.,en,ko,ja)xindica el comienzo de las subetiquetas de uso privadoclassifieres un identificador de categoría (ver Etiquetas mágicas a continuación)valuees la clasificación específica dentro de esa categoría
Etiquetas mágicas
LVTag admite clasificadores “mágicos” tanto de forma larga como corta para mayor flexibilidad:
| Forma larga | Forma corta | Descripción | 
|---|---|---|
ortho | 
      w | 
      Variante ortográfica | 
form | 
      f | 
      Nivel de formalidad (escala 1-5) | 
polite | 
      p | 
      Nivel de cortesía/respeto (escala 1-5) | 
domain | 
      d | 
      Vocabulario especializado o contexto profesional | 
geo | 
      g | 
      Variedad geográfica o regional | 
proto | 
      a | 
      Protolengua o lengua reconstruida | 
hist | 
      h | 
      Período histórico o etapa de una lengua | 
genre | 
      e | 
      Género textual o estilo literario | 
medium | 
      m | 
      Medio de comunicación (hablado, escrito, digital) | 
socio | 
      s | 
      Sociolecto o variedad de grupo social | 
modality | 
      o | 
      Modo de producción del lenguaje | 
register | 
      r | 
      Registro lingüístico | 
pragma | 
      u | 
      Función comunicativa | 
temporal | 
      t | 
      Marcación temporal | 
evidence | 
      v | 
      Fuente de información | 
affect | 
      k | 
      Tono emocional | 
age | 
      n | 
      Variedad de edad/generación | 
gender | 
      i | 
      Variedad de género | 
expert | 
      b | 
      Nivel de experiencia | 
interact | 
      2 | 
      Estructura interaccional | 
prosody | 
      y | 
      Características prosódicas | 
lexical | 
      l | 
      Densidad léxica (0-100) | 
syntax | 
      z | 
      Complejidad sintáctica (0-100) | 
start | 
      0 | 
      Fecha de inicio (ISO 8601 sin puntuación) | 
end | 
      1 | 
      Fecha de fin (ISO 8601 sin puntuación) | 
taboo | 
      j | 
      Nivel de contenido tabú/vulgar (escala 0-5) | 
conf | 
      c | 
      Puntuación de confianza (0-100) para la etiqueta anterior | 
| — | q, 3-9 | 
      Reservado para uso futuro | 
Clasificadores
1. Clasificador ortográfico (ortho o w)
Identifica convenciones ortográficas específicas o variantes del sistema de escritura más allá de las etiquetas estándar de escritura.
Formato:
- Largo: 
language-x-ortho-[variant] - Corto: 
language-x-w-[variant] 
Ejemplos (combinados con etiquetas estándar de escritura):
az-Latn-x-ortho-newoaz-Latn-x-w-new- Azerí escritura latina, nueva ortografíade-Latn-x-ortho-1901ode-Latn-x-w-1901- Alemán escritura latina, ortografía de 1901zh-Hans-x-ortho-pinyinozh-Hans-x-w-pinyin- Chino simplificado con pinyinyi-Hebr-x-ortho-yivooyi-Hebr-x-w-yivo- Yidis escritura hebrea, ortografía YIVO
2. Clasificador de formalidad (form o f)
Identifica el nivel de formalidad del uso del lenguaje.
Formato:
- Largo: 
language-x-form-[1-5] - Corto: 
language-x-f-[1-5] 
Escala de formalidad:
- 1 = Más formal (documentos escritos, discursos oficiales)
 - 2 = Formal (reuniones de negocios, escritura académica)
 - 3 = Neutral/estándar (noticias, conversación general)
 - 4 = Informal (conversación casual, correos a amigos)
 - 5 = Más casual (conversación íntima, jerga)
 
Ejemplos:
ko-x-form-1oko-x-f-1- Coreano más formalen-x-form-3oen-x-f-3- Inglés neutralja-x-form-5oja-x-f-5- Japonés más casual
3. Clasificador de cortesía (polite o p)
Identifica el nivel de cortesía/respeto del uso del lenguaje.
Formato:
- Largo: 
language-x-polite-[1-5] - Corto: 
language-x-p-[1-5] 
Escala de cortesía:
- 1 = Más respetuoso/deferente (dirección real, contextos religiosos)
 - 2 = Muy cortés (honoríficos formales, discurso respetuoso)
 - 3 = Cortés/neutral (cortesía estándar)
 - 4 = Familiar (entre iguales, amigos)
 - 5 = Íntimo/llano (familia, amigos muy cercanos)
 
Ejemplos:
ko-x-polite-1oko-x-p-1- Coreano de máximo respetoja-x-polite-2oja-x-p-2- Japonés muy cortésth-x-polite-3oth-x-p-3- Tailandés cortés estándar
4. Clasificador de dominio (domain o d)
Identifica vocabulario especializado o contexto profesional.
Formato:
- Largo: 
language-x-domain-[domain_type] - Corto: 
language-x-d-[domain_type] 
Ejemplos:
en-x-domain-legaloen-x-d-legal- Inglés legalja-x-domain-medoja-x-d-med- Japonés médicoko-x-domain-businessoko-x-d-business- Coreano de negociosja-x-domain-techoja-x-d-tech- Japonés técnicoen-x-domain-finoen-x-d-fin- Inglés financiero
5. Clasificador geográfico (geo o g)
Identifica variedades lingüísticas regionales o geográficas.
Formato:
- Largo: 
language-x-geo-[region] - Corto: 
language-x-g-[region] 
Ejemplos:
ko-x-geo-gyeongoko-x-g-gyeong- Coreano de Gyeongsang (경상도)ko-x-geo-jeollaoko-x-g-jeolla- Coreano de Jeolla (전라도)es-x-geo-rioplaoes-x-g-riopla- Español rioplatensept-x-geo-nordesteopt-x-g-nordeste- Portugués del nordeste brasileño
6. Clasificador proto (proto o a)
Identifica protolenguajes o lenguas históricas reconstruidas.
Formato:
- Largo: 
x-proto-[iso639-5_code if available] - Corto: 
x-a-[iso639-5_code if available] 
Reglas:
- DEBE usar códigos de familia de idiomas ISO 639-5 cuando estén disponibles
 - Use identificadores descriptivos solo cuando no exista un código ISO 639-5
 
Ejemplos usando códigos ISO 639-5:
x-proto-ineox-a-ine- Protoindoeuropeox-proto-gemox-a-gem- Protogermánicox-proto-slaox-a-sla- Protoeslavox-proto-semox-a-sem- Protosemíticox-proto-celox-a-cel- Protoceltax-proto-iraox-a-ira- Protoiraniox-proto-incox-a-inc- Protoindoariox-proto-batox-a-bat- Protobálticox-proto-roaox-a-roa- Protorromancex-proto-trkox-a-trk- Prototúrquico
Ejemplos sin códigos ISO 639-5 (descriptivos, más de tres caracteres):
x-proto-baltslavox-a-baltslav- Protobaltoeslavo (sin código ISO 639-5)
Nota:
- Los códigos de familia de idiomas (ISO 639-5) NO son válidos como etiquetas de idioma principal estándar BCP 47, por lo que los hemos implementado usando x-proto
 - Son válidos y preferidos dentro de las extensiones de uso privado (después de 
x-) - Por lo tanto, todas las etiquetas de protolengua deben comenzar con 
x-para cumplir con BCP 47 
7. Clasificador histórico (hist o h)
Identifica períodos históricos o etapas de una lengua.
Formato:
- Largo: 
language-x-hist-[period] - Corto: 
language-x-h-[period] 
Ejemplos:
en-x-hist-oldoen-x-h-old- Período del inglés antiguoen-x-hist-middleoen-x-h-middle- Período del inglés medioja-x-hist-kobunoja-x-h-kobun- Japonés clásico (古文)ko-x-hist-hunminoko-x-h-hunmin- Coreano medio (훈민정음 período)el-x-hist-koineoel-x-h-koine- Griego koiné (Κοινή)sa-x-hist-vedicosa-x-h-vedic- Sánscrito védico (वैदिक)
8. Clasificador de género (genre o e)
Identifica el género textual o estilo literario.
Formato:
- Largo: 
language-x-genre-[genre_type] - Corto: 
language-x-e-[genre_type] 
Ejemplos:
en-x-genre-newsoen-x-e-news- Inglés de noticiasja-x-genre-mangaoja-x-e-manga- Japonés de manga (漫画)ko-x-genre-webtoonoko-x-e-webtoon- Coreano de webtoon (웹툰)zh-x-genre-shiozh-x-e-shi- Poesía china (詩)fr-x-genre-bdofr-x-e-bd- Cómics franceses (bande dessinée)de-x-genre-marchenode-x-e-marchen- Cuentos de hadas alemanes (Märchen)
9. Clasificador de medio (medium o m)
Identifica el medio de comunicación.
Formato:
- Largo: 
language-x-medium-[medium_type] - Corto: 
language-x-m-[medium_type] 
Ejemplos:
en-x-medium-spokenoen-x-m-spoken- Inglés habladoko-x-medium-digitaloko-x-m-digital- Coreano digital/en líneaja-x-medium-writtenoja-x-m-written- Japonés escritohi-x-medium-bcastohi-x-m-bcast- Hindi de transmisiónzh-x-medium-smsozh-x-m-sms- Chino de SMS/mensaje de texto
10. Clasificador socio (socio o s)
Identifica sociolecto o variedades de grupos sociales.
Formato:
- Largo: 
language-x-socio-[social_group] - Corto: 
language-x-s-[social_group] 
Ejemplos:
en-x-socio-academicoen-x-s-academic- Sociolecto académicoen-x-socio-urbanoen-x-s-urban- Sociolecto urbanoes-x-socio-juveniloes-x-s-juvenil- Sociolecto juvenil español (jerga juvenil)fr-x-socio-jeuneofr-x-s-jeune- Sociolecto juvenil francésde-x-socio-jugendode-x-s-jugend- Sociolecto juvenil alemán (Jugendsprache)ko-x-socio-onlineoko-x-s-online- Sociolecto coreano en línea
11. Clasificador de modalidad (modality o o)
Identifica el modo fundamental de producción del lenguaje.
Formato:
- Largo: 
language-x-modality-[mode] - Corto: 
language-x-o-[mode] 
Ejemplos:
en-x-modality-spokenoen-x-o-spoken- Inglés habladoen-x-modality-writtenoen-x-o-written- Inglés escritoasl-x-modality-signedoasl-x-o-signed- Lengua de señas americanaen-x-modality-multioen-x-o-multi- Inglés multimodal (habla + gestos)fr-x-modality-tactileofr-x-o-tactile- Francés táctil (para sordociegos)
12. Clasificador de registro (register o r)
Identifica el registro lingüístico o variedad funcional del uso del lenguaje.
Formato:
- Largo: 
language-x-register-[register_type] - Corto: 
language-x-r-[register_type] 
Ejemplos:
en-x-register-frozenoen-x-r-frozen- Registro congelado (oraciones, juramentos)en-x-register-formaloen-x-r-formal- Registro formal (artículos académicos)en-x-register-consultoen-x-r-consult- Registro consultivo (profesional)en-x-register-casualoen-x-r-casual- Registro casual (amigos)en-x-register-intimateoen-x-r-intimate- Registro íntimo (familia)
13. Clasificador de función pragmática (pragma o u)
Identifica la función comunicativa o acto de habla.
Formato:
- Largo: 
language-x-pragma-[function] - Corto: 
language-x-u-[function] 
Ejemplos:
en-x-pragma-requestoen-x-u-request- Función de solicitudja-x-pragma-apologyoja-x-u-apology- Función de disculpaes-x-pragma-complmntoes-x-u-complmnt- Función de cumplidoar-x-pragma-greetingoar-x-u-greeting- Función de saludozh-x-pragma-refusalozh-x-u-refusal- Función de rechazo
14. Clasificador de marcación temporal (temporal o t)
Identifica aspectos temporales o patrones de uso del tiempo.
Formato:
- Largo: 
language-x-temporal-[aspect] - Corto: 
language-x-t-[aspect] 
Ejemplos:
en-x-temporal-pastoen-x-t-past- Discurso orientado al pasadoja-x-temporal-nonpastoja-x-t-nonpast- Enfoque no pasadoid-x-temporal-atemprloid-x-t-atemprl- Atemporal/sin tiempofr-x-temporal-futureofr-x-t-future- Orientado al futurozh-x-temporal-aspectozh-x-t-aspect- Enfoque aspectual
15. Clasificador de evidencialidad (evidence o v)
Identifica la marcación de fuente de información.
Formato:
- Largo: 
language-x-evidence-[source] - Corto: 
language-x-v-[source] 
Ejemplos:
qu-x-evidence-directoqu-x-v-direct- Testigo directotr-x-evidence-hearsayotr-x-v-hearsay- De oídas/reportadoja-x-evidence-inferoja-x-v-infer- Inferencialen-x-evidence-assumeoen-x-v-assume- Asumidode-x-evidence-quoteode-x-v-quote- Citativo
16. Clasificador de afecto/emoción (affect o k)
Identifica el tono emocional o afecto.
Formato:
- Largo: 
language-x-affect-[emotion] - Corto: 
language-x-k-[emotion] 
Ejemplos:
en-x-affect-angryoen-x-k-angry- Tono enojadoja-x-affect-humbleoja-x-k-humble- Afecto humildees-x-affect-joyfuloes-x-k-joyful- Expresión alegreko-x-affect-sadoko-x-k-sad- Triste/melancólicofr-x-affect-neutralofr-x-k-neutral- Afecto neutral
17. Clasificador de edad/generación (age o n)
Identifica variedades lingüísticas relacionadas con la edad o generación.
Formato:
- Largo: 
language-x-age-[generation] - Corto: 
language-x-n-[generation] 
Ejemplos:
en-x-age-childoen-x-n-child- Habla infantilja-x-age-teenoja-x-n-teen- Lenguaje adolescenteko-x-age-elderoko-x-n-elder- Habla de ancianoses-x-age-genzoes-x-n-genz- Generación Zzh-x-age-millenlozh-x-n-millenl- Habla millennial
18. Clasificador de género (gender o i)
Identifica variedades lingüísticas relacionadas con el género.
Formato:
- Largo: 
language-x-gender-[identity] - Corto: 
language-x-i-[identity] 
19. Clasificador de nivel de experiencia (expert o b)
Identifica el nivel de experiencia en el dominio en una escala de 0-10.
Formato:
- Largo: 
language-x-expert-[0-10] - Corto: 
language-x-b-[0-10] 
Escala de experiencia:
- 0 = Sin conocimiento
 - 1-2 = Principiante
 - 3-4 = Intermedio
 - 5-6 = Avanzado
 - 7-8 = Experto
 - 9-10 = Maestro/Autoridad
 
Ejemplos:
en-x-expert-0oen-x-b-0- Sin experienciade-x-expert-3ode-x-b-3- Nivel intermedioja-x-expert-7oja-x-b-7- Nivel expertoes-x-expert-9oes-x-b-9- Nivel maestrozh-x-expert-5ozh-x-b-5- Nivel avanzado
20. Clasificador de estructura interaccional (interact o 2)
Identifica patrones conversacionales o interaccionales.
Formato:
- Largo: 
language-x-interact-[structure] - Corto: 
language-x-2-[structure] 
Ejemplos:
en-x-interact-turnoen-x-2-turn- Turnos de hablaja-x-interact-overlapoja-x-2-overlap- Habla superpuestaes-x-interact-monologoes-x-2-monolog- Monológicoar-x-interact-dialogoar-x-2-dialog- Dialógicozh-x-interact-multiozh-x-2-multi- Multipartito
21. Clasificador de características prosódicas (prosody o y)
Identifica características prosódicas o suprasegmentales.
Formato:
- Largo: 
language-x-prosody-[feature] - Corto: 
language-x-y-[feature] 
Ejemplos:
en-x-prosody-stressoen-x-y-stress- Acentualja-x-prosody-pitchoja-x-y-pitch- Acento tonalfr-x-prosody-syllableofr-x-y-syllable- Silábicozh-x-prosody-toneozh-x-y-tone- Patrones tonaleses-x-prosody-rhythmoes-x-y-rhythm- Patrones rítmicos
22. Clasificador de densidad léxica (lexical o l)
Identifica la densidad léxica como un valor numérico (0-100).
Formato:
- Largo: 
language-x-lexical-[0-100] - Corto: 
language-x-l-[0-100] 
Ejemplos:
en-x-lexical-20oen-x-l-20- Baja densidad (20%)de-x-lexical-55ode-x-l-55- Densidad media (55%)ja-x-lexical-75oja-x-l-75- Alta densidad (75%)es-x-lexical-40oes-x-l-40- Densidad moderada (40%)zh-x-lexical-85ozh-x-l-85- Densidad muy alta (85%)
23. Clasificador de complejidad sintáctica (syntax o z)
Identifica la complejidad sintáctica como un valor numérico (0-100).
Formato:
- Largo: 
language-x-syntax-[0-100] - Corto: 
language-x-z-[0-100] 
Ejemplos:
en-x-syntax-15oen-x-z-15- Sintaxis simple (15%)de-x-syntax-70ode-x-z-70- Sintaxis compleja (70%)ja-x-syntax-45oja-x-z-45- Complejidad moderada (45%)es-x-syntax-30oes-x-z-30- Baja complejidad (30%)zh-x-syntax-60ozh-x-z-60- Alta complejidad (60%)
24. Clasificador de fecha de inicio (start o 0)
Identifica la fecha de inicio del uso del lenguaje (formato ISO 8601 sin puntuación).
Formato:
- Largo: 
language-x-start-[YYYYMMDD] - Corto: 
language-x-0-[YYYYMMDD] 
Formatos de fecha:
- Fecha completa: YYYYMMDD
 - Año-mes: YYYYMM
 - Solo año: YYYY
 
Ejemplos:
en-x-start-20240315oen-x-0-20240315- Inglés comenzando el 15 de marzo de 2024ja-x-start-19890108oja-x-0-19890108- Japonés comenzando el 8 de enero de 1989es-x-start-202403oes-x-0-202403- Español comenzando en marzo de 2024
25. Clasificador de fecha de fin (end o 1)
Identifica la fecha de fin del uso del lenguaje (formato ISO 8601 sin puntuación).
Formato:
- Largo: 
language-x-end-[YYYYMMDD] - Corto: 
language-x-1-[YYYYMMDD] 
Formatos de fecha:
- Fecha completa: YYYYMMDD
 - Año-mes: YYYYMM
 - Solo año: YYYY
 
Ejemplos:
en-x-end-20240415oen-x-1-20240415- Inglés terminando el 15 de abril de 2024ja-x-end-20190430oja-x-1-20190430- Japonés terminando el 30 de abril de 2019es-x-end-202412oes-x-1-202412- Español terminando en diciembre de 2024
26. Clasificador de tabú (taboo o j)
Identifica el nivel de contenido tabú, vulgar u ofensivo.
Formato:
- Largo: 
language-x-taboo-[0-5] - Corto: 
language-x-j-[0-5] 
Ejemplos:
en-x-taboo-0oen-x-j-0- Sin contenido tabúen-x-taboo-3oen-x-j-3- Nivel de tabú moderadoja-x-form-5-taboo-4oja-x-f-5-j-4- Japonés muy casual con alto nivel de tabú
27. Clasificador de confianza (conf o c)
Indica la puntuación de confianza para el clasificador inmediatamente anterior.
Formato:
- Largo: 
language-x-[classifier]-[value]-conf-[0-100] - Corto: 
language-x-[classifier]-[value]-c-[0-100] 
Comportamiento especial:
- La puntuación de confianza se aplica al clasificador inmediatamente anterior
 - Se pueden usar múltiples puntuaciones de confianza para diferentes clasificadores
 - Si no hay clasificador precedente, la confianza se aplica a la etiqueta de idioma base
 
Ejemplos:
en-x-form-3-conf-95oen-x-f-3-c-95- Formalidad neutral con 95% de confianzako-x-polite-2-conf-80-domain-med-conf-60oko-x-p-2-c-80-d-med-c-60- Muy cortés (80% confianza) coreano médico (60% confianza)ja-x-hist-kobun-conf-100oja-x-h-kobun-c-100- Japonés clásico con 100% de confianzax-proto-ine-conf-75ox-a-ine-c-75- Protoindoeuropeo con 75% de confianza
Clasificaciones múltiples
LVTag admite múltiples clasificadores en una sola etiqueta para proporcionar una identificación precisa del idioma. Se pueden mezclar formas largas y cortas:
ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
Los ejemplos anteriores muestran coreano con formalidad informal (4) pero habla cortés (2) en contexto empresarial.
Valores válidos
Nota: Todos los valores deben tener 8 caracteres o menos para cumplir con las restricciones de longitud de subetiqueta BCP 47. Si bien los valores específicos para muchos clasificadores deben establecerse a través del uso experto y el consenso de la comunidad, las escalas numéricas, formatos de fecha y valores básicos enumerados a continuación están definidos en este estándar.
Escala de formalidad (Universal)
| Nivel | Descripción | Ejemplos | 
|---|---|---|
| 1 | Más formal | Documentos legales, ceremonias oficiales, artículos académicos | 
| 2 | Formal | Cartas comerciales, artículos de noticias, presentaciones | 
| 3 | Neutral | Conversación estándar, correo electrónico, escritura general | 
| 4 | Informal | Conversación casual, blogs personales, mensajes de texto | 
| 5 | Más casual | Jerga, conversación íntima, redes sociales | 
Escala de cortesía (Universal)
| Nivel | Descripción | Ejemplos | 
|---|---|---|
| 1 | Más respetuoso | Dirección real, líderes religiosos, respeto a los ancianos | 
| 2 | Muy cortés | Servicio al cliente, reuniones formales, maestros | 
| 3 | Cortés/neutral | Interacciones estándar, colegas | 
| 4 | Familiar | Amigos, compañeros, conocidos casuales | 
| 5 | Íntimo/llano | Familia cercana, parejas íntimas | 
Escala de experiencia (Universal)
| Nivel | Descripción | 
|---|---|
| 0 | Sin conocimiento | 
| 1-2 | Principiante | 
| 3-4 | Intermedio | 
| 5-6 | Avanzado | 
| 7-8 | Experto | 
| 9-10 | Maestro/Autoridad | 
Escala de tabú (Universal)
| Nivel | Descripción | 
|---|---|
| 0 | Sin contenido tabú | 
| 1 | Tabú leve | 
| 2 | Tabú ligero | 
| 3 | Tabú moderado | 
| 4 | Tabú alto | 
| 5 | Tabú extremo | 
Escala de densidad léxica (Universal)
| Nivel | Descripción | 
|---|---|
| 0-20 | Densidad muy baja | 
| 21-40 | Densidad baja | 
| 41-60 | Densidad moderada | 
| 61-80 | Densidad alta | 
| 81-100 | Densidad muy alta | 
Escala de complejidad sintáctica (Universal)
| Nivel | Descripción | 
|---|---|
| 0-20 | Muy simple | 
| 21-40 | Simple | 
| 41-60 | Complejidad moderada | 
| 61-80 | Complejo | 
| 81-100 | Muy complejo | 
Valores de dominio
| Valor | Descripción | 
|---|---|
legal | 
      Terminología legal | 
med | 
      Terminología médica | 
tech | 
      Técnico/TI | 
business | 
      Negocios/corporativo | 
fin | 
      Finanzas/banca | 
acad | 
      Académico/erudito | 
sci | 
      Científico/investigación | 
Ejemplos de implementación
Clasificador único (Forma larga)
# Coreano más formal
ko-x-form-1
# Japonés muy cortés
ja-x-polite-2
# Inglés legal
en-x-domain-legal
# Coreano de Gyeongsang
ko-x-geo-gyeong
# Protoindoeuropeo
x-proto-ine
Clasificador único (Forma corta)
# Coreano más formal
ko-x-f-1
# Japonés muy cortés
ja-x-p-2
# Inglés legal
en-x-d-legal
# Coreano de Gyeongsang
ko-x-g-gyeong
# Protoindoeuropeo
x-a-ine
Múltiples clasificadores
# Lenguaje empresarial coreano informal pero cortés
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
# Lenguaje médico japonés formal y respetuoso
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med
# Vietnamita del sur con formalidad neutral, habla cortés, dominio técnico
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech
# Clasificación compleja con múltiples dimensiones
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written
# Variedades lingüísticas que muestran distinción formalidad/cortesía
ko-x-f-5-p-2  # Muy casual pero cortés (a un amigo mayor)
ko-x-f-1-p-4  # Muy formal pero familiar (escrito a un compañero)
ja-x-f-4-p-1  # Formalidad casual pero máximo respeto
en-x-f-5-j-4  # Inglés muy casual con alto nivel de tabú
Casos de uso
- Aplicaciones de aprendizaje de idiomas
    
- Enseñar el registro apropiado para diferentes contextos sociales
 - Proporcionar entrenamiento de vocabulario específico del dominio
 
 - Traducción automática
    
- Mantener la consistencia del registro en las traducciones
 - Aplicar terminología específica del dominio
 
 - Clasificación de contenido
    
- Categorizar automáticamente el texto por formalidad y dominio
 - Dirigir el contenido a revisores o sistemas apropiados
 
 - Lingüística de corpus
    
- Construir corpus etiquetados para investigación lingüística
 - Estudiar la variación de registro y dominio
 
 
Reglas de validación
- Longitud de subetiqueta: Cada subetiqueta después de 
x-debe tener 8 caracteres o menos - Orden: Los clasificadores pueden aparecer en cualquier orden después de 
x- - Unicidad: Cada tipo de clasificador debe aparecer solo una vez por etiqueta (excepto 
confque puede aparecer múltiples veces) - Mayúsculas/minúsculas: Las etiquetas deben estar en minúsculas (no sensible a mayúsculas según BCP 47)
 - Etiquetas mágicas: Las etiquetas de forma corta son caracteres únicos; 
q,3-9están reservados para uso futuro - Mezcla: Las formas largas y cortas se pueden mezclar dentro de la misma etiqueta
 - Etiquetas proto: Deben comenzar con 
x-y DEBERÍAN usar códigos ISO 639-5 cuando estén disponibles (p. ej.,x-proto-slanox-proto-slavic) - Confianza: El clasificador 
conf/cse aplica al clasificador inmediatamente anterior - Valores numéricos: Deben estar dentro de los rangos definidos (0-5 para tabú, 0-10 para experiencia, 0-100 para valores porcentuales)
 - Formato de fecha: Las fechas usan ISO 8601 sin puntuación (YYYY, YYYYMM o YYYYMMDD)
 
Compatibilidad
El formato LVTag es totalmente compatible con:
- BCP 47 (RFC 5646)
 - Códigos de idioma ISO 639
 - Registro de subetiquetas de idioma IANA
 - Unicode CLDR
 
Beneficios
- Precisión: Permite la identificación de variedades lingüísticas de grano fino
 - Extensibilidad: Se pueden agregar nuevos registros y dominios
 - Basado en estándares: Construido sobre el mecanismo de uso privado BCP 47 establecido
 - Legible por máquina: El formato sistemático permite el procesamiento automatizado
 - Legible por humanos: Subetiquetas claras y descriptivas
 - Flexibilidad: Soporte para etiquetas tanto de forma larga detallada como de forma corta concisa
 - Brevedad: Las etiquetas mágicas cortas permiten una representación compacta manteniendo la claridad
 
Extensiones futuras
LVTag está diseñado para evolucionar con las necesidades de la comunidad de tecnología lingüística. Damos la bienvenida a sugerencias para nuevos clasificadores, mejoras a los existentes y comentarios de implementaciones del mundo real.
Para proponer extensiones o contribuir a la especificación:
- Abra un issue en github.com/lvtag/spec
 - Únase a la discusión sobre propuestas existentes
 - Comparta sus experiencias de implementación
 - Envíe pull requests para mejoras de documentación
 
Los códigos de un solo carácter reservados (q, 3-9) están disponibles para futuras extensiones estandarizadas.
Referencias
Licencia y concesión de patentes
Esta especificación se publica bajo CC0 1.0 Universal (Dedicación de dominio público).
Por qué CC0: Para garantizar la máxima adopción y libertad de implementación, LVTag se coloca en el dominio público. Esto significa:
- No se necesita permiso para usar, implementar o modificar
 - No se requiere atribución (aunque se aprecia)
 - Sin barreras legales para uso comercial o gubernamental
 - Compatible con todas las licencias de software
 - Utilizado por estándares principales como Unicode CLDR
 
Concesión de patentes: Cualquier patente que cubra la especificación LVTag se licencia por la presente libre de regalías para cualquier implementación que cumpla con esta especificación.
Sin respaldo: El uso de LVTag no implica respaldo por parte de los autores de la especificación.
En la medida permitida por la ley, Danslav Slavenskoj ha renunciado a todos los derechos de autor y derechos relacionados o conexos a la Especificación del formato Language Variant Tag (LVTag). Este trabajo se publica desde: Estados Unidos de América.