Skip to the content.
LVTag Logo

Especificação LVTag

Versão 1.0
Criado por Danslav Slavenskoj
Data: Maio 2025

Idiomas: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски

Visão geral

O formato Language Variant Tag (LVTag) é uma abordagem sistemática para classificação de idiomas que estende o padrão BCP 47 usando subetiquetas de uso privado. Permite a identificação precisa de variedades linguísticas em múltiplas dimensões, incluindo formalidade, polidez, domínio e ortografia.

Benefícios principais

Rigor de classificação: LVTag traz organização sistemática à marcação de idiomas ao fornecer dimensões claras e separadas para diferentes tipos de variação. Ao contrário de subetiquetas e sistemas existentes que misturam diferentes categorias no mesmo nível, LVTag mantém separação estrita entre formalidade, polidez, domínio e outras dimensões.

Compatibilidade com padrões: LVTag é totalmente compatível com BCP 47 (RFC 5646) e funciona perfeitamente com:

Integração tecnológica: As etiquetas LVTag podem ser usadas diretamente em:

Casos de uso:

Justificativa

Embora o BCP 47 forneça excelente suporte para identificar idiomas, scripts e regiões, carece de mecanismos padronizados para capturar variação sociolinguística dentro de um idioma. Os padrões atuais não abordam:

LVTag preenche essas lacunas usando o mecanismo de extensão de uso privado do BCP 47 (-x-), fornecendo uma maneira sistemática e legível por máquina de codificar essas dimensões críticas de variação linguística mantendo compatibilidade retroativa completa.

Classificação linguística precisa

O advento de grandes modelos de linguagem e ferramentas NLP sofisticadas tornou a classificação precisa de variedades linguísticas não apenas útil, mas essencial. Sistemas modernos precisam:

LVTag fornece os metadados granulares necessários para entender não apenas qual idioma está sendo usado, mas como está sendo usado, permitindo pipelines de processamento de linguagem mais matizados e apropriados.

Especificação do formato

Estrutura básica

language-x-[classifier]-[value]-[classifier2]-[value2]...

Onde:

Etiquetas mágicas

LVTag suporta classificadores “mágicos” de forma longa e curta para flexibilidade:

Forma longa Forma curta Descrição
ortho w Variante ortográfica
form f Nível de formalidade (escala 1-5)
polite p Nível de polidez/respeito (escala 1-5)
domain d Vocabulário especializado ou contexto profissional
geo g Variedade geográfica ou regional
proto a Protolíngua ou língua reconstruída
hist h Período histórico ou estágio de uma língua
genre e Gênero textual ou estilo literário
medium m Meio de comunicação (falado, escrito, digital)
socio s Socioleto ou variedade de grupo social
modality o Modo de produção linguística
register r Registro linguístico
pragma u Função comunicativa
temporal t Marcação temporal
evidence v Fonte de informação
affect k Tom emocional
age n Variedade etária/geracional
gender i Variedade de gênero
expert b Nível de expertise
interact 2 Estrutura interacional
prosody y Características prosódicas
lexical l Densidade lexical (0-100)
syntax z Complexidade sintática (0-100)
start 0 Data de início (ISO 8601 sem pontuação)
end 1 Data de término (ISO 8601 sem pontuação)
taboo j Nível de conteúdo tabu/vulgar (escala 0-5)
conf c Pontuação de confiança (0-100) para a etiqueta anterior
q, 3-9 Reservado para uso futuro

Classificadores

1. Classificador ortográfico (ortho ou w)

Identifica convenções ortográficas específicas ou variantes do sistema de escrita além das etiquetas padrão de script.

Formato:

Exemplos (combinados com etiquetas padrão de script):

2. Classificador de formalidade (form ou f)

Identifica o nível de formalidade do uso linguístico.

Formato:

Escala de formalidade:

Exemplos:

3. Classificador de polidez (polite ou p)

Identifica o nível de polidez/respeito do uso linguístico.

Formato:

Escala de polidez:

Exemplos:

4. Classificador de domínio (domain ou d)

Identifica vocabulário especializado ou contexto profissional.

Formato:

Exemplos:

5. Classificador geográfico (geo ou g)

Identifica variedades linguísticas regionais ou geográficas.

Formato:

Exemplos:

6. Classificador proto (proto ou a)

Identifica protolínguas ou línguas históricas reconstruídas.

Formato:

Regras:

Exemplos usando códigos ISO 639-5:

Exemplos sem códigos ISO 639-5 (descritivos, mais de três caracteres):

Nota:

7. Classificador histórico (hist ou h)

Identifica períodos históricos ou estágios de uma língua.

Formato:

Exemplos:

8. Classificador de gênero (genre ou e)

Identifica gênero textual ou estilo literário.

Formato:

Exemplos:

9. Classificador de meio (medium ou m)

Identifica o meio de comunicação.

Formato:

Exemplos:

10. Classificador socio (socio ou s)

Identifica socioleto ou variedades de grupos sociais.

Formato:

Exemplos:

11. Classificador de modalidade (modality ou o)

Identifica o modo fundamental de produção linguística.

Formato:

Exemplos:

12. Classificador de registro (register ou r)

Identifica registro linguístico ou variedade funcional do uso linguístico.

Formato:

Exemplos:

13. Classificador de função pragmática (pragma ou u)

Identifica função comunicativa ou ato de fala.

Formato:

Exemplos:

14. Classificador de marcação temporal (temporal ou t)

Identifica aspectos temporais ou padrões de uso temporal.

Formato:

Exemplos:

15. Classificador evidencial (evidence ou v)

Identifica marcação de fonte de informação.

Formato:

Exemplos:

16. Classificador de afeto/emoção (affect ou k)

Identifica tom emocional ou afeto.

Formato:

Exemplos:

17. Classificador de idade/geração (age ou n)

Identifica variedades linguísticas relacionadas à idade ou geração.

Formato:

Exemplos:

18. Classificador de gênero (gender ou i)

Identifica variedades linguísticas relacionadas ao gênero.

Formato:

19. Classificador de nível de expertise (expert ou b)

Identifica o nível de expertise de domínio em uma escala de 0-10.

Formato:

Escala de expertise:

Exemplos:

20. Classificador de estrutura interacional (interact ou 2)

Identifica padrões conversacionais ou interacionais.

Formato:

Exemplos:

21. Classificador de características prosódicas (prosody ou y)

Identifica características prosódicas ou suprassegmentais.

Formato:

Exemplos:

22. Classificador de densidade lexical (lexical ou l)

Identifica densidade lexical como valor numérico (0-100).

Formato:

Exemplos:

23. Classificador de complexidade sintática (syntax ou z)

Identifica complexidade sintática como valor numérico (0-100).

Formato:

Exemplos:

24. Classificador de data de início (start ou 0)

Identifica data de início do uso linguístico (formato ISO 8601 sem pontuação).

Formato:

Formatos de data:

Exemplos:

25. Classificador de data de término (end ou 1)

Identifica data de término do uso linguístico (formato ISO 8601 sem pontuação).

Formato:

Formatos de data:

Exemplos:

26. Classificador de tabu (taboo ou j)

Identifica o nível de conteúdo tabu, vulgar ou ofensivo.

Formato:

Exemplos:

27. Classificador de confiança (conf ou c)

Indica a pontuação de confiança para o classificador imediatamente anterior.

Formato:

Comportamento especial:

Exemplos:

Classificações múltiplas

LVTag suporta múltiplos classificadores em uma única etiqueta para fornecer identificação linguística precisa. Formas longas e curtas podem ser misturadas:

ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

Os exemplos acima mostram coreano com formalidade informal (4) mas fala polida (2) em contexto de negócios.

Valores válidos

Nota: Todos os valores devem ter 8 caracteres ou menos para cumprir as restrições de comprimento de subetiqueta BCP 47. Embora valores específicos para muitos classificadores devam ser estabelecidos através de uso especializado e consenso da comunidade, escalas numéricas, formatos de data e valores básicos listados abaixo são definidos neste padrão.

Escala de formalidade (Universal)

Nível Descrição Exemplos
1 Mais formal Documentos legais, cerimônias oficiais, artigos acadêmicos
2 Formal Cartas comerciais, artigos de notícias, apresentações
3 Neutro Conversa padrão, e-mail, escrita geral
4 Informal Conversa casual, blogs pessoais, mensagens de texto
5 Mais casual Gíria, conversa íntima, mídia social

Escala de polidez (Universal)

Nível Descrição Exemplos
1 Mais respeitoso Endereço real, líderes religiosos, respeito aos idosos
2 Muito polido Atendimento ao cliente, reuniões formais, professores
3 Polido/neutro Interações padrão, colegas
4 Familiar Amigos, pares, conhecidos casuais
5 Íntimo/simples Família próxima, parceiros íntimos

Escala de expertise (Universal)

Nível Descrição
0 Sem conhecimento
1-2 Iniciante
3-4 Intermediário
5-6 Avançado
7-8 Expert
9-10 Mestre/Autoridade

Escala de tabu (Universal)

Nível Descrição
0 Sem conteúdo tabu
1 Tabu leve
2 Tabu baixo
3 Tabu moderado
4 Tabu alto
5 Tabu extremo

Escala de densidade lexical (Universal)

Nível Descrição
0-20 Densidade muito baixa
21-40 Densidade baixa
41-60 Densidade moderada
61-80 Densidade alta
81-100 Densidade muito alta

Escala de complexidade sintática (Universal)

Nível Descrição
0-20 Muito simples
21-40 Simples
41-60 Complexidade moderada
61-80 Complexo
81-100 Muito complexo

Valores de domínio

Valor Descrição
legal Terminologia jurídica
med Terminologia médica
tech Técnico/TI
business Negócios/corporativo
fin Finanças/bancário
acad Acadêmico/erudito
sci Científico/pesquisa

Exemplos de implementação

Classificador único (Forma longa)

# Coreano mais formal
ko-x-form-1

# Japonês muito polido
ja-x-polite-2

# Inglês jurídico
en-x-domain-legal

# Coreano de Gyeongsang
ko-x-geo-gyeong

# Proto-indo-europeu
x-proto-ine

Classificador único (Forma curta)

# Coreano mais formal
ko-x-f-1

# Japonês muito polido
ja-x-p-2

# Inglês jurídico
en-x-d-legal

# Coreano de Gyeongsang
ko-x-g-gyeong

# Proto-indo-europeu
x-a-ine

Múltiplos classificadores

# Linguagem de negócios coreana informal mas polida
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

# Linguagem médica japonesa formal e respeitosa
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med

# Vietnamita do sul com formalidade neutra, fala polida, domínio técnico
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech

# Classificação complexa com múltiplas dimensões
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written

# Variedades linguísticas mostrando distinção formalidade/polidez
ko-x-f-5-p-2  # Muito casual mas polido (para um amigo mais velho)
ko-x-f-1-p-4  # Muito formal mas familiar (escrito para um colega)
ja-x-f-4-p-1  # Formalidade casual mas mais alto respeito
en-x-f-5-j-4  # Inglês muito casual com alto nível de tabu

Casos de uso

  1. Aplicações de aprendizado de idiomas
    • Ensinar registro apropriado para diferentes contextos sociais
    • Fornecer treinamento de vocabulário específico de domínio
  2. Tradução automática
    • Manter consistência de registro nas traduções
    • Aplicar terminologia específica de domínio
  3. Classificação de conteúdo
    • Categorizar automaticamente texto por formalidade e domínio
    • Direcionar conteúdo para revisores ou sistemas apropriados
  4. Linguística de corpus
    • Construir corpora etiquetados para pesquisa linguística
    • Estudar variação de registro e domínio

Regras de validação

  1. Comprimento de subetiqueta: Cada subetiqueta após x- deve ter 8 caracteres ou menos
  2. Ordem: Classificadores podem aparecer em qualquer ordem após x-
  3. Unicidade: Cada tipo de classificador deve aparecer apenas uma vez por etiqueta (exceto conf que pode aparecer múltiplas vezes)
  4. Maiúsculas/minúsculas: Etiquetas devem ser em minúsculas (sem distinção de maiúsculas conforme BCP 47)
  5. Etiquetas mágicas: Etiquetas de forma curta são caracteres únicos; q, 3-9 são reservados para uso futuro
  6. Mistura: Formas longas e curtas podem ser misturadas dentro da mesma etiqueta
  7. Etiquetas proto: Devem começar com x- e DEVEM usar códigos ISO 639-5 quando disponíveis (ex.: x-proto-sla não x-proto-slavic)
  8. Confiança: Classificador conf/c se aplica ao classificador imediatamente anterior
  9. Valores numéricos: Devem estar dentro dos intervalos definidos (0-5 para tabu, 0-10 para expertise, 0-100 para valores percentuais)
  10. Formato de data: Datas usam ISO 8601 sem pontuação (YYYY, YYYYMM ou YYYYMMDD)

Compatibilidade

O formato LVTag é totalmente compatível com:

Benefícios

  1. Precisão: Permite identificação detalhada de variedades linguísticas
  2. Extensibilidade: Novos registros e domínios podem ser adicionados
  3. Baseado em padrões: Construído sobre o mecanismo estabelecido de uso privado BCP 47
  4. Legível por máquina: Formato sistemático permite processamento automatizado
  5. Legível por humanos: Subetiquetas claras e descritivas
  6. Flexibilidade: Suporte para etiquetas de forma longa detalhada e forma curta concisa
  7. Concisão: Etiquetas mágicas curtas permitem representação compacta mantendo clareza

Extensões futuras

LVTag é projetado para evoluir com as necessidades da comunidade de tecnologia linguística. Recebemos sugestões para novos classificadores, melhorias aos existentes e feedback de implementações do mundo real.

Para propor extensões ou contribuir com a especificação:

Os códigos de caractere único reservados (q, 3-9) estão disponíveis para futuras extensões padronizadas.

Referências


Licença e concessão de patentes

Esta especificação é lançada sob CC0 1.0 Universal (Dedicação ao Domínio Público).

Por que CC0: Para garantir máxima adoção e liberdade de implementação, LVTag é colocado no domínio público. Isso significa:

Concessão de patentes: Quaisquer patentes que cubram a especificação LVTag são licenciadas sem royalties para qualquer implementação em conformidade com esta especificação.

Sem endosso: O uso de LVTag não implica endosso pelos autores da especificação.

Na medida permitida por lei, Danslav Slavenskoj renunciou a todos os direitos autorais e direitos relacionados ou conexos à Especificação do Formato Language Variant Tag (LVTag). Este trabalho é publicado dos: Estados Unidos da América.