Especificação LVTag
Versão 1.0
Criado por Danslav Slavenskoj
Data: Maio 2025
Idiomas: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски
Links rápidos
- Esquema JSON - Esquema de validação completo para o formato LVTag
 - Definições de classificadores - Especificações de classificadores legíveis por máquina
 - Especificação - Ir para os detalhes do formato
 - Exemplos - Ver LVTag em ação
 
Visão geral
O formato Language Variant Tag (LVTag) é uma abordagem sistemática para classificação de idiomas que estende o padrão BCP 47 usando subetiquetas de uso privado. Permite a identificação precisa de variedades linguísticas em múltiplas dimensões, incluindo formalidade, polidez, domínio e ortografia.
Benefícios principais
Rigor de classificação: LVTag traz organização sistemática à marcação de idiomas ao fornecer dimensões claras e separadas para diferentes tipos de variação. Ao contrário de subetiquetas e sistemas existentes que misturam diferentes categorias no mesmo nível, LVTag mantém separação estrita entre formalidade, polidez, domínio e outras dimensões.
Compatibilidade com padrões: LVTag é totalmente compatível com BCP 47 (RFC 5646) e funciona perfeitamente com:
- Registro de Subetiquetas de Idiomas IANA
 - Códigos de idioma ISO 639
 - Unicode CLDR
 - Etiquetas de idioma W3C
 - Cabeçalhos HTTP Accept-Language
 - Atributos lang XML
 - Atributos lang HTML
 
Integração tecnológica: As etiquetas LVTag podem ser usadas diretamente em:
- Pipelines de processamento de linguagem natural (NLP)
 - Sistemas de tradução automática
 - Sistemas de gerenciamento de conteúdo (CMS)
 - Bibliotecas de detecção de idioma
 - Mecanismos de busca e sistemas de recuperação de informação
 - Aplicações web e APIs
 - Fluxos de trabalho de localização
 
Casos de uso:
- Direcionamento de público: Adequar conteúdo a públicos apropriados com base em registro e domínio
 - Qualidade de tradução: Manter níveis apropriados de formalidade e polidez em tradução automática
 - Aprendizado de idiomas: Ensinar aos alunos o registro apropriado para diferentes contextos
 - Linguística de corpus: Construir corpora precisamente etiquetados para pesquisa
 - Análise de mídia social: Classificar conteúdo gerado por usuários por registro e domínio
 - Atendimento ao cliente: Direcionar mensagens com base em formalidade e domínio para agentes apropriados
 
Justificativa
Embora o BCP 47 forneça excelente suporte para identificar idiomas, scripts e regiões, carece de mecanismos padronizados para capturar variação sociolinguística dentro de um idioma. Os padrões atuais não abordam:
- Variação de registro: Sem forma de distinguir entre variedades formais e informais do mesmo idioma
 - Níveis de polidez: Crítico para idiomas como japonês, coreano e tailandês onde a polidez é codificada gramaticalmente
 - Linguagem específica de domínio: Sem padrão para marcar variedades técnicas, médicas ou legais de linguagem
 - Socioletos: Sem mecanismo para identificar variedades de grupos sociais (linguagem juvenil, jargão profissional)
 - Estágios históricos: Suporte limitado para distinguir formas clássicas de modernas
 - Gradientes de formalidade: Sem escala numérica para processamento computacional de registro
 - Protolínguas: Codificação inconsistente - algumas protolínguas têm códigos ISO (ex.: 
inepara PIE) enquanto outras não, e códigos de família ISO 639-5 não são válidos em etiquetas BCP 47, criando um cenário confuso para linguística histórica - Variação ortográfica: Embora o BCP 47 lide com scripts, não captura efetivamente variações dentro de scripts (reformas ortográficas, sistemas de romanização, padrões concorrentes) que afetam fundamentalmente o processamento de texto, busca e verificação ortográfica
 
LVTag preenche essas lacunas usando o mecanismo de extensão de uso privado do BCP 47 (-x-), fornecendo uma maneira sistemática e legível por máquina de codificar essas dimensões críticas de variação linguística mantendo compatibilidade retroativa completa.
Classificação linguística precisa
O advento de grandes modelos de linguagem e ferramentas NLP sofisticadas tornou a classificação precisa de variedades linguísticas não apenas útil, mas essencial. Sistemas modernos precisam:
- Gerar texto apropriado para contextos específicos (formal vs. informal, polido vs. casual)
 - Treinar em corpora adequadamente classificados para evitar misturar registros inadequadamente
 - Fornecer respostas cultural e contextualmente apropriadas
 - Lidar com precisão com mudança de código e conteúdo de idiomas mistos
 - Preservar consistência estilística ao traduzir ou transformar texto
 - Filtrar dados de treinamento com base em formalidade, domínio ou outras características
 - Adaptar a saída para corresponder às preferências ou requisitos do usuário
 
LVTag fornece os metadados granulares necessários para entender não apenas qual idioma está sendo usado, mas como está sendo usado, permitindo pipelines de processamento de linguagem mais matizados e apropriados.
Especificação do formato
Estrutura básica
language-x-[classifier]-[value]-[classifier2]-[value2]...
Onde:
languageé uma subetiqueta de idioma principal BCP 47 válida (ex.:en,ko,ja)xindica o início das subetiquetas de uso privadoclassifieré um identificador de categoria (veja Etiquetas mágicas abaixo)valueé a classificação específica dentro dessa categoria
Etiquetas mágicas
LVTag suporta classificadores “mágicos” de forma longa e curta para flexibilidade:
| Forma longa | Forma curta | Descrição | 
|---|---|---|
ortho | 
      w | 
      Variante ortográfica | 
form | 
      f | 
      Nível de formalidade (escala 1-5) | 
polite | 
      p | 
      Nível de polidez/respeito (escala 1-5) | 
domain | 
      d | 
      Vocabulário especializado ou contexto profissional | 
geo | 
      g | 
      Variedade geográfica ou regional | 
proto | 
      a | 
      Protolíngua ou língua reconstruída | 
hist | 
      h | 
      Período histórico ou estágio de uma língua | 
genre | 
      e | 
      Gênero textual ou estilo literário | 
medium | 
      m | 
      Meio de comunicação (falado, escrito, digital) | 
socio | 
      s | 
      Socioleto ou variedade de grupo social | 
modality | 
      o | 
      Modo de produção linguística | 
register | 
      r | 
      Registro linguístico | 
pragma | 
      u | 
      Função comunicativa | 
temporal | 
      t | 
      Marcação temporal | 
evidence | 
      v | 
      Fonte de informação | 
affect | 
      k | 
      Tom emocional | 
age | 
      n | 
      Variedade etária/geracional | 
gender | 
      i | 
      Variedade de gênero | 
expert | 
      b | 
      Nível de expertise | 
interact | 
      2 | 
      Estrutura interacional | 
prosody | 
      y | 
      Características prosódicas | 
lexical | 
      l | 
      Densidade lexical (0-100) | 
syntax | 
      z | 
      Complexidade sintática (0-100) | 
start | 
      0 | 
      Data de início (ISO 8601 sem pontuação) | 
end | 
      1 | 
      Data de término (ISO 8601 sem pontuação) | 
taboo | 
      j | 
      Nível de conteúdo tabu/vulgar (escala 0-5) | 
conf | 
      c | 
      Pontuação de confiança (0-100) para a etiqueta anterior | 
| — | q, 3-9 | 
      Reservado para uso futuro | 
Classificadores
1. Classificador ortográfico (ortho ou w)
Identifica convenções ortográficas específicas ou variantes do sistema de escrita além das etiquetas padrão de script.
Formato:
- Longo: 
language-x-ortho-[variant] - Curto: 
language-x-w-[variant] 
Exemplos (combinados com etiquetas padrão de script):
az-Latn-x-ortho-newouaz-Latn-x-w-new- Azeri escrita latina, nova ortografiade-Latn-x-ortho-1901oude-Latn-x-w-1901- Alemão escrita latina, ortografia de 1901zh-Hans-x-ortho-pinyinouzh-Hans-x-w-pinyin- Chinês simplificado com pinyinyi-Hebr-x-ortho-yivoouyi-Hebr-x-w-yivo- Iídiche escrita hebraica, ortografia YIVO
2. Classificador de formalidade (form ou f)
Identifica o nível de formalidade do uso linguístico.
Formato:
- Longo: 
language-x-form-[1-5] - Curto: 
language-x-f-[1-5] 
Escala de formalidade:
- 1 = Mais formal (documentos escritos, discursos oficiais)
 - 2 = Formal (reuniões de negócios, escrita acadêmica)
 - 3 = Neutro/padrão (notícias, conversa geral)
 - 4 = Informal (conversa casual, e-mails para amigos)
 - 5 = Mais casual (conversa íntima, gíria)
 
Exemplos:
ko-x-form-1ouko-x-f-1- Coreano mais formalen-x-form-3ouen-x-f-3- Inglês neutroja-x-form-5ouja-x-f-5- Japonês mais casual
3. Classificador de polidez (polite ou p)
Identifica o nível de polidez/respeito do uso linguístico.
Formato:
- Longo: 
language-x-polite-[1-5] - Curto: 
language-x-p-[1-5] 
Escala de polidez:
- 1 = Mais respeitoso/deferente (endereço real, contextos religiosos)
 - 2 = Muito polido (honoríficos formais, fala respeitosa)
 - 3 = Polido/neutro (polidez padrão)
 - 4 = Familiar (entre iguais, amigos)
 - 5 = Íntimo/simples (família, amigos muito próximos)
 
Exemplos:
ko-x-polite-1ouko-x-p-1- Coreano de mais alto respeitoja-x-polite-2ouja-x-p-2- Japonês muito polidoth-x-polite-3outh-x-p-3- Tailandês polido padrão
4. Classificador de domínio (domain ou d)
Identifica vocabulário especializado ou contexto profissional.
Formato:
- Longo: 
language-x-domain-[domain_type] - Curto: 
language-x-d-[domain_type] 
Exemplos:
en-x-domain-legalouen-x-d-legal- Inglês jurídicoja-x-domain-medouja-x-d-med- Japonês médicoko-x-domain-businessouko-x-d-business- Coreano de negóciosja-x-domain-techouja-x-d-tech- Japonês técnicoen-x-domain-finouen-x-d-fin- Inglês financeiro
5. Classificador geográfico (geo ou g)
Identifica variedades linguísticas regionais ou geográficas.
Formato:
- Longo: 
language-x-geo-[region] - Curto: 
language-x-g-[region] 
Exemplos:
ko-x-geo-gyeongouko-x-g-gyeong- Coreano de Gyeongsang (경상도)ko-x-geo-jeollaouko-x-g-jeolla- Coreano de Jeolla (전라도)es-x-geo-rioplaoues-x-g-riopla- Espanhol rioplatensept-x-geo-nordesteoupt-x-g-nordeste- Português do nordeste brasileiro
6. Classificador proto (proto ou a)
Identifica protolínguas ou línguas históricas reconstruídas.
Formato:
- Longo: 
x-proto-[iso639-5_code if available] - Curto: 
x-a-[iso639-5_code if available] 
Regras:
- DEVE usar códigos de família de idiomas ISO 639-5 quando disponíveis
 - Usar identificadores descritivos apenas quando não existir código ISO 639-5
 
Exemplos usando códigos ISO 639-5:
x-proto-ineoux-a-ine- Proto-indo-europeux-proto-gemoux-a-gem- Proto-germânicox-proto-slaoux-a-sla- Proto-eslavox-proto-semoux-a-sem- Proto-semíticox-proto-celoux-a-cel- Proto-célticox-proto-iraoux-a-ira- Proto-iranianox-proto-incoux-a-inc- Proto-indo-arianox-proto-batoux-a-bat- Proto-bálticox-proto-roaoux-a-roa- Proto-românicox-proto-trkoux-a-trk- Proto-túrquico
Exemplos sem códigos ISO 639-5 (descritivos, mais de três caracteres):
x-proto-baltslavoux-a-baltslav- Proto-balto-eslavo (sem código ISO 639-5)
Nota:
- Códigos de família de idiomas (ISO 639-5) NÃO são válidos como etiquetas de idioma principal BCP 47 padrão, por isso implementamos usando x-proto
 - Eles são válidos e preferidos dentro de extensões de uso privado (após 
x-) - Portanto, todas as etiquetas de protolíngua devem começar com 
x-para estar em conformidade com BCP 47 
7. Classificador histórico (hist ou h)
Identifica períodos históricos ou estágios de uma língua.
Formato:
- Longo: 
language-x-hist-[period] - Curto: 
language-x-h-[period] 
Exemplos:
en-x-hist-oldouen-x-h-old- Período do inglês antigoen-x-hist-middleouen-x-h-middle- Período do inglês médioja-x-hist-kobunouja-x-h-kobun- Japonês clássico (古文)ko-x-hist-hunminouko-x-h-hunmin- Coreano médio (훈민정음 período)el-x-hist-koineouel-x-h-koine- Grego koiné (Κοινή)sa-x-hist-vedicousa-x-h-vedic- Sânscrito védico (वैदिक)
8. Classificador de gênero (genre ou e)
Identifica gênero textual ou estilo literário.
Formato:
- Longo: 
language-x-genre-[genre_type] - Curto: 
language-x-e-[genre_type] 
Exemplos:
en-x-genre-newsouen-x-e-news- Inglês jornalísticoja-x-genre-mangaouja-x-e-manga- Japonês de mangá (漫画)ko-x-genre-webtoonouko-x-e-webtoon- Coreano de webtoon (웹툰)zh-x-genre-shiouzh-x-e-shi- Poesia chinesa (詩)fr-x-genre-bdoufr-x-e-bd- Quadrinhos franceses (bande dessinée)de-x-genre-marchenoude-x-e-marchen- Contos de fadas alemães (Märchen)
9. Classificador de meio (medium ou m)
Identifica o meio de comunicação.
Formato:
- Longo: 
language-x-medium-[medium_type] - Curto: 
language-x-m-[medium_type] 
Exemplos:
en-x-medium-spokenouen-x-m-spoken- Inglês faladoko-x-medium-digitalouko-x-m-digital- Coreano digital/onlineja-x-medium-writtenouja-x-m-written- Japonês escritohi-x-medium-bcastouhi-x-m-bcast- Hindi transmitidozh-x-medium-smsouzh-x-m-sms- Chinês SMS/mensagem de texto
10. Classificador socio (socio ou s)
Identifica socioleto ou variedades de grupos sociais.
Formato:
- Longo: 
language-x-socio-[social_group] - Curto: 
language-x-s-[social_group] 
Exemplos:
en-x-socio-academicouen-x-s-academic- Socioleto acadêmicoen-x-socio-urbanouen-x-s-urban- Socioleto urbanoes-x-socio-juveniloues-x-s-juvenil- Socioleto juvenil espanhol (jerga juvenil)fr-x-socio-jeuneoufr-x-s-jeune- Socioleto juvenil francêsde-x-socio-jugendoude-x-s-jugend- Socioleto juvenil alemão (Jugendsprache)ko-x-socio-onlineouko-x-s-online- Socioleto coreano online
11. Classificador de modalidade (modality ou o)
Identifica o modo fundamental de produção linguística.
Formato:
- Longo: 
language-x-modality-[mode] - Curto: 
language-x-o-[mode] 
Exemplos:
en-x-modality-spokenouen-x-o-spoken- Inglês faladoen-x-modality-writtenouen-x-o-written- Inglês escritoasl-x-modality-signedouasl-x-o-signed- Língua de sinais americanaen-x-modality-multiouen-x-o-multi- Inglês multimodal (fala + gestos)fr-x-modality-tactileoufr-x-o-tactile- Francês tátil (para surdocegos)
12. Classificador de registro (register ou r)
Identifica registro linguístico ou variedade funcional do uso linguístico.
Formato:
- Longo: 
language-x-register-[register_type] - Curto: 
language-x-r-[register_type] 
Exemplos:
en-x-register-frozenouen-x-r-frozen- Registro congelado (orações, juramentos)en-x-register-formalouen-x-r-formal- Registro formal (artigos acadêmicos)en-x-register-consultouen-x-r-consult- Registro consultivo (profissional)en-x-register-casualouen-x-r-casual- Registro casual (amigos)en-x-register-intimateouen-x-r-intimate- Registro íntimo (família)
13. Classificador de função pragmática (pragma ou u)
Identifica função comunicativa ou ato de fala.
Formato:
- Longo: 
language-x-pragma-[function] - Curto: 
language-x-u-[function] 
Exemplos:
en-x-pragma-requestouen-x-u-request- Função de solicitaçãoja-x-pragma-apologyouja-x-u-apology- Função de desculpaes-x-pragma-complmntoues-x-u-complmnt- Função de elogioar-x-pragma-greetingouar-x-u-greeting- Função de saudaçãozh-x-pragma-refusalouzh-x-u-refusal- Função de recusa
14. Classificador de marcação temporal (temporal ou t)
Identifica aspectos temporais ou padrões de uso temporal.
Formato:
- Longo: 
language-x-temporal-[aspect] - Curto: 
language-x-t-[aspect] 
Exemplos:
en-x-temporal-pastouen-x-t-past- Discurso orientado ao passadoja-x-temporal-nonpastouja-x-t-nonpast- Foco não-passadoid-x-temporal-atemprlouid-x-t-atemprl- Atemporal/sem tempofr-x-temporal-futureoufr-x-t-future- Orientado ao futurozh-x-temporal-aspectouzh-x-t-aspect- Foco aspectual
15. Classificador evidencial (evidence ou v)
Identifica marcação de fonte de informação.
Formato:
- Longo: 
language-x-evidence-[source] - Curto: 
language-x-v-[source] 
Exemplos:
qu-x-evidence-directouqu-x-v-direct- Testemunha diretatr-x-evidence-hearsayoutr-x-v-hearsay- Boato/reportadoja-x-evidence-inferouja-x-v-infer- Inferencialen-x-evidence-assumeouen-x-v-assume- Assumidode-x-evidence-quoteoude-x-v-quote- Citativo
16. Classificador de afeto/emoção (affect ou k)
Identifica tom emocional ou afeto.
Formato:
- Longo: 
language-x-affect-[emotion] - Curto: 
language-x-k-[emotion] 
Exemplos:
en-x-affect-angryouen-x-k-angry- Tom raivosoja-x-affect-humbleouja-x-k-humble- Afeto humildees-x-affect-joyfuloues-x-k-joyful- Expressão alegreko-x-affect-sadouko-x-k-sad- Triste/melancólicofr-x-affect-neutraloufr-x-k-neutral- Afeto neutro
17. Classificador de idade/geração (age ou n)
Identifica variedades linguísticas relacionadas à idade ou geração.
Formato:
- Longo: 
language-x-age-[generation] - Curto: 
language-x-n-[generation] 
Exemplos:
en-x-age-childouen-x-n-child- Fala infantilja-x-age-teenouja-x-n-teen- Linguagem adolescenteko-x-age-elderouko-x-n-elder- Fala de idososes-x-age-genzoues-x-n-genz- Geração Zzh-x-age-millenlouzh-x-n-millenl- Fala millennial
18. Classificador de gênero (gender ou i)
Identifica variedades linguísticas relacionadas ao gênero.
Formato:
- Longo: 
language-x-gender-[identity] - Curto: 
language-x-i-[identity] 
19. Classificador de nível de expertise (expert ou b)
Identifica o nível de expertise de domínio em uma escala de 0-10.
Formato:
- Longo: 
language-x-expert-[0-10] - Curto: 
language-x-b-[0-10] 
Escala de expertise:
- 0 = Sem conhecimento
 - 1-2 = Iniciante
 - 3-4 = Intermediário
 - 5-6 = Avançado
 - 7-8 = Expert
 - 9-10 = Mestre/Autoridade
 
Exemplos:
en-x-expert-0ouen-x-b-0- Sem expertisede-x-expert-3oude-x-b-3- Nível intermediárioja-x-expert-7ouja-x-b-7- Nível expertes-x-expert-9oues-x-b-9- Nível mestrezh-x-expert-5ouzh-x-b-5- Nível avançado
20. Classificador de estrutura interacional (interact ou 2)
Identifica padrões conversacionais ou interacionais.
Formato:
- Longo: 
language-x-interact-[structure] - Curto: 
language-x-2-[structure] 
Exemplos:
en-x-interact-turnouen-x-2-turn- Tomada de turnoja-x-interact-overlapouja-x-2-overlap- Fala sobrepostaes-x-interact-monologoues-x-2-monolog- Monológicoar-x-interact-dialogouar-x-2-dialog- Dialógicozh-x-interact-multiouzh-x-2-multi- Multipartidário
21. Classificador de características prosódicas (prosody ou y)
Identifica características prosódicas ou suprassegmentais.
Formato:
- Longo: 
language-x-prosody-[feature] - Curto: 
language-x-y-[feature] 
Exemplos:
en-x-prosody-stressouen-x-y-stress- Ritmo acentualja-x-prosody-pitchouja-x-y-pitch- Acento tonalfr-x-prosody-syllableoufr-x-y-syllable- Ritmo silábicozh-x-prosody-toneouzh-x-y-tone- Padrões tonaises-x-prosody-rhythmoues-x-y-rhythm- Padrões rítmicos
22. Classificador de densidade lexical (lexical ou l)
Identifica densidade lexical como valor numérico (0-100).
Formato:
- Longo: 
language-x-lexical-[0-100] - Curto: 
language-x-l-[0-100] 
Exemplos:
en-x-lexical-20ouen-x-l-20- Baixa densidade (20%)de-x-lexical-55oude-x-l-55- Densidade média (55%)ja-x-lexical-75ouja-x-l-75- Alta densidade (75%)es-x-lexical-40oues-x-l-40- Densidade moderada (40%)zh-x-lexical-85ouzh-x-l-85- Densidade muito alta (85%)
23. Classificador de complexidade sintática (syntax ou z)
Identifica complexidade sintática como valor numérico (0-100).
Formato:
- Longo: 
language-x-syntax-[0-100] - Curto: 
language-x-z-[0-100] 
Exemplos:
en-x-syntax-15ouen-x-z-15- Sintaxe simples (15%)de-x-syntax-70oude-x-z-70- Sintaxe complexa (70%)ja-x-syntax-45ouja-x-z-45- Complexidade moderada (45%)es-x-syntax-30oues-x-z-30- Baixa complexidade (30%)zh-x-syntax-60ouzh-x-z-60- Alta complexidade (60%)
24. Classificador de data de início (start ou 0)
Identifica data de início do uso linguístico (formato ISO 8601 sem pontuação).
Formato:
- Longo: 
language-x-start-[YYYYMMDD] - Curto: 
language-x-0-[YYYYMMDD] 
Formatos de data:
- Data completa: YYYYMMDD
 - Ano-mês: YYYYMM
 - Apenas ano: YYYY
 
Exemplos:
en-x-start-20240315ouen-x-0-20240315- Inglês começando em 15 de março de 2024ja-x-start-19890108ouja-x-0-19890108- Japonês começando em 8 de janeiro de 1989es-x-start-202403oues-x-0-202403- Espanhol começando em março de 2024
25. Classificador de data de término (end ou 1)
Identifica data de término do uso linguístico (formato ISO 8601 sem pontuação).
Formato:
- Longo: 
language-x-end-[YYYYMMDD] - Curto: 
language-x-1-[YYYYMMDD] 
Formatos de data:
- Data completa: YYYYMMDD
 - Ano-mês: YYYYMM
 - Apenas ano: YYYY
 
Exemplos:
en-x-end-20240415ouen-x-1-20240415- Inglês terminando em 15 de abril de 2024ja-x-end-20190430ouja-x-1-20190430- Japonês terminando em 30 de abril de 2019es-x-end-202412oues-x-1-202412- Espanhol terminando em dezembro de 2024
26. Classificador de tabu (taboo ou j)
Identifica o nível de conteúdo tabu, vulgar ou ofensivo.
Formato:
- Longo: 
language-x-taboo-[0-5] - Curto: 
language-x-j-[0-5] 
Exemplos:
en-x-taboo-0ouen-x-j-0- Sem conteúdo tabuen-x-taboo-3ouen-x-j-3- Nível moderado de tabuja-x-form-5-taboo-4ouja-x-f-5-j-4- Japonês muito casual com alto nível de tabu
27. Classificador de confiança (conf ou c)
Indica a pontuação de confiança para o classificador imediatamente anterior.
Formato:
- Longo: 
language-x-[classifier]-[value]-conf-[0-100] - Curto: 
language-x-[classifier]-[value]-c-[0-100] 
Comportamento especial:
- A pontuação de confiança se aplica ao classificador imediatamente anterior
 - Múltiplas pontuações de confiança podem ser usadas para diferentes classificadores
 - Se não houver classificador precedente, a confiança se aplica à etiqueta de idioma base
 
Exemplos:
en-x-form-3-conf-95ouen-x-f-3-c-95- Formalidade neutra com 95% de confiançako-x-polite-2-conf-80-domain-med-conf-60ouko-x-p-2-c-80-d-med-c-60- Muito polido (80% confiança) coreano médico (60% confiança)ja-x-hist-kobun-conf-100ouja-x-h-kobun-c-100- Japonês clássico com 100% de confiançax-proto-ine-conf-75oux-a-ine-c-75- Proto-indo-europeu com 75% de confiança
Classificações múltiplas
LVTag suporta múltiplos classificadores em uma única etiqueta para fornecer identificação linguística precisa. Formas longas e curtas podem ser misturadas:
ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
Os exemplos acima mostram coreano com formalidade informal (4) mas fala polida (2) em contexto de negócios.
Valores válidos
Nota: Todos os valores devem ter 8 caracteres ou menos para cumprir as restrições de comprimento de subetiqueta BCP 47. Embora valores específicos para muitos classificadores devam ser estabelecidos através de uso especializado e consenso da comunidade, escalas numéricas, formatos de data e valores básicos listados abaixo são definidos neste padrão.
Escala de formalidade (Universal)
| Nível | Descrição | Exemplos | 
|---|---|---|
| 1 | Mais formal | Documentos legais, cerimônias oficiais, artigos acadêmicos | 
| 2 | Formal | Cartas comerciais, artigos de notícias, apresentações | 
| 3 | Neutro | Conversa padrão, e-mail, escrita geral | 
| 4 | Informal | Conversa casual, blogs pessoais, mensagens de texto | 
| 5 | Mais casual | Gíria, conversa íntima, mídia social | 
Escala de polidez (Universal)
| Nível | Descrição | Exemplos | 
|---|---|---|
| 1 | Mais respeitoso | Endereço real, líderes religiosos, respeito aos idosos | 
| 2 | Muito polido | Atendimento ao cliente, reuniões formais, professores | 
| 3 | Polido/neutro | Interações padrão, colegas | 
| 4 | Familiar | Amigos, pares, conhecidos casuais | 
| 5 | Íntimo/simples | Família próxima, parceiros íntimos | 
Escala de expertise (Universal)
| Nível | Descrição | 
|---|---|
| 0 | Sem conhecimento | 
| 1-2 | Iniciante | 
| 3-4 | Intermediário | 
| 5-6 | Avançado | 
| 7-8 | Expert | 
| 9-10 | Mestre/Autoridade | 
Escala de tabu (Universal)
| Nível | Descrição | 
|---|---|
| 0 | Sem conteúdo tabu | 
| 1 | Tabu leve | 
| 2 | Tabu baixo | 
| 3 | Tabu moderado | 
| 4 | Tabu alto | 
| 5 | Tabu extremo | 
Escala de densidade lexical (Universal)
| Nível | Descrição | 
|---|---|
| 0-20 | Densidade muito baixa | 
| 21-40 | Densidade baixa | 
| 41-60 | Densidade moderada | 
| 61-80 | Densidade alta | 
| 81-100 | Densidade muito alta | 
Escala de complexidade sintática (Universal)
| Nível | Descrição | 
|---|---|
| 0-20 | Muito simples | 
| 21-40 | Simples | 
| 41-60 | Complexidade moderada | 
| 61-80 | Complexo | 
| 81-100 | Muito complexo | 
Valores de domínio
| Valor | Descrição | 
|---|---|
legal | 
      Terminologia jurídica | 
med | 
      Terminologia médica | 
tech | 
      Técnico/TI | 
business | 
      Negócios/corporativo | 
fin | 
      Finanças/bancário | 
acad | 
      Acadêmico/erudito | 
sci | 
      Científico/pesquisa | 
Exemplos de implementação
Classificador único (Forma longa)
# Coreano mais formal
ko-x-form-1
# Japonês muito polido
ja-x-polite-2
# Inglês jurídico
en-x-domain-legal
# Coreano de Gyeongsang
ko-x-geo-gyeong
# Proto-indo-europeu
x-proto-ine
Classificador único (Forma curta)
# Coreano mais formal
ko-x-f-1
# Japonês muito polido
ja-x-p-2
# Inglês jurídico
en-x-d-legal
# Coreano de Gyeongsang
ko-x-g-gyeong
# Proto-indo-europeu
x-a-ine
Múltiplos classificadores
# Linguagem de negócios coreana informal mas polida
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
# Linguagem médica japonesa formal e respeitosa
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med
# Vietnamita do sul com formalidade neutra, fala polida, domínio técnico
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech
# Classificação complexa com múltiplas dimensões
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written
# Variedades linguísticas mostrando distinção formalidade/polidez
ko-x-f-5-p-2  # Muito casual mas polido (para um amigo mais velho)
ko-x-f-1-p-4  # Muito formal mas familiar (escrito para um colega)
ja-x-f-4-p-1  # Formalidade casual mas mais alto respeito
en-x-f-5-j-4  # Inglês muito casual com alto nível de tabu
Casos de uso
- Aplicações de aprendizado de idiomas
    
- Ensinar registro apropriado para diferentes contextos sociais
 - Fornecer treinamento de vocabulário específico de domínio
 
 - Tradução automática
    
- Manter consistência de registro nas traduções
 - Aplicar terminologia específica de domínio
 
 - Classificação de conteúdo
    
- Categorizar automaticamente texto por formalidade e domínio
 - Direcionar conteúdo para revisores ou sistemas apropriados
 
 - Linguística de corpus
    
- Construir corpora etiquetados para pesquisa linguística
 - Estudar variação de registro e domínio
 
 
Regras de validação
- Comprimento de subetiqueta: Cada subetiqueta após 
x-deve ter 8 caracteres ou menos - Ordem: Classificadores podem aparecer em qualquer ordem após 
x- - Unicidade: Cada tipo de classificador deve aparecer apenas uma vez por etiqueta (exceto 
confque pode aparecer múltiplas vezes) - Maiúsculas/minúsculas: Etiquetas devem ser em minúsculas (sem distinção de maiúsculas conforme BCP 47)
 - Etiquetas mágicas: Etiquetas de forma curta são caracteres únicos; 
q,3-9são reservados para uso futuro - Mistura: Formas longas e curtas podem ser misturadas dentro da mesma etiqueta
 - Etiquetas proto: Devem começar com 
x-e DEVEM usar códigos ISO 639-5 quando disponíveis (ex.:x-proto-slanãox-proto-slavic) - Confiança: Classificador 
conf/cse aplica ao classificador imediatamente anterior - Valores numéricos: Devem estar dentro dos intervalos definidos (0-5 para tabu, 0-10 para expertise, 0-100 para valores percentuais)
 - Formato de data: Datas usam ISO 8601 sem pontuação (YYYY, YYYYMM ou YYYYMMDD)
 
Compatibilidade
O formato LVTag é totalmente compatível com:
- BCP 47 (RFC 5646)
 - Códigos de idioma ISO 639
 - Registro de Subetiquetas de Idiomas IANA
 - Unicode CLDR
 
Benefícios
- Precisão: Permite identificação detalhada de variedades linguísticas
 - Extensibilidade: Novos registros e domínios podem ser adicionados
 - Baseado em padrões: Construído sobre o mecanismo estabelecido de uso privado BCP 47
 - Legível por máquina: Formato sistemático permite processamento automatizado
 - Legível por humanos: Subetiquetas claras e descritivas
 - Flexibilidade: Suporte para etiquetas de forma longa detalhada e forma curta concisa
 - Concisão: Etiquetas mágicas curtas permitem representação compacta mantendo clareza
 
Extensões futuras
LVTag é projetado para evoluir com as necessidades da comunidade de tecnologia linguística. Recebemos sugestões para novos classificadores, melhorias aos existentes e feedback de implementações do mundo real.
Para propor extensões ou contribuir com a especificação:
- Abra uma issue em github.com/lvtag/spec
 - Participe da discussão sobre propostas existentes
 - Compartilhe suas experiências de implementação
 - Envie pull requests para melhorias de documentação
 
Os códigos de caractere único reservados (q, 3-9) estão disponíveis para futuras extensões padronizadas.
Referências
Licença e concessão de patentes
Esta especificação é lançada sob CC0 1.0 Universal (Dedicação ao Domínio Público).
Por que CC0: Para garantir máxima adoção e liberdade de implementação, LVTag é colocado no domínio público. Isso significa:
- Nenhuma permissão necessária para usar, implementar ou modificar
 - Nenhuma atribuição necessária (embora apreciada)
 - Sem barreiras legais para uso comercial ou governamental
 - Compatível com todas as licenças de software
 - Usado por padrões importantes como Unicode CLDR
 
Concessão de patentes: Quaisquer patentes que cubram a especificação LVTag são licenciadas sem royalties para qualquer implementação em conformidade com esta especificação.
Sem endosso: O uso de LVTag não implica endosso pelos autores da especificação.
Na medida permitida por lei, Danslav Slavenskoj renunciou a todos os direitos autorais e direitos relacionados ou conexos à Especificação do Formato Language Variant Tag (LVTag). Este trabalho é publicado dos: Estados Unidos da América.