
Especificação LVTag
Versão 1.0
Criado por Danslav Slavenskoj
Data: Maio 2025
Idiomas: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски
Links rápidos
- Esquema JSON - Esquema de validação completo para o formato LVTag
- Definições de classificadores - Especificações de classificadores legíveis por máquina
- Especificação - Ir para os detalhes do formato
- Exemplos - Ver LVTag em ação
Visão geral
O formato Language Variant Tag (LVTag) é uma abordagem sistemática para classificação de idiomas que estende o padrão BCP 47 usando subetiquetas de uso privado. Permite a identificação precisa de variedades linguísticas em múltiplas dimensões, incluindo formalidade, polidez, domínio e ortografia.
Benefícios principais
Rigor de classificação: LVTag traz organização sistemática à marcação de idiomas ao fornecer dimensões claras e separadas para diferentes tipos de variação. Ao contrário de subetiquetas e sistemas existentes que misturam diferentes categorias no mesmo nível, LVTag mantém separação estrita entre formalidade, polidez, domínio e outras dimensões.
Compatibilidade com padrões: LVTag é totalmente compatível com BCP 47 (RFC 5646) e funciona perfeitamente com:
- Registro de Subetiquetas de Idiomas IANA
- Códigos de idioma ISO 639
- Unicode CLDR
- Etiquetas de idioma W3C
- Cabeçalhos HTTP Accept-Language
- Atributos lang XML
- Atributos lang HTML
Integração tecnológica: As etiquetas LVTag podem ser usadas diretamente em:
- Pipelines de processamento de linguagem natural (NLP)
- Sistemas de tradução automática
- Sistemas de gerenciamento de conteúdo (CMS)
- Bibliotecas de detecção de idioma
- Mecanismos de busca e sistemas de recuperação de informação
- Aplicações web e APIs
- Fluxos de trabalho de localização
Casos de uso:
- Direcionamento de público: Adequar conteúdo a públicos apropriados com base em registro e domínio
- Qualidade de tradução: Manter níveis apropriados de formalidade e polidez em tradução automática
- Aprendizado de idiomas: Ensinar aos alunos o registro apropriado para diferentes contextos
- Linguística de corpus: Construir corpora precisamente etiquetados para pesquisa
- Análise de mídia social: Classificar conteúdo gerado por usuários por registro e domínio
- Atendimento ao cliente: Direcionar mensagens com base em formalidade e domínio para agentes apropriados
Justificativa
Embora o BCP 47 forneça excelente suporte para identificar idiomas, scripts e regiões, carece de mecanismos padronizados para capturar variação sociolinguística dentro de um idioma. Os padrões atuais não abordam:
- Variação de registro: Sem forma de distinguir entre variedades formais e informais do mesmo idioma
- Níveis de polidez: Crítico para idiomas como japonês, coreano e tailandês onde a polidez é codificada gramaticalmente
- Linguagem específica de domínio: Sem padrão para marcar variedades técnicas, médicas ou legais de linguagem
- Socioletos: Sem mecanismo para identificar variedades de grupos sociais (linguagem juvenil, jargão profissional)
- Estágios históricos: Suporte limitado para distinguir formas clássicas de modernas
- Gradientes de formalidade: Sem escala numérica para processamento computacional de registro
- Protolínguas: Codificação inconsistente - algumas protolínguas têm códigos ISO (ex.:
ine
para PIE) enquanto outras não, e códigos de família ISO 639-5 não são válidos em etiquetas BCP 47, criando um cenário confuso para linguística histórica - Variação ortográfica: Embora o BCP 47 lide com scripts, não captura efetivamente variações dentro de scripts (reformas ortográficas, sistemas de romanização, padrões concorrentes) que afetam fundamentalmente o processamento de texto, busca e verificação ortográfica
LVTag preenche essas lacunas usando o mecanismo de extensão de uso privado do BCP 47 (-x-
), fornecendo uma maneira sistemática e legível por máquina de codificar essas dimensões críticas de variação linguística mantendo compatibilidade retroativa completa.
Classificação linguística precisa
O advento de grandes modelos de linguagem e ferramentas NLP sofisticadas tornou a classificação precisa de variedades linguísticas não apenas útil, mas essencial. Sistemas modernos precisam:
- Gerar texto apropriado para contextos específicos (formal vs. informal, polido vs. casual)
- Treinar em corpora adequadamente classificados para evitar misturar registros inadequadamente
- Fornecer respostas cultural e contextualmente apropriadas
- Lidar com precisão com mudança de código e conteúdo de idiomas mistos
- Preservar consistência estilística ao traduzir ou transformar texto
- Filtrar dados de treinamento com base em formalidade, domínio ou outras características
- Adaptar a saída para corresponder às preferências ou requisitos do usuário
LVTag fornece os metadados granulares necessários para entender não apenas qual idioma está sendo usado, mas como está sendo usado, permitindo pipelines de processamento de linguagem mais matizados e apropriados.
Especificação do formato
Estrutura básica
language-x-[classifier]-[value]-[classifier2]-[value2]...
Onde:
language
é uma subetiqueta de idioma principal BCP 47 válida (ex.:en
,ko
,ja
)x
indica o início das subetiquetas de uso privadoclassifier
é um identificador de categoria (veja Etiquetas mágicas abaixo)value
é a classificação específica dentro dessa categoria
Etiquetas mágicas
LVTag suporta classificadores “mágicos” de forma longa e curta para flexibilidade:
Forma longa | Forma curta | Descrição |
---|---|---|
ortho |
w |
Variante ortográfica |
form |
f |
Nível de formalidade (escala 1-5) |
polite |
p |
Nível de polidez/respeito (escala 1-5) |
domain |
d |
Vocabulário especializado ou contexto profissional |
geo |
g |
Variedade geográfica ou regional |
proto |
a |
Protolíngua ou língua reconstruída |
hist |
h |
Período histórico ou estágio de uma língua |
genre |
e |
Gênero textual ou estilo literário |
medium |
m |
Meio de comunicação (falado, escrito, digital) |
socio |
s |
Socioleto ou variedade de grupo social |
modality |
o |
Modo de produção linguística |
register |
r |
Registro linguístico |
pragma |
u |
Função comunicativa |
temporal |
t |
Marcação temporal |
evidence |
v |
Fonte de informação |
affect |
k |
Tom emocional |
age |
n |
Variedade etária/geracional |
gender |
i |
Variedade de gênero |
expert |
b |
Nível de expertise |
interact |
2 |
Estrutura interacional |
prosody |
y |
Características prosódicas |
lexical |
l |
Densidade lexical (0-100) |
syntax |
z |
Complexidade sintática (0-100) |
start |
0 |
Data de início (ISO 8601 sem pontuação) |
end |
1 |
Data de término (ISO 8601 sem pontuação) |
taboo |
j |
Nível de conteúdo tabu/vulgar (escala 0-5) |
conf |
c |
Pontuação de confiança (0-100) para a etiqueta anterior |
— | q , 3 -9 |
Reservado para uso futuro |
Classificadores
1. Classificador ortográfico (ortho
ou w
)
Identifica convenções ortográficas específicas ou variantes do sistema de escrita além das etiquetas padrão de script.
Formato:
- Longo:
language-x-ortho-[variant]
- Curto:
language-x-w-[variant]
Exemplos (combinados com etiquetas padrão de script):
az-Latn-x-ortho-new
ouaz-Latn-x-w-new
- Azeri escrita latina, nova ortografiade-Latn-x-ortho-1901
oude-Latn-x-w-1901
- Alemão escrita latina, ortografia de 1901zh-Hans-x-ortho-pinyin
ouzh-Hans-x-w-pinyin
- Chinês simplificado com pinyinyi-Hebr-x-ortho-yivo
ouyi-Hebr-x-w-yivo
- Iídiche escrita hebraica, ortografia YIVO
2. Classificador de formalidade (form
ou f
)
Identifica o nível de formalidade do uso linguístico.
Formato:
- Longo:
language-x-form-[1-5]
- Curto:
language-x-f-[1-5]
Escala de formalidade:
- 1 = Mais formal (documentos escritos, discursos oficiais)
- 2 = Formal (reuniões de negócios, escrita acadêmica)
- 3 = Neutro/padrão (notícias, conversa geral)
- 4 = Informal (conversa casual, e-mails para amigos)
- 5 = Mais casual (conversa íntima, gíria)
Exemplos:
ko-x-form-1
ouko-x-f-1
- Coreano mais formalen-x-form-3
ouen-x-f-3
- Inglês neutroja-x-form-5
ouja-x-f-5
- Japonês mais casual
3. Classificador de polidez (polite
ou p
)
Identifica o nível de polidez/respeito do uso linguístico.
Formato:
- Longo:
language-x-polite-[1-5]
- Curto:
language-x-p-[1-5]
Escala de polidez:
- 1 = Mais respeitoso/deferente (endereço real, contextos religiosos)
- 2 = Muito polido (honoríficos formais, fala respeitosa)
- 3 = Polido/neutro (polidez padrão)
- 4 = Familiar (entre iguais, amigos)
- 5 = Íntimo/simples (família, amigos muito próximos)
Exemplos:
ko-x-polite-1
ouko-x-p-1
- Coreano de mais alto respeitoja-x-polite-2
ouja-x-p-2
- Japonês muito polidoth-x-polite-3
outh-x-p-3
- Tailandês polido padrão
4. Classificador de domínio (domain
ou d
)
Identifica vocabulário especializado ou contexto profissional.
Formato:
- Longo:
language-x-domain-[domain_type]
- Curto:
language-x-d-[domain_type]
Exemplos:
en-x-domain-legal
ouen-x-d-legal
- Inglês jurídicoja-x-domain-med
ouja-x-d-med
- Japonês médicoko-x-domain-business
ouko-x-d-business
- Coreano de negóciosja-x-domain-tech
ouja-x-d-tech
- Japonês técnicoen-x-domain-fin
ouen-x-d-fin
- Inglês financeiro
5. Classificador geográfico (geo
ou g
)
Identifica variedades linguísticas regionais ou geográficas.
Formato:
- Longo:
language-x-geo-[region]
- Curto:
language-x-g-[region]
Exemplos:
ko-x-geo-gyeong
ouko-x-g-gyeong
- Coreano de Gyeongsang (경상도)ko-x-geo-jeolla
ouko-x-g-jeolla
- Coreano de Jeolla (전라도)es-x-geo-riopla
oues-x-g-riopla
- Espanhol rioplatensept-x-geo-nordeste
oupt-x-g-nordeste
- Português do nordeste brasileiro
6. Classificador proto (proto
ou a
)
Identifica protolínguas ou línguas históricas reconstruídas.
Formato:
- Longo:
x-proto-[iso639-5_code if available]
- Curto:
x-a-[iso639-5_code if available]
Regras:
- DEVE usar códigos de família de idiomas ISO 639-5 quando disponíveis
- Usar identificadores descritivos apenas quando não existir código ISO 639-5
Exemplos usando códigos ISO 639-5:
x-proto-ine
oux-a-ine
- Proto-indo-europeux-proto-gem
oux-a-gem
- Proto-germânicox-proto-sla
oux-a-sla
- Proto-eslavox-proto-sem
oux-a-sem
- Proto-semíticox-proto-cel
oux-a-cel
- Proto-célticox-proto-ira
oux-a-ira
- Proto-iranianox-proto-inc
oux-a-inc
- Proto-indo-arianox-proto-bat
oux-a-bat
- Proto-bálticox-proto-roa
oux-a-roa
- Proto-românicox-proto-trk
oux-a-trk
- Proto-túrquico
Exemplos sem códigos ISO 639-5 (descritivos, mais de três caracteres):
x-proto-baltslav
oux-a-baltslav
- Proto-balto-eslavo (sem código ISO 639-5)
Nota:
- Códigos de família de idiomas (ISO 639-5) NÃO são válidos como etiquetas de idioma principal BCP 47 padrão, por isso implementamos usando x-proto
- Eles são válidos e preferidos dentro de extensões de uso privado (após
x-
) - Portanto, todas as etiquetas de protolíngua devem começar com
x-
para estar em conformidade com BCP 47
7. Classificador histórico (hist
ou h
)
Identifica períodos históricos ou estágios de uma língua.
Formato:
- Longo:
language-x-hist-[period]
- Curto:
language-x-h-[period]
Exemplos:
en-x-hist-old
ouen-x-h-old
- Período do inglês antigoen-x-hist-middle
ouen-x-h-middle
- Período do inglês médioja-x-hist-kobun
ouja-x-h-kobun
- Japonês clássico (古文)ko-x-hist-hunmin
ouko-x-h-hunmin
- Coreano médio (훈민정음 período)el-x-hist-koine
ouel-x-h-koine
- Grego koiné (Κοινή)sa-x-hist-vedic
ousa-x-h-vedic
- Sânscrito védico (वैदिक)
8. Classificador de gênero (genre
ou e
)
Identifica gênero textual ou estilo literário.
Formato:
- Longo:
language-x-genre-[genre_type]
- Curto:
language-x-e-[genre_type]
Exemplos:
en-x-genre-news
ouen-x-e-news
- Inglês jornalísticoja-x-genre-manga
ouja-x-e-manga
- Japonês de mangá (漫画)ko-x-genre-webtoon
ouko-x-e-webtoon
- Coreano de webtoon (웹툰)zh-x-genre-shi
ouzh-x-e-shi
- Poesia chinesa (詩)fr-x-genre-bd
oufr-x-e-bd
- Quadrinhos franceses (bande dessinée)de-x-genre-marchen
oude-x-e-marchen
- Contos de fadas alemães (Märchen)
9. Classificador de meio (medium
ou m
)
Identifica o meio de comunicação.
Formato:
- Longo:
language-x-medium-[medium_type]
- Curto:
language-x-m-[medium_type]
Exemplos:
en-x-medium-spoken
ouen-x-m-spoken
- Inglês faladoko-x-medium-digital
ouko-x-m-digital
- Coreano digital/onlineja-x-medium-written
ouja-x-m-written
- Japonês escritohi-x-medium-bcast
ouhi-x-m-bcast
- Hindi transmitidozh-x-medium-sms
ouzh-x-m-sms
- Chinês SMS/mensagem de texto
10. Classificador socio (socio
ou s
)
Identifica socioleto ou variedades de grupos sociais.
Formato:
- Longo:
language-x-socio-[social_group]
- Curto:
language-x-s-[social_group]
Exemplos:
en-x-socio-academic
ouen-x-s-academic
- Socioleto acadêmicoen-x-socio-urban
ouen-x-s-urban
- Socioleto urbanoes-x-socio-juvenil
oues-x-s-juvenil
- Socioleto juvenil espanhol (jerga juvenil)fr-x-socio-jeune
oufr-x-s-jeune
- Socioleto juvenil francêsde-x-socio-jugend
oude-x-s-jugend
- Socioleto juvenil alemão (Jugendsprache)ko-x-socio-online
ouko-x-s-online
- Socioleto coreano online
11. Classificador de modalidade (modality
ou o
)
Identifica o modo fundamental de produção linguística.
Formato:
- Longo:
language-x-modality-[mode]
- Curto:
language-x-o-[mode]
Exemplos:
en-x-modality-spoken
ouen-x-o-spoken
- Inglês faladoen-x-modality-written
ouen-x-o-written
- Inglês escritoasl-x-modality-signed
ouasl-x-o-signed
- Língua de sinais americanaen-x-modality-multi
ouen-x-o-multi
- Inglês multimodal (fala + gestos)fr-x-modality-tactile
oufr-x-o-tactile
- Francês tátil (para surdocegos)
12. Classificador de registro (register
ou r
)
Identifica registro linguístico ou variedade funcional do uso linguístico.
Formato:
- Longo:
language-x-register-[register_type]
- Curto:
language-x-r-[register_type]
Exemplos:
en-x-register-frozen
ouen-x-r-frozen
- Registro congelado (orações, juramentos)en-x-register-formal
ouen-x-r-formal
- Registro formal (artigos acadêmicos)en-x-register-consult
ouen-x-r-consult
- Registro consultivo (profissional)en-x-register-casual
ouen-x-r-casual
- Registro casual (amigos)en-x-register-intimate
ouen-x-r-intimate
- Registro íntimo (família)
13. Classificador de função pragmática (pragma
ou u
)
Identifica função comunicativa ou ato de fala.
Formato:
- Longo:
language-x-pragma-[function]
- Curto:
language-x-u-[function]
Exemplos:
en-x-pragma-request
ouen-x-u-request
- Função de solicitaçãoja-x-pragma-apology
ouja-x-u-apology
- Função de desculpaes-x-pragma-complmnt
oues-x-u-complmnt
- Função de elogioar-x-pragma-greeting
ouar-x-u-greeting
- Função de saudaçãozh-x-pragma-refusal
ouzh-x-u-refusal
- Função de recusa
14. Classificador de marcação temporal (temporal
ou t
)
Identifica aspectos temporais ou padrões de uso temporal.
Formato:
- Longo:
language-x-temporal-[aspect]
- Curto:
language-x-t-[aspect]
Exemplos:
en-x-temporal-past
ouen-x-t-past
- Discurso orientado ao passadoja-x-temporal-nonpast
ouja-x-t-nonpast
- Foco não-passadoid-x-temporal-atemprl
ouid-x-t-atemprl
- Atemporal/sem tempofr-x-temporal-future
oufr-x-t-future
- Orientado ao futurozh-x-temporal-aspect
ouzh-x-t-aspect
- Foco aspectual
15. Classificador evidencial (evidence
ou v
)
Identifica marcação de fonte de informação.
Formato:
- Longo:
language-x-evidence-[source]
- Curto:
language-x-v-[source]
Exemplos:
qu-x-evidence-direct
ouqu-x-v-direct
- Testemunha diretatr-x-evidence-hearsay
outr-x-v-hearsay
- Boato/reportadoja-x-evidence-infer
ouja-x-v-infer
- Inferencialen-x-evidence-assume
ouen-x-v-assume
- Assumidode-x-evidence-quote
oude-x-v-quote
- Citativo
16. Classificador de afeto/emoção (affect
ou k
)
Identifica tom emocional ou afeto.
Formato:
- Longo:
language-x-affect-[emotion]
- Curto:
language-x-k-[emotion]
Exemplos:
en-x-affect-angry
ouen-x-k-angry
- Tom raivosoja-x-affect-humble
ouja-x-k-humble
- Afeto humildees-x-affect-joyful
oues-x-k-joyful
- Expressão alegreko-x-affect-sad
ouko-x-k-sad
- Triste/melancólicofr-x-affect-neutral
oufr-x-k-neutral
- Afeto neutro
17. Classificador de idade/geração (age
ou n
)
Identifica variedades linguísticas relacionadas à idade ou geração.
Formato:
- Longo:
language-x-age-[generation]
- Curto:
language-x-n-[generation]
Exemplos:
en-x-age-child
ouen-x-n-child
- Fala infantilja-x-age-teen
ouja-x-n-teen
- Linguagem adolescenteko-x-age-elder
ouko-x-n-elder
- Fala de idososes-x-age-genz
oues-x-n-genz
- Geração Zzh-x-age-millenl
ouzh-x-n-millenl
- Fala millennial
18. Classificador de gênero (gender
ou i
)
Identifica variedades linguísticas relacionadas ao gênero.
Formato:
- Longo:
language-x-gender-[identity]
- Curto:
language-x-i-[identity]
19. Classificador de nível de expertise (expert
ou b
)
Identifica o nível de expertise de domínio em uma escala de 0-10.
Formato:
- Longo:
language-x-expert-[0-10]
- Curto:
language-x-b-[0-10]
Escala de expertise:
- 0 = Sem conhecimento
- 1-2 = Iniciante
- 3-4 = Intermediário
- 5-6 = Avançado
- 7-8 = Expert
- 9-10 = Mestre/Autoridade
Exemplos:
en-x-expert-0
ouen-x-b-0
- Sem expertisede-x-expert-3
oude-x-b-3
- Nível intermediárioja-x-expert-7
ouja-x-b-7
- Nível expertes-x-expert-9
oues-x-b-9
- Nível mestrezh-x-expert-5
ouzh-x-b-5
- Nível avançado
20. Classificador de estrutura interacional (interact
ou 2
)
Identifica padrões conversacionais ou interacionais.
Formato:
- Longo:
language-x-interact-[structure]
- Curto:
language-x-2-[structure]
Exemplos:
en-x-interact-turn
ouen-x-2-turn
- Tomada de turnoja-x-interact-overlap
ouja-x-2-overlap
- Fala sobrepostaes-x-interact-monolog
oues-x-2-monolog
- Monológicoar-x-interact-dialog
ouar-x-2-dialog
- Dialógicozh-x-interact-multi
ouzh-x-2-multi
- Multipartidário
21. Classificador de características prosódicas (prosody
ou y
)
Identifica características prosódicas ou suprassegmentais.
Formato:
- Longo:
language-x-prosody-[feature]
- Curto:
language-x-y-[feature]
Exemplos:
en-x-prosody-stress
ouen-x-y-stress
- Ritmo acentualja-x-prosody-pitch
ouja-x-y-pitch
- Acento tonalfr-x-prosody-syllable
oufr-x-y-syllable
- Ritmo silábicozh-x-prosody-tone
ouzh-x-y-tone
- Padrões tonaises-x-prosody-rhythm
oues-x-y-rhythm
- Padrões rítmicos
22. Classificador de densidade lexical (lexical
ou l
)
Identifica densidade lexical como valor numérico (0-100).
Formato:
- Longo:
language-x-lexical-[0-100]
- Curto:
language-x-l-[0-100]
Exemplos:
en-x-lexical-20
ouen-x-l-20
- Baixa densidade (20%)de-x-lexical-55
oude-x-l-55
- Densidade média (55%)ja-x-lexical-75
ouja-x-l-75
- Alta densidade (75%)es-x-lexical-40
oues-x-l-40
- Densidade moderada (40%)zh-x-lexical-85
ouzh-x-l-85
- Densidade muito alta (85%)
23. Classificador de complexidade sintática (syntax
ou z
)
Identifica complexidade sintática como valor numérico (0-100).
Formato:
- Longo:
language-x-syntax-[0-100]
- Curto:
language-x-z-[0-100]
Exemplos:
en-x-syntax-15
ouen-x-z-15
- Sintaxe simples (15%)de-x-syntax-70
oude-x-z-70
- Sintaxe complexa (70%)ja-x-syntax-45
ouja-x-z-45
- Complexidade moderada (45%)es-x-syntax-30
oues-x-z-30
- Baixa complexidade (30%)zh-x-syntax-60
ouzh-x-z-60
- Alta complexidade (60%)
24. Classificador de data de início (start
ou 0
)
Identifica data de início do uso linguístico (formato ISO 8601 sem pontuação).
Formato:
- Longo:
language-x-start-[YYYYMMDD]
- Curto:
language-x-0-[YYYYMMDD]
Formatos de data:
- Data completa: YYYYMMDD
- Ano-mês: YYYYMM
- Apenas ano: YYYY
Exemplos:
en-x-start-20240315
ouen-x-0-20240315
- Inglês começando em 15 de março de 2024ja-x-start-19890108
ouja-x-0-19890108
- Japonês começando em 8 de janeiro de 1989es-x-start-202403
oues-x-0-202403
- Espanhol começando em março de 2024
25. Classificador de data de término (end
ou 1
)
Identifica data de término do uso linguístico (formato ISO 8601 sem pontuação).
Formato:
- Longo:
language-x-end-[YYYYMMDD]
- Curto:
language-x-1-[YYYYMMDD]
Formatos de data:
- Data completa: YYYYMMDD
- Ano-mês: YYYYMM
- Apenas ano: YYYY
Exemplos:
en-x-end-20240415
ouen-x-1-20240415
- Inglês terminando em 15 de abril de 2024ja-x-end-20190430
ouja-x-1-20190430
- Japonês terminando em 30 de abril de 2019es-x-end-202412
oues-x-1-202412
- Espanhol terminando em dezembro de 2024
26. Classificador de tabu (taboo
ou j
)
Identifica o nível de conteúdo tabu, vulgar ou ofensivo.
Formato:
- Longo:
language-x-taboo-[0-5]
- Curto:
language-x-j-[0-5]
Exemplos:
en-x-taboo-0
ouen-x-j-0
- Sem conteúdo tabuen-x-taboo-3
ouen-x-j-3
- Nível moderado de tabuja-x-form-5-taboo-4
ouja-x-f-5-j-4
- Japonês muito casual com alto nível de tabu
27. Classificador de confiança (conf
ou c
)
Indica a pontuação de confiança para o classificador imediatamente anterior.
Formato:
- Longo:
language-x-[classifier]-[value]-conf-[0-100]
- Curto:
language-x-[classifier]-[value]-c-[0-100]
Comportamento especial:
- A pontuação de confiança se aplica ao classificador imediatamente anterior
- Múltiplas pontuações de confiança podem ser usadas para diferentes classificadores
- Se não houver classificador precedente, a confiança se aplica à etiqueta de idioma base
Exemplos:
en-x-form-3-conf-95
ouen-x-f-3-c-95
- Formalidade neutra com 95% de confiançako-x-polite-2-conf-80-domain-med-conf-60
ouko-x-p-2-c-80-d-med-c-60
- Muito polido (80% confiança) coreano médico (60% confiança)ja-x-hist-kobun-conf-100
ouja-x-h-kobun-c-100
- Japonês clássico com 100% de confiançax-proto-ine-conf-75
oux-a-ine-c-75
- Proto-indo-europeu com 75% de confiança
Classificações múltiplas
LVTag suporta múltiplos classificadores em uma única etiqueta para fornecer identificação linguística precisa. Formas longas e curtas podem ser misturadas:
ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
Os exemplos acima mostram coreano com formalidade informal (4) mas fala polida (2) em contexto de negócios.
Valores válidos
Nota: Todos os valores devem ter 8 caracteres ou menos para cumprir as restrições de comprimento de subetiqueta BCP 47. Embora valores específicos para muitos classificadores devam ser estabelecidos através de uso especializado e consenso da comunidade, escalas numéricas, formatos de data e valores básicos listados abaixo são definidos neste padrão.
Escala de formalidade (Universal)
Nível | Descrição | Exemplos |
---|---|---|
1 | Mais formal | Documentos legais, cerimônias oficiais, artigos acadêmicos |
2 | Formal | Cartas comerciais, artigos de notícias, apresentações |
3 | Neutro | Conversa padrão, e-mail, escrita geral |
4 | Informal | Conversa casual, blogs pessoais, mensagens de texto |
5 | Mais casual | Gíria, conversa íntima, mídia social |
Escala de polidez (Universal)
Nível | Descrição | Exemplos |
---|---|---|
1 | Mais respeitoso | Endereço real, líderes religiosos, respeito aos idosos |
2 | Muito polido | Atendimento ao cliente, reuniões formais, professores |
3 | Polido/neutro | Interações padrão, colegas |
4 | Familiar | Amigos, pares, conhecidos casuais |
5 | Íntimo/simples | Família próxima, parceiros íntimos |
Escala de expertise (Universal)
Nível | Descrição |
---|---|
0 | Sem conhecimento |
1-2 | Iniciante |
3-4 | Intermediário |
5-6 | Avançado |
7-8 | Expert |
9-10 | Mestre/Autoridade |
Escala de tabu (Universal)
Nível | Descrição |
---|---|
0 | Sem conteúdo tabu |
1 | Tabu leve |
2 | Tabu baixo |
3 | Tabu moderado |
4 | Tabu alto |
5 | Tabu extremo |
Escala de densidade lexical (Universal)
Nível | Descrição |
---|---|
0-20 | Densidade muito baixa |
21-40 | Densidade baixa |
41-60 | Densidade moderada |
61-80 | Densidade alta |
81-100 | Densidade muito alta |
Escala de complexidade sintática (Universal)
Nível | Descrição |
---|---|
0-20 | Muito simples |
21-40 | Simples |
41-60 | Complexidade moderada |
61-80 | Complexo |
81-100 | Muito complexo |
Valores de domínio
Valor | Descrição |
---|---|
legal |
Terminologia jurídica |
med |
Terminologia médica |
tech |
Técnico/TI |
business |
Negócios/corporativo |
fin |
Finanças/bancário |
acad |
Acadêmico/erudito |
sci |
Científico/pesquisa |
Exemplos de implementação
Classificador único (Forma longa)
# Coreano mais formal
ko-x-form-1
# Japonês muito polido
ja-x-polite-2
# Inglês jurídico
en-x-domain-legal
# Coreano de Gyeongsang
ko-x-geo-gyeong
# Proto-indo-europeu
x-proto-ine
Classificador único (Forma curta)
# Coreano mais formal
ko-x-f-1
# Japonês muito polido
ja-x-p-2
# Inglês jurídico
en-x-d-legal
# Coreano de Gyeongsang
ko-x-g-gyeong
# Proto-indo-europeu
x-a-ine
Múltiplos classificadores
# Linguagem de negócios coreana informal mas polida
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
# Linguagem médica japonesa formal e respeitosa
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med
# Vietnamita do sul com formalidade neutra, fala polida, domínio técnico
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech
# Classificação complexa com múltiplas dimensões
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written
# Variedades linguísticas mostrando distinção formalidade/polidez
ko-x-f-5-p-2 # Muito casual mas polido (para um amigo mais velho)
ko-x-f-1-p-4 # Muito formal mas familiar (escrito para um colega)
ja-x-f-4-p-1 # Formalidade casual mas mais alto respeito
en-x-f-5-j-4 # Inglês muito casual com alto nível de tabu
Casos de uso
- Aplicações de aprendizado de idiomas
- Ensinar registro apropriado para diferentes contextos sociais
- Fornecer treinamento de vocabulário específico de domínio
- Tradução automática
- Manter consistência de registro nas traduções
- Aplicar terminologia específica de domínio
- Classificação de conteúdo
- Categorizar automaticamente texto por formalidade e domínio
- Direcionar conteúdo para revisores ou sistemas apropriados
- Linguística de corpus
- Construir corpora etiquetados para pesquisa linguística
- Estudar variação de registro e domínio
Regras de validação
- Comprimento de subetiqueta: Cada subetiqueta após
x-
deve ter 8 caracteres ou menos - Ordem: Classificadores podem aparecer em qualquer ordem após
x-
- Unicidade: Cada tipo de classificador deve aparecer apenas uma vez por etiqueta (exceto
conf
que pode aparecer múltiplas vezes) - Maiúsculas/minúsculas: Etiquetas devem ser em minúsculas (sem distinção de maiúsculas conforme BCP 47)
- Etiquetas mágicas: Etiquetas de forma curta são caracteres únicos;
q
,3
-9
são reservados para uso futuro - Mistura: Formas longas e curtas podem ser misturadas dentro da mesma etiqueta
- Etiquetas proto: Devem começar com
x-
e DEVEM usar códigos ISO 639-5 quando disponíveis (ex.:x-proto-sla
nãox-proto-slavic
) - Confiança: Classificador
conf
/c
se aplica ao classificador imediatamente anterior - Valores numéricos: Devem estar dentro dos intervalos definidos (0-5 para tabu, 0-10 para expertise, 0-100 para valores percentuais)
- Formato de data: Datas usam ISO 8601 sem pontuação (YYYY, YYYYMM ou YYYYMMDD)
Compatibilidade
O formato LVTag é totalmente compatível com:
- BCP 47 (RFC 5646)
- Códigos de idioma ISO 639
- Registro de Subetiquetas de Idiomas IANA
- Unicode CLDR
Benefícios
- Precisão: Permite identificação detalhada de variedades linguísticas
- Extensibilidade: Novos registros e domínios podem ser adicionados
- Baseado em padrões: Construído sobre o mecanismo estabelecido de uso privado BCP 47
- Legível por máquina: Formato sistemático permite processamento automatizado
- Legível por humanos: Subetiquetas claras e descritivas
- Flexibilidade: Suporte para etiquetas de forma longa detalhada e forma curta concisa
- Concisão: Etiquetas mágicas curtas permitem representação compacta mantendo clareza
Extensões futuras
LVTag é projetado para evoluir com as necessidades da comunidade de tecnologia linguística. Recebemos sugestões para novos classificadores, melhorias aos existentes e feedback de implementações do mundo real.
Para propor extensões ou contribuir com a especificação:
- Abra uma issue em github.com/lvtag/spec
- Participe da discussão sobre propostas existentes
- Compartilhe suas experiências de implementação
- Envie pull requests para melhorias de documentação
Os códigos de caractere único reservados (q
, 3
-9
) estão disponíveis para futuras extensões padronizadas.
Referências
Licença e concessão de patentes
Esta especificação é lançada sob CC0 1.0 Universal (Dedicação ao Domínio Público).
Por que CC0: Para garantir máxima adoção e liberdade de implementação, LVTag é colocado no domínio público. Isso significa:
- Nenhuma permissão necessária para usar, implementar ou modificar
- Nenhuma atribuição necessária (embora apreciada)
- Sem barreiras legais para uso comercial ou governamental
- Compatível com todas as licenças de software
- Usado por padrões importantes como Unicode CLDR
Concessão de patentes: Quaisquer patentes que cubram a especificação LVTag são licenciadas sem royalties para qualquer implementação em conformidade com esta especificação.
Sem endosso: O uso de LVTag não implica endosso pelos autores da especificação.
Na medida permitida por lei, Danslav Slavenskoj renunciou a todos os direitos autorais e direitos relacionados ou conexos à Especificação do Formato Language Variant Tag (LVTag). Este trabalho é publicado dos: Estados Unidos da América.