
LVTag specifikacija
Verzija 1.0
Stvorio: Danslav Slavenskoj
Datum: Svibanj 2025
Jezici: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски
Brze poveznice
- JSON Schema - Potpuna validacijska shema za LVTag format
- Definicije klasifikatora - Strojno čitljive specifikacije klasifikatora
- Specifikacija - Skok na detalje formata
- Primjeri - Pogledajte LVTag u akciji
Pregled
Language Variant Tag (LVTag) format je sustavni pristup klasifikaciji jezika koji proširuje BCP 47 standard korištenjem privatnih podoznaka. Omogućuje preciznu identifikaciju jezičnih varijanti kroz više dimenzija uključujući formalnost, pristojnost, domenu i ortografiju.
Ključne prednosti
Rigoroznost klasifikacije: LVTag donosi sustavnu organizaciju u označavanje jezika pružajući jasne, odvojene dimenzije za različite tipove varijacija. Za razliku od postojećih podoznaka i sustava koji miješaju različite kategorije na istoj razini, LVTag održava striktno odvajanje između formalnosti, pristojnosti, domene i drugih dimenzija.
Kompatibilnost sa standardima: LVTag je potpuno kompatibilan s BCP 47 (RFC 5646) i besprijekorno funkcionira s:
- IANA Language Subtag Registry
- ISO 639 jezični kodovi
- Unicode CLDR
- W3C jezične oznake
- HTTP Accept-Language zaglavlja
- XML lang atributi
- HTML lang atributi
Tehnološka integracija: LVTag oznake mogu se izravno koristiti u:
- Natural Language Processing (NLP) cjevovodima
- Sustavima strojnog prevođenja
- Content Management sustavima (CMS)
- Bibliotekama za detekciju jezika
- Tražilicama i sustavima za pronalaženje informacija
- Web aplikacijama i API-jima
- Lokalizacijskim tijekovima rada
Slučajevi uporabe:
- Ciljanje publike: Prilagođavanje sadržaja odgovarajućoj publici na temelju registra i domene
- Kvaliteta prijevoda: Održavanje odgovarajućih razina formalnosti i pristojnosti u strojnom prijevodu
- Učenje jezika: Učenje učenika odgovarajućem registru za različite kontekste
- Korpusna lingvistika: Izgradnja precizno označenih korpusa za istraživanje
- Analiza društvenih medija: Klasificiranje korisničkog sadržaja prema registru i domeni
- Korisnička služba: Usmjeravanje poruka na temelju formalnosti i domene odgovarajućim agentima
Obrazloženje
Dok BCP 47 pruža izvrsnu podršku za identifikaciju jezika, pisama i regija, nedostaju mu standardizirani mehanizmi za hvatanje sociolingvističkih varijacija unutar jezika. Trenutni standardi ne adresiraju:
- Varijacije registra: Nema načina razlikovanja između formalnih i neformalnih varijanti istog jezika
- Razine pristojnosti: Kritično za jezike poput japanskog, korejskog i tajlandskog gdje je pristojnost gramatički kodirana
- Domenski specifičan jezik: Nema standarda za označavanje tehničkih, medicinskih ili pravnih jezičnih varijanti
- Socijalekti: Nema mehanizma za identifikaciju varijanti društvenih grupa (jezik mladih, profesionalni žargon)
- Povijesne faze: Ograničena podrška za razlikovanje klasičnih od modernih oblika
- Gradijenti formalnosti: Nema numeričke skale za računalnu obradu registra
- Prajezici: Nekonzistentno kodiranje - neki prajezici imaju ISO kodove (npr.
ine
za PIE) dok drugi nemaju, a ISO 639-5 obiteljski kodovi nisu valjani u BCP 47 oznakama, stvarajući zbunjujući krajolik za povijesnu lingvistiku - Ortografske varijacije: Dok BCP 47 rukuje pismima, ne hvata učinkovito varijacije unutar pisama (pravopisne reforme, romanizacijski sustavi, konkurentski standardi) koje fundamentalno utječu na obradu teksta, pretraživanje i provjeru pravopisa
LVTag ispunjava ove praznine koristeći BCP 47 mehanizam privatne uporabe (-x-
), pružajući sustavni, strojno čitljiv način kodiranja ovih kritičnih dimenzija jezične varijacije uz održavanje potpune povratne kompatibilnosti.
Precizna jezična klasifikacija
Pojava velikih jezičnih modela i sofisticiranih NLP alata učinila je preciznu klasifikaciju jezičnih varijanti ne samo korisnom već i nužnom. Moderni sustavi trebaju:
- Generirati tekst prikladan za specifične kontekste (formalni vs. neformalni, pristojan vs. ležeran)
- Trenirati na ispravno klasificiranim korpusima kako bi izbjegli neprimjereno miješanje registara
- Pružati kulturno i kontekstualno prikladne odgovore
- Točno rukovati prebacivanjem koda i miješanim jezičnim sadržajem
- Sačuvati stilističku dosljednost pri prevođenju ili transformaciji teksta
- Filtrirati podatke za treniranje na temelju formalnosti, domene ili drugih karakteristika
- Prilagoditi izlaz prema preferencijama ili zahtjevima korisnika
LVTag pruža granularne metapodatke potrebne za razumijevanje ne samo koji se jezik koristi, već kako se koristi, omogućujući nijansiranije i prikladnije cjevovode za obradu jezika.
Specifikacija formata
Osnovna struktura
language-x-[classifier]-[value]-[classifier2]-[value2]...
Gdje:
language
je valjana BCP 47 primarna jezična podoznaka (npr.en
,ko
,ja
)x
označava početak podoznaka privatne uporabeclassifier
je identifikator kategorije (vidi Čarobne oznake ispod)value
je specifična klasifikacija unutar te kategorije
Čarobne oznake
LVTag podržava i dugačke i kratke “čarobne” klasifikatore za fleksibilnost:
Dugački oblik | Kratki oblik | Opis |
---|---|---|
ortho |
w |
Ortografska varijanta |
form |
f |
Razina formalnosti (skala 1-5) |
polite |
p |
Razina pristojnosti/poštovanja (skala 1-5) |
domain |
d |
Specijalizirani vokabular ili profesionalni kontekst |
geo |
g |
Geografska ili regionalna varijanta |
proto |
a |
Prajezik ili rekonstruirani jezik |
hist |
h |
Povijesno razdoblje ili faza jezika |
genre |
e |
Tekstualni žanr ili književni stil |
medium |
m |
Komunikacijski medij (govoren, pisan, digitalni) |
socio |
s |
Sociolekt ili varijanta društvene grupe |
modality |
o |
Način jezične produkcije |
register |
r |
Jezični registar |
pragma |
u |
Komunikacijska funkcija |
temporal |
t |
Vremenska oznaka |
evidence |
v |
Izvor informacija |
affect |
k |
Emocionalni ton |
age |
n |
Dobna/generacijska varijanta |
gender |
i |
Rodna varijanta |
expert |
b |
Razina stručnosti |
interact |
2 |
Interakcijska struktura |
prosody |
y |
Prozodijska obilježja |
lexical |
l |
Leksička gustoća (0-100) |
syntax |
z |
Sintaktička složenost (0-100) |
start |
0 |
Datum početka (ISO 8601 bez interpunkcije) |
end |
1 |
Datum kraja (ISO 8601 bez interpunkcije) |
taboo |
j |
Razina tabu/vulgarnog sadržaja (skala 0-5) |
conf |
c |
Ocjena pouzdanosti (0-100) za prethodnu oznaku |
— | q , 3 -9 |
Rezervirano za buduću uporabu |
Klasifikatori
1. Ortografski klasifikator (ortho
ili w
)
Identificira specifične ortografske konvencije ili varijante pisanja izvan standardnih oznaka pisma.
Format:
- Dugački:
language-x-ortho-[variant]
- Kratki:
language-x-w-[variant]
Primjeri (kombinirani sa standardnim oznakama pisma):
az-Latn-x-ortho-new
iliaz-Latn-x-w-new
- Azerbajdžanski latinski, nova ortografijade-Latn-x-ortho-1901
ilide-Latn-x-w-1901
- Njemački latinski, ortografija iz 1901zh-Hans-x-ortho-pinyin
ilizh-Hans-x-w-pinyin
- Pojednostavljeni kineski s pinyinyi-Hebr-x-ortho-yivo
iliyi-Hebr-x-w-yivo
- Jidiš hebrejski, YIVO ortografija
2. Klasifikator formalnosti (form
ili f
)
Identificira razinu formalnosti uporabe jezika.
Format:
- Dugački:
language-x-form-[1-5]
- Kratki:
language-x-f-[1-5]
Skala formalnosti:
- 1 = Najformalniji (pisani dokumenti, službeni govori)
- 2 = Formalan (poslovni sastanci, akademsko pisanje)
- 3 = Neutralan/standardan (vijesti, opći razgovor)
- 4 = Neformalan (ležeran razgovor, e-mailovi prijateljima)
- 5 = Najležerniji (intimni razgovor, sleng)
Primjeri:
ko-x-form-1
iliko-x-f-1
- Najformalniji korejskien-x-form-3
ilien-x-f-3
- Neutralni engleskija-x-form-5
ilija-x-f-5
- Najležerniji japanski
3. Klasifikator pristojnosti (polite
ili p
)
Identificira razinu pristojnosti/poštovanja uporabe jezika.
Format:
- Dugački:
language-x-polite-[1-5]
- Kratki:
language-x-p-[1-5]
Skala pristojnosti:
- 1 = Najpristojniji/najponorniji (kraljevsko obraćanje, vjerski konteksti)
- 2 = Vrlo pristojan (formalne časti, pun poštovanja govor)
- 3 = Pristojan/neutralan (standardna pristojnost)
- 4 = Familijarno (među jednakima, prijateljima)
- 5 = Intimno/jednostavno (obitelj, vrlo bliski prijatelji)
Primjeri:
ko-x-polite-1
iliko-x-p-1
- Korejski s najvišim poštovanjemja-x-polite-2
ilija-x-p-2
- Vrlo pristojni japanskith-x-polite-3
ilith-x-p-3
- Standardno pristojni tajlandski
4. Domenski klasifikator (domain
ili d
)
Identificira specijalizirani vokabular ili profesionalni kontekst.
Format:
- Dugački:
language-x-domain-[domain_type]
- Kratki:
language-x-d-[domain_type]
Primjeri:
en-x-domain-legal
ilien-x-d-legal
- Pravni engleskija-x-domain-med
ilija-x-d-med
- Medicinski japanskiko-x-domain-business
iliko-x-d-business
- Poslovni korejskija-x-domain-tech
ilija-x-d-tech
- Tehnički japanskien-x-domain-fin
ilien-x-d-fin
- Financijski engleski
5. Geografski klasifikator (geo
ili g
)
Identificira regionalne ili geografske jezične varijante.
Format:
- Dugački:
language-x-geo-[region]
- Kratki:
language-x-g-[region]
Primjeri:
ko-x-geo-gyeong
iliko-x-g-gyeong
- Gyeongsang korejski (경상도)ko-x-geo-jeolla
iliko-x-g-jeolla
- Jeolla korejski (전라도)es-x-geo-riopla
ilies-x-g-riopla
- Rioplatense španjolskipt-x-geo-nordeste
ilipt-x-g-nordeste
- Sjeveroistočni brazilski portugalski
6. Proto klasifikator (proto
ili a
)
Identificira prajezike ili rekonstruirane povijesne jezike.
Format:
- Dugački:
x-proto-[iso639-5_code if available]
- Kratki:
x-a-[iso639-5_code if available]
Pravila:
- MORA koristiti ISO 639-5 kodove jezičnih obitelji kada su dostupni
- Koristiti opisne identifikatore samo kada ne postoji ISO 639-5 kod
Primjeri s ISO 639-5 kodovima:
x-proto-ine
ilix-a-ine
- Praindoeuropskix-proto-gem
ilix-a-gem
- Pragermanskix-proto-sla
ilix-a-sla
- Praslavenskix-proto-sem
ilix-a-sem
- Prasemitskix-proto-cel
ilix-a-cel
- Prakeltskix-proto-ira
ilix-a-ira
- Prairanskix-proto-inc
ilix-a-inc
- Praindoarijskix-proto-bat
ilix-a-bat
- Prabaltičkix-proto-roa
ilix-a-roa
- Praromanskix-proto-trk
ilix-a-trk
- Praturski
Primjeri bez ISO 639-5 kodova (opisni, duži od tri znaka):
x-proto-baltslav
ilix-a-baltslav
- Prabaltoslavenski (nema ISO 639-5 kod)
Napomena:
- Kodovi jezičnih obitelji (ISO 639-5) NISU valjani kao standardne primarne BCP 47 jezične oznake što je razlog zašto smo ih implementirali koristeći x-proto
- Oni su valjani i preferirani unutar privatnih proširenja (nakon
x-
) - Stoga sve proto-jezične oznake moraju počinjati s
x-
kako bi bile u skladu s BCP 47
7. Povijesni klasifikator (hist
ili h
)
Identificira povijesna razdoblja ili faze jezika.
Format:
- Dugački:
language-x-hist-[period]
- Kratki:
language-x-h-[period]
Primjeri:
en-x-hist-old
ilien-x-h-old
- Staroengleski perioden-x-hist-middle
ilien-x-h-middle
- Srednjoengleski periodja-x-hist-kobun
ilija-x-h-kobun
- Klasični japanski (古文)ko-x-hist-hunmin
iliko-x-h-hunmin
- Srednjokorejski (훈민정음 period)el-x-hist-koine
iliel-x-h-koine
- Koine grčki (Κοινή)sa-x-hist-vedic
ilisa-x-h-vedic
- Vedski sanskrt (वैदिक)
8. Žanrovski klasifikator (genre
ili e
)
Identificira tekstualni žanr ili književni stil.
Format:
- Dugački:
language-x-genre-[genre_type]
- Kratki:
language-x-e-[genre_type]
Primjeri:
en-x-genre-news
ilien-x-e-news
- Novinski engleskija-x-genre-manga
ilija-x-e-manga
- Manga japanski (漫画)ko-x-genre-webtoon
iliko-x-e-webtoon
- Korejski webtoon (웹툰)zh-x-genre-shi
ilizh-x-e-shi
- Kineska poezija (詩)fr-x-genre-bd
ilifr-x-e-bd
- Francuski stripovi (bande dessinée)de-x-genre-marchen
ilide-x-e-marchen
- Njemačke bajke (Märchen)
9. Medijski klasifikator (medium
ili m
)
Identificira komunikacijski medij.
Format:
- Dugački:
language-x-medium-[medium_type]
- Kratki:
language-x-m-[medium_type]
Primjeri:
en-x-medium-spoken
ilien-x-m-spoken
- Govoreni engleskiko-x-medium-digital
iliko-x-m-digital
- Digitalni/online korejskija-x-medium-written
ilija-x-m-written
- Pisani japanskihi-x-medium-bcast
ilihi-x-m-bcast
- Emitovani hindizh-x-medium-sms
ilizh-x-m-sms
- SMS/tekstualne poruke kineski
10. Socio klasifikator (socio
ili s
)
Identificira socijalekt ili varijante društvenih grupa.
Format:
- Dugački:
language-x-socio-[social_group]
- Kratki:
language-x-s-[social_group]
Primjeri:
en-x-socio-academic
ilien-x-s-academic
- Akademski socijalekten-x-socio-urban
ilien-x-s-urban
- Urbani socijalektes-x-socio-juvenil
ilies-x-s-juvenil
- Španjolski omladinski socijalekt (jerga juvenil)fr-x-socio-jeune
ilifr-x-s-jeune
- Francuski omladinski socijalektde-x-socio-jugend
ilide-x-s-jugend
- Njemački omladinski socijalekt (Jugendsprache)ko-x-socio-online
iliko-x-s-online
- Korejski online socijalekt
11. Modalitetski klasifikator (modality
ili o
)
Identificira temeljni način jezične produkcije.
Format:
- Dugački:
language-x-modality-[mode]
- Kratki:
language-x-o-[mode]
Primjeri:
en-x-modality-spoken
ilien-x-o-spoken
- Govoreni engleskien-x-modality-written
ilien-x-o-written
- Pisani engleskiasl-x-modality-signed
iliasl-x-o-signed
- Američki znakovni jeziken-x-modality-multi
ilien-x-o-multi
- Multimodalni engleski (govor + geste)fr-x-modality-tactile
ilifr-x-o-tactile
- Taktilni francuski (za gluhoslijepe)
12. Registarski klasifikator (register
ili r
)
Identificira jezični registar ili funkcionalnu varijantu uporabe jezika.
Format:
- Dugački:
language-x-register-[register_type]
- Kratki:
language-x-r-[register_type]
Primjeri:
en-x-register-frozen
ilien-x-r-frozen
- Zamrznuti registar (molitve, zavjeti)en-x-register-formal
ilien-x-r-formal
- Formalni registar (akademski radovi)en-x-register-consult
ilien-x-r-consult
- Konzultativni registar (profesionalni)en-x-register-casual
ilien-x-r-casual
- Ležerni registar (prijatelji)en-x-register-intimate
ilien-x-r-intimate
- Intimni registar (obitelj)
13. Pragmatički funkcijski klasifikator (pragma
ili u
)
Identificira komunikacijsku funkciju ili govorni čin.
Format:
- Dugački:
language-x-pragma-[function]
- Kratki:
language-x-u-[function]
Primjeri:
en-x-pragma-request
ilien-x-u-request
- Funkcija zahtjevaja-x-pragma-apology
ilija-x-u-apology
- Funkcija isprikees-x-pragma-complmnt
ilies-x-u-complmnt
- Funkcija komplimentaar-x-pragma-greeting
iliar-x-u-greeting
- Funkcija pozdravazh-x-pragma-refusal
ilizh-x-u-refusal
- Funkcija odbijanja
14. Vremenski klasifikator označavanja (temporal
ili t
)
Identificira vremenske aspekte ili obrasce uporabe vremena.
Format:
- Dugački:
language-x-temporal-[aspect]
- Kratki:
language-x-t-[aspect]
Primjeri:
en-x-temporal-past
ilien-x-t-past
- Diskurs orijentiran na prošlostja-x-temporal-nonpast
ilija-x-t-nonpast
- Fokus na ne-prošlostid-x-temporal-atemprl
iliid-x-t-atemprl
- Bezvremenski/atemporalnifr-x-temporal-future
ilifr-x-t-future
- Orijentiran na budućnostzh-x-temporal-aspect
ilizh-x-t-aspect
- Aspektualni fokus
15. Evidencijalni klasifikator (evidence
ili v
)
Identificira označavanje izvora informacija.
Format:
- Dugački:
language-x-evidence-[source]
- Kratki:
language-x-v-[source]
Primjeri:
qu-x-evidence-direct
iliqu-x-v-direct
- Izravni svjedoktr-x-evidence-hearsay
ilitr-x-v-hearsay
- Glasine/izvještenoja-x-evidence-infer
ilija-x-v-infer
- Inferencijalnoen-x-evidence-assume
ilien-x-v-assume
- Pretpostavljenode-x-evidence-quote
ilide-x-v-quote
- Citativ
16. Afekt/emocija klasifikator (affect
ili k
)
Identificira emocionalni ton ili afekt.
Format:
- Dugački:
language-x-affect-[emotion]
- Kratki:
language-x-k-[emotion]
Primjeri:
en-x-affect-angry
ilien-x-k-angry
- Ljutiti tonja-x-affect-humble
ilija-x-k-humble
- Skromni afektes-x-affect-joyful
ilies-x-k-joyful
- Radosni izrazko-x-affect-sad
iliko-x-k-sad
- Tužan/melankoličanfr-x-affect-neutral
ilifr-x-k-neutral
- Neutralni afekt
17. Dobni/generacijski klasifikator (age
ili n
)
Identificira dobno ili generacijski povezane jezične varijante.
Format:
- Dugački:
language-x-age-[generation]
- Kratki:
language-x-n-[generation]
Primjeri:
en-x-age-child
ilien-x-n-child
- Dječji govorja-x-age-teen
ilija-x-n-teen
- Tinejdžerski jezikko-x-age-elder
iliko-x-n-elder
- Govor starijihes-x-age-genz
ilies-x-n-genz
- Generacija Zzh-x-age-millenl
ilizh-x-n-millenl
- Milenijalski govor
18. Rodni klasifikator (gender
ili i
)
Identificira rodno povezane jezične varijante.
Format:
- Dugački:
language-x-gender-[identity]
- Kratki:
language-x-i-[identity]
19. Klasifikator razine stručnosti (expert
ili b
)
Identificira razinu domenske stručnosti na skali 0-10.
Format:
- Dugački:
language-x-expert-[0-10]
- Kratki:
language-x-b-[0-10]
Skala stručnosti:
- 0 = Bez znanja
- 1-2 = Početnik
- 3-4 = Srednja razina
- 5-6 = Napredna razina
- 7-8 = Stručnjak
- 9-10 = Majstor/Autoritet
Primjeri:
en-x-expert-0
ilien-x-b-0
- Bez stručnostide-x-expert-3
ilide-x-b-3
- Srednja razinaja-x-expert-7
ilija-x-b-7
- Stručna razinaes-x-expert-9
ilies-x-b-9
- Majstorska razinazh-x-expert-5
ilizh-x-b-5
- Napredna razina
20. Interakcijski strukturni klasifikator (interact
ili 2
)
Identificira konverzacijske ili interakcijske obrasce.
Format:
- Dugački:
language-x-interact-[structure]
- Kratki:
language-x-2-[structure]
Primjeri:
en-x-interact-turn
ilien-x-2-turn
- Izmjena redoslijedaja-x-interact-overlap
ilija-x-2-overlap
- Preklapajući govores-x-interact-monolog
ilies-x-2-monolog
- Monološkiar-x-interact-dialog
iliar-x-2-dialog
- Dijaloškizh-x-interact-multi
ilizh-x-2-multi
- Višestranački
21. Prozodijski klasifikator obilježja (prosody
ili y
)
Identificira prozodijska ili suprasegmentalna obilježja.
Format:
- Dugački:
language-x-prosody-[feature]
- Kratki:
language-x-y-[feature]
Primjeri:
en-x-prosody-stress
ilien-x-y-stress
- Vremenski naglasakja-x-prosody-pitch
ilija-x-y-pitch
- Tonski naglasakfr-x-prosody-syllable
ilifr-x-y-syllable
- Slogovno tempiranjezh-x-prosody-tone
ilizh-x-y-tone
- Tonski obrascies-x-prosody-rhythm
ilies-x-y-rhythm
- Ritmički obrasci
22. Leksički gustoća klasifikator (lexical
ili l
)
Identificira leksičku gustoću kao numeričku vrijednost (0-100).
Format:
- Dugački:
language-x-lexical-[0-100]
- Kratki:
language-x-l-[0-100]
Primjeri:
en-x-lexical-20
ilien-x-l-20
- Niska gustoća (20%)de-x-lexical-55
ilide-x-l-55
- Srednja gustoća (55%)ja-x-lexical-75
ilija-x-l-75
- Visoka gustoća (75%)es-x-lexical-40
ilies-x-l-40
- Umjerena gustoća (40%)zh-x-lexical-85
ilizh-x-l-85
- Vrlo visoka gustoća (85%)
23. Sintaktička složenost klasifikator (syntax
ili z
)
Identificira sintaktičku složenost kao numeričku vrijednost (0-100).
Format:
- Dugački:
language-x-syntax-[0-100]
- Kratki:
language-x-z-[0-100]
Primjeri:
en-x-syntax-15
ilien-x-z-15
- Jednostavna sintaksa (15%)de-x-syntax-70
ilide-x-z-70
- Složena sintaksa (70%)ja-x-syntax-45
ilija-x-z-45
- Umjerena složenost (45%)es-x-syntax-30
ilies-x-z-30
- Niska složenost (30%)zh-x-syntax-60
ilizh-x-z-60
- Visoka složenost (60%)
24. Klasifikator datuma početka (start
ili 0
)
Identificira datum početka uporabe jezika (ISO 8601 format bez interpunkcije).
Format:
- Dugački:
language-x-start-[YYYYMMDD]
- Kratki:
language-x-0-[YYYYMMDD]
Formati datuma:
- Potpuni datum: YYYYMMDD
- Godina-mjesec: YYYYMM
- Samo godina: YYYY
Primjeri:
en-x-start-20240315
ilien-x-0-20240315
- Engleski koji počinje 15. ožujka 2024ja-x-start-19890108
ilija-x-0-19890108
- Japanski koji počinje 8. siječnja 1989es-x-start-202403
ilies-x-0-202403
- Španjolski koji počinje u ožujku 2024
25. Klasifikator datuma kraja (end
ili 1
)
Identificira datum kraja uporabe jezika (ISO 8601 format bez interpunkcije).
Format:
- Dugački:
language-x-end-[YYYYMMDD]
- Kratki:
language-x-1-[YYYYMMDD]
Formati datuma:
- Potpuni datum: YYYYMMDD
- Godina-mjesec: YYYYMM
- Samo godina: YYYY
Primjeri:
en-x-end-20240415
ilien-x-1-20240415
- Engleski koji završava 15. travnja 2024ja-x-end-20190430
ilija-x-1-20190430
- Japanski koji završava 30. travnja 2019es-x-end-202412
ilies-x-1-202412
- Španjolski koji završava u prosincu 2024
26. Tabu klasifikator (taboo
ili j
)
Identificira razinu tabu, vulgarnog ili uvredljivog sadržaja.
Format:
- Dugački:
language-x-taboo-[0-5]
- Kratki:
language-x-j-[0-5]
Primjeri:
en-x-taboo-0
ilien-x-j-0
- Bez tabu sadržajaen-x-taboo-3
ilien-x-j-3
- Umjerena razina tabuaja-x-form-5-taboo-4
ilija-x-f-5-j-4
- Vrlo ležerni japanski s visokom razinom tabua
27. Klasifikator pouzdanosti (conf
ili c
)
Označava ocjenu pouzdanosti za neposredno prethodni klasifikator.
Format:
- Dugački:
language-x-[classifier]-[value]-conf-[0-100]
- Kratki:
language-x-[classifier]-[value]-c-[0-100]
Posebno ponašanje:
- Ocjena pouzdanosti odnosi se na klasifikator neposredno prije njega
- Više ocjena pouzdanosti može se koristiti za različite klasifikatore
- Ako ne prethodi klasifikator, pouzdanost se odnosi na osnovnu jezičnu oznaku
Primjeri:
en-x-form-3-conf-95
ilien-x-f-3-c-95
- Neutralna formalnost s 95% pouzdanostiko-x-polite-2-conf-80-domain-med-conf-60
iliko-x-p-2-c-80-d-med-c-60
- Vrlo pristojan (80% pouzdanosti) medicinski korejski (60% pouzdanosti)ja-x-hist-kobun-conf-100
ilija-x-h-kobun-c-100
- Klasični japanski sa 100% pouzdanostix-proto-ine-conf-75
ilix-a-ine-c-75
- Praindoeuropski sa 75% pouzdanosti
Višestruke klasifikacije
LVTag podržava više klasifikatora u jednoj oznaci za pružanje precizne identifikacije jezika. Dugački i kratki oblici mogu se miješati:
ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
Gornji primjeri pokazuju korejski s neformalnom formalnošću (4) ali pristojnim govorom (2) u poslovnom kontekstu.
Valjane vrijednosti
Napomena: Sve vrijednosti moraju biti 8 znakova ili kraće kako bi se udovoljilo ograničenjima duljine BCP 47 podoznaka. Dok se specifične vrijednosti za mnoge klasifikatore trebaju utvrditi stručnom uporabom i konsenzusom zajednice, numeričke skale, formati datuma i osnovne vrijednosti navedene ispod definirane su u ovom standardu.
Skala formalnosti (Univerzalna)
Razina | Opis | Primjeri |
---|---|---|
1 | Najformalniji | Pravni dokumenti, službene ceremonije, akademski radovi |
2 | Formalan | Poslovni dopisi, novinski članci, prezentacije |
3 | Neutralan | Standardni razgovor, e-mail, opće pisanje |
4 | Neformalan | Ležeran razgovor, osobni blogovi, tekstualne poruke |
5 | Najležerniji | Sleng, intimni razgovor, društveni mediji |
Skala pristojnosti (Univerzalna)
Razina | Opis | Primjeri |
---|---|---|
1 | Najpristojniji | Kraljevsko obraćanje, vjerski vođe, poštovanje starijih |
2 | Vrlo pristojan | Korisnička služba, formalni sastanci, učitelji |
3 | Pristojan/neutralan | Standardne interakcije, kolege |
4 | Familijarno | Prijatelji, vršnjaci, ležerni poznanici |
5 | Intimno/jednostavno | Bliska obitelj, intimni partneri |
Skala stručnosti (Univerzalna)
Razina | Opis |
---|---|
0 | Bez znanja |
1-2 | Početnik |
3-4 | Srednja razina |
5-6 | Napredna razina |
7-8 | Stručnjak |
9-10 | Majstor/Autoritet |
Skala tabua (Univerzalna)
Razina | Opis |
---|---|
0 | Bez tabu sadržaja |
1 | Blagi tabu |
2 | Lagani tabu |
3 | Umjereni tabu |
4 | Visoki tabu |
5 | Ekstremni tabu |
Skala leksičke gustoće (Univerzalna)
Razina | Opis |
---|---|
0-20 | Vrlo niska gustoća |
21-40 | Niska gustoća |
41-60 | Umjerena gustoća |
61-80 | Visoka gustoća |
81-100 | Vrlo visoka gustoća |
Skala sintaktičke složenosti (Univerzalna)
Razina | Opis |
---|---|
0-20 | Vrlo jednostavno |
21-40 | Jednostavno |
41-60 | Umjerena složenost |
61-80 | Složeno |
81-100 | Vrlo složeno |
Vrijednosti domene
Vrijednost | Opis |
---|---|
legal |
Pravna terminologija |
med |
Medicinska terminologija |
tech |
Tehnička/IT |
business |
Poslovna/korporativna |
fin |
Financije/bankarstvo |
acad |
Akademska/znanstvena |
sci |
Znanstvena/istraživačka |
Primjeri implementacije
Pojedinačni klasifikator (Dugački oblik)
# Najformalniji korejski
ko-x-form-1
# Vrlo pristojni japanski
ja-x-polite-2
# Pravni engleski
en-x-domain-legal
# Gyeongsang korejski
ko-x-geo-gyeong
# Praindoeuropski
x-proto-ine
Pojedinačni klasifikator (Kratki oblik)
# Najformalniji korejski
ko-x-f-1
# Vrlo pristojni japanski
ja-x-p-2
# Pravni engleski
en-x-d-legal
# Gyeongsang korejski
ko-x-g-gyeong
# Praindoeuropski
x-a-ine
Višestruki klasifikatori
# Neformalni ali pristojni korejski poslovni jezik
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
# Formalni i pun poštovanja japanski medicinski jezik
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med
# Južni vijetnamski s neutralnom formalnošću, pristojnim govorom, tehničkom domenom
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech
# Složena klasifikacija s više dimenzija
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written
# Jezične varijante koje pokazuju razliku formalnost/pristojnost
ko-x-f-5-p-2 # Vrlo ležeran ali pristojan (starijem prijatelju)
ko-x-f-1-p-4 # Vrlo formalan ali familijarno (pisano vršnjaku)
ja-x-f-4-p-1 # Ležerna formalnost ali najviše poštovanje
en-x-f-5-j-4 # Vrlo ležerni engleski s visokom razinom tabua
Slučajevi uporabe
- Aplikacije za učenje jezika
- Podučavati odgovarajući registar za različite društvene kontekste
- Pružati domenski specifično vokabularno usavršavanje
- Strojno prevođenje
- Održavati dosljednost registra u prijevodima
- Primjenjivati domenski specifičnu terminologiju
- Klasifikacija sadržaja
- Automatski kategorizirati tekst prema formalnosti i domeni
- Usmjeravati sadržaj odgovarajućim recenzentima ili sustavima
- Korpusna lingvistika
- Graditi označene korpuse za lingvističko istraživanje
- Proučavati varijacije registra i domene
Pravila validacije
- Duljina podoznake: Svaka podoznaka nakon
x-
mora imati 8 znakova ili manje - Redoslijed: Klasifikatori mogu se pojaviti bilo kojim redoslijedom nakon
x-
- Jedinstvenost: Svaki tip klasifikatora trebao bi se pojaviti samo jednom po oznaci (osim
conf
koji se može pojaviti više puta) - Velika/mala slova: Oznake bi trebale biti malim slovima (ne razlikuje se veličina slova prema BCP 47)
- Čarobne oznake: Kratke oznake su pojedinačni znakovi;
q
,3
-9
rezervirani su za buduću uporabu - Miješanje: Dugački i kratki oblici mogu se miješati unutar iste oznake
- Proto oznake: Moraju počinjati s
x-
i TREBALE BI koristiti ISO 639-5 kodove kada su dostupni (npr.x-proto-sla
nex-proto-slavic
) - Pouzdanost: Klasifikator
conf
/c
odnosi se na neposredno prethodni klasifikator - Numeričke vrijednosti: Moraju biti unutar definiranih raspona (0-5 za tabu, 0-10 za stručnost, 0-100 za postotne vrijednosti)
- Format datuma: Datumi koriste ISO 8601 bez interpunkcije (YYYY, YYYYMM ili YYYYMMDD)
Kompatibilnost
LVTag format je potpuno kompatibilan s:
- BCP 47 (RFC 5646)
- ISO 639 jezični kodovi
- IANA Language Subtag Registry
- Unicode CLDR
Prednosti
- Preciznost: Omogućuje finozrnu identifikaciju jezičnih varijanti
- Proširivost: Mogu se dodati novi registri i domene
- Temeljen na standardima: Izgrađen na utvrđenom BCP 47 mehanizmu privatne uporabe
- Strojno čitljiv: Sustavni format omogućuje automatiziranu obradu
- Ljudski čitljiv: Jasne, opisne podoznake
- Fleksibilnost: Podrška za detaljne dugačke i sažete kratke oznake
- Kratkoća: Kratke čarobne oznake omogućuju kompaktnu reprezentaciju uz održavanje jasnoće
Buduća proširenja
LVTag je dizajniran da evoluira s potrebama zajednice jezičnih tehnologija. Pozdravljamo prijedloge za nove klasifikatore, poboljšanja postojećih i povratne informacije iz stvarnih implementacija.
Za predlaganje proširenja ili doprinos specifikaciji:
- Otvorite problem na github.com/lvtag/spec
- Pridružite se raspravi o postojećim prijedlozima
- Podijelite svoja iskustva implementacije
- Pošaljite pull zahtjeve za poboljšanja dokumentacije
Rezervirani jednoznačni kodovi (q
, 3
-9
) dostupni su za buduća standardizirana proširenja.
Reference
Licenca i davanje patenata
Ova specifikacija objavljena je pod CC0 1.0 Universal (Public Domain Dedication).
Zašto CC0: Kako bi osigurali maksimalno prihvaćanje i slobodu implementacije, LVTag je stavljen u javnu domenu. To znači:
- Nije potrebno dopuštenje za korištenje, implementaciju ili modificiranje
- Nije potrebno pripisivanje (iako se cijeni)
- Nema pravnih prepreka za komercijalnu ili državnu uporabu
- Kompatibilno sa svim softverskim licencama
- Koristi ga glavni standardi poput Unicode CLDR
Davanje patenata: Svi patenti koji pokrivaju LVTag specifikaciju ovime se licenciraju bez naknade za bilo koju implementaciju koja je u skladu s ovom specifikacijom.
Bez podrške: Korištenje LVTaga ne implicira podršku autora specifikacije.
U mjeri dopuštenoj zakonom, Danslav Slavenskoj odrekao se svih autorskih i srodnih ili susjednih prava na specifikaciju Language Variant Tag (LVTag) formata. Ovaj rad objavljen je iz: Sjedinjene Američke Države. EOF < /dev/null