
LVTag спецификација
Верзија 1.0
Креирао Danslav Slavenskoj
Датум: Мај 2025
Језици: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски
Брзе везе
- JSON шема - Комплетна шема валидације за LVTag формат
- Дефиниције класификатора - Машински читљиве спецификације класификатора
- Спецификација - Идите на детаље формата
- Примери - Погледајте LVTag у акцији
Преглед
Language Variant Tag (LVTag) формат је систематски приступ класификацији језика који проширује BCP 47 стандард коришћењем под-ознака приватне употребе. Омогућава прецизну идентификацију језичких варијанти кроз више димензија укључујући формалност, учтивост, домен и правопис.
Кључне предности
Ригорозност класификације: LVTag доноси систематску организацију у означавање језика пружајући јасне, одвојене димензије за различите типове варијација. За разлику од постојећих под-ознака и система који мешају различите категорије на истом нивоу, LVTag одржава стриктно раздвајање између формалности, учтивости, домена и других димензија.
Компатибилност са стандардима: LVTag је потпуно компатибилан са BCP 47 (RFC 5646) и беспрекорно функционише са:
- IANA Language Subtag Registry
- ISO 639 језички кодови
- Unicode CLDR
- W3C језичке ознаке
- HTTP Accept-Language заглавља
- XML lang атрибути
- HTML lang атрибути
Технолошка интеграција: LVTag ознаке се могу директно користити у:
- Процесима обраде природног језика (NLP)
- Системима машинског превођења
- Системима управљања садржајем (CMS)
- Библиотекама за детекцију језика
- Претраживачима и системима за проналажење информација
- Веб апликацијама и API-јима
- Токовима локализације
Случајеви употребе:
- Циљање публике: Прилагођавање садржаја одговарајућој публици на основу регистра и домена
- Квалитет превода: Одржавање одговарајућих нивоа формалности и учтивости у машинском превођењу
- Учење језика: Подучавање ученика одговарајућем регистру за различите контексте
- Корпусна лингвистика: Изградња прецизно означених корпуса за истраживање
- Анализа друштвених медија: Класификовање садржаја корисника према регистру и домену
- Корисничка подршка: Усмеравање порука на основу формалности и домена одговарајућим агентима
Образложење
Док BCP 47 пружа одличну подршку за идентификацију језика, писама и региона, недостају му стандардизовани механизми за хватање социолингвистичких варијација унутар језика. Тренутни стандарди не покривају:
- Варијације регистра: Нема начина да се разликују формалне и неформалне варијанте истог језика
- Нивои учтивости: Критично за језике попут јапанског, корејског и тајског где је учтивост граматички кодирана
- Домен-специфичан језик: Нема стандарда за означавање техничких, медицинских или правних језичких варијанти
- Социјалекти: Нема механизма за идентификацију варијанти друштвених група (омладински језик, професионални жаргон)
- Историјске фазе: Ограничена подршка за разликовање класичних од модерних облика
- Градијенти формалности: Нема нумеричке скале за рачунарску обраду регистра
- Прајезици: Неконзистентно кодирање - неки прајезици имају ISO кодове (нпр.
ine
за PIE) док други немају, а ISO 639-5 породични кодови нису валидни у BCP 47 ознакама, стварајући збуњујући пејзаж за историјску лингвистику - Правописне варијације: Док BCP 47 управља писмима, не хвата ефективно варијације унутар писама (правописне реформе, системи романизације, конкурентски стандарди) које фундаментално утичу на обраду текста, претрагу и проверу правописа
LVTag попуњава ове празнине користећи BCP 47 механизам проширења приватне употребе (-x-
), пружајући систематичан, машински читљив начин кодирања ових критичних димензија језичке варијације уз одржавање потпуне компатибилности уназад.
Прецизна језичка класификација
Појава великих језичких модела и софистицираних NLP алата учинила је прецизну класификацију језичких варијанти не само корисном већ неопходном. Модерни системи морају да:
- Генеришу текст одговарајући за специфичне контексте (формални vs. неформални, учтив vs. опуштен)
- Тренирају на правилно класификованим корпусима да би избегли неприкладно мешање регистара
- Пружају културолошки и контекстуално одговарајуће одговоре
- Прецизно рукују пребацивањем кода и мешаним језичким садржајем
- Чувају стилистичку доследност при превођењу или трансформисању текста
- Филтрирају податке за обуку на основу формалности, домена или других карактеристика
- Прилагођавају излаз да одговара преференцијама или захтевима корисника
LVTag пружа грануларне метаподатке потребне за разумевање не само који језик се користи, већ како се користи, омогућавајући нијансираније и одговарајуће процесе обраде језика.
Спецификација формата
Основна структура
language-x-[classifier]-[value]-[classifier2]-[value2]...
Где:
language
је валидна BCP 47 примарна језичка под-ознака (нпр.en
,ko
,ja
)x
означава почетак под-ознака приватне употребеclassifier
је идентификатор категорије (види Магичне ознаке испод)value
је специфична класификација унутар те категорије
Магичне ознаке
LVTag подржава и дуге и кратке облике “магичних” класификатора за флексибилност:
Дуги облик | Кратки облик | Опис |
---|---|---|
ortho |
w |
Правописна варијанта |
form |
f |
Ниво формалности (скала 1-5) |
polite |
p |
Ниво учтивости/поштовања (скала 1-5) |
domain |
d |
Специјализован вокабулар или професионални контекст |
geo |
g |
Географска или регионална варијанта |
proto |
a |
Прајезик или реконструисан језик |
hist |
h |
Историјски период или фаза језика |
genre |
e |
Текстуални жанр или књижевни стил |
medium |
m |
Медијум комуникације (говорни, писани, дигитални) |
socio |
s |
Социјалект или варијанта друштвене групе |
modality |
o |
Начин језичке продукције |
register |
r |
Језички регистар |
pragma |
u |
Комуникативна функција |
temporal |
t |
Временско означавање |
evidence |
v |
Извор информација |
affect |
k |
Емоционални тон |
age |
n |
Старосна/генерацијска варијанта |
gender |
i |
Родна варијанта |
expert |
b |
Ниво стручности |
interact |
2 |
Интеракциона структура |
prosody |
y |
Прозодијске карактеристике |
lexical |
l |
Лексичка густина (0-100) |
syntax |
z |
Синтаксичка сложеност (0-100) |
start |
0 |
Датум почетка (ISO 8601 без интерпункције) |
end |
1 |
Датум краја (ISO 8601 без интерпункције) |
taboo |
j |
Ниво табу/вулгарног садржаја (скала 0-5) |
conf |
c |
Оцена поверења (0-100) за претходну ознаку |
— | q , 3 -9 |
Резервисано за будућу употребу |
Класификатори
1. Правописни класификатор (ortho
или w
)
Идентификује специфичне правописне конвенције или варијанте система писања изван стандардних ознака писма.
Формат:
- Дуги:
language-x-ortho-[variant]
- Кратки:
language-x-w-[variant]
Примери (у комбинацији са стандардним ознакама писма):
az-Latn-x-ortho-new
илиaz-Latn-x-w-new
- Азербејџански латиница, нови правописde-Latn-x-ortho-1901
илиde-Latn-x-w-1901
- Немачки латиница, правопис из 1901zh-Hans-x-ortho-pinyin
илиzh-Hans-x-w-pinyin
- Поједностављени кинески са пињинyi-Hebr-x-ortho-yivo
илиyi-Hebr-x-w-yivo
- Јидиш хебрејско писмо, YIVO правопис
2. Класификатор формалности (form
или f
)
Идентификује ниво формалности употребе језика.
Формат:
- Дуги:
language-x-form-[1-5]
- Кратки:
language-x-f-[1-5]
Скала формалности:
- 1 = Најформалнији (писани документи, званични говори)
- 2 = Формалан (пословни састанци, академско писање)
- 3 = Неутралан/стандардан (вести, општи разговор)
- 4 = Неформалан (опуштен разговор, имејлови пријатељима)
- 5 = Најопуштенији (интимни разговор, сленг)
Примери:
ko-x-form-1
илиko-x-f-1
- Најформалнији корејскиen-x-form-3
илиen-x-f-3
- Неутрални енглескиja-x-form-5
илиja-x-f-5
- Најопуштенији јапански
3. Класификатор учтивости (polite
или p
)
Идентификује ниво учтивости/поштовања употребе језика.
Формат:
- Дуги:
language-x-polite-[1-5]
- Кратки:
language-x-p-[1-5]
Скала учтивости:
- 1 = Најучтивији/најпонизнији (краљевско обраћање, верски контексти)
- 2 = Веома учтив (формалне почасти, пуно поштовања говор)
- 3 = Учтив/неутралан (стандардна учтивост)
- 4 = Фамилијаран (међу једнакима, пријатељима)
- 5 = Интиман/једноставан (породица, веома блиски пријатељи)
Примери:
ko-x-polite-1
илиko-x-p-1
- Корејски са највишим поштовањемja-x-polite-2
илиja-x-p-2
- Веома учтив јапанскиth-x-polite-3
илиth-x-p-3
- Стандардно учтив тајски
4. Доменски класификатор (domain
или d
)
Идентификује специјализован вокабулар или професионални контекст.
Формат:
- Дуги:
language-x-domain-[domain_type]
- Кратки:
language-x-d-[domain_type]
Примери:
en-x-domain-legal
илиen-x-d-legal
- Правни енглескиja-x-domain-med
илиja-x-d-med
- Медицински јапанскиko-x-domain-business
илиko-x-d-business
- Пословни корејскиja-x-domain-tech
илиja-x-d-tech
- Технички јапанскиen-x-domain-fin
илиen-x-d-fin
- Финансијски енглески
5. Географски класификатор (geo
или g
)
Идентификује регионалне или географске језичке варијанте.
Формат:
- Дуги:
language-x-geo-[region]
- Кратки:
language-x-g-[region]
Примери:
ko-x-geo-gyeong
илиko-x-g-gyeong
- Кјонгсанг корејски (경상도)ko-x-geo-jeolla
илиko-x-g-jeolla
- Чола корејски (전라도)es-x-geo-riopla
илиes-x-g-riopla
- Риоплатенски шпанскиpt-x-geo-nordeste
илиpt-x-g-nordeste
- Североисточни бразилски португалски
6. Прото класификатор (proto
или a
)
Идентификује прајезике или реконструисане историјске језике.
Формат:
- Дуги:
x-proto-[iso639-5_code if available]
- Кратки:
x-a-[iso639-5_code if available]
Правила:
- МОРА користити ISO 639-5 кодове језичких породица када су доступни
- Користити описне идентификаторе само када не постоји ISO 639-5 код
Примери са ISO 639-5 кодовима:
x-proto-ine
илиx-a-ine
- Праиндоевропскиx-proto-gem
илиx-a-gem
- Прагерманскиx-proto-sla
илиx-a-sla
- Прасловенскиx-proto-sem
илиx-a-sem
- Прасемитскиx-proto-cel
илиx-a-cel
- Пракелтскиx-proto-ira
илиx-a-ira
- Праиранскиx-proto-inc
илиx-a-inc
- Праиндоаријскиx-proto-bat
илиx-a-bat
- Прабалтичкиx-proto-roa
илиx-a-roa
- Прароманскиx-proto-trk
илиx-a-trk
- Пратурски
Примери без ISO 639-5 кодова (описни, више од три карактера):
x-proto-baltslav
илиx-a-baltslav
- Прабалтословенски (нема ISO 639-5 код)
Напомена:
- Кодови језичких породица (ISO 639-5) НИСУ валидни као стандардне примарне BCP 47 језичке ознаке због чега смо их имплементирали користећи x-proto
- Они су валидни и преферирани унутар проширења приватне употребе (после
x-
) - Стога све прото-језичке ознаке морају почињати са
x-
да би биле у складу са BCP 47
7. Историјски класификатор (hist
или h
)
Идентификује историјске периоде или фазе језика.
Формат:
- Дуги:
language-x-hist-[period]
- Кратки:
language-x-h-[period]
Примери:
en-x-hist-old
илиen-x-h-old
- Староенглески периодen-x-hist-middle
илиen-x-h-middle
- Средњеенглески периодja-x-hist-kobun
илиja-x-h-kobun
- Класични јапански (古文)ko-x-hist-hunmin
илиko-x-h-hunmin
- Средњекорејски (훈민정음 период)el-x-hist-koine
илиel-x-h-koine
- Којне грчки (Κοινή)sa-x-hist-vedic
илиsa-x-h-vedic
- Ведски санскрит (वैदिक)
8. Жанровски класификатор (genre
или e
)
Идентификује текстуални жанр или књижевни стил.
Формат:
- Дуги:
language-x-genre-[genre_type]
- Кратки:
language-x-e-[genre_type]
Примери:
en-x-genre-news
илиen-x-e-news
- Новински енглескиja-x-genre-manga
илиja-x-e-manga
- Манга јапански (漫画)ko-x-genre-webtoon
илиko-x-e-webtoon
- Корејски вебтун (웹툰)zh-x-genre-shi
илиzh-x-e-shi
- Кинеска поезија (詩)fr-x-genre-bd
илиfr-x-e-bd
- Француски стрипови (bande dessinée)de-x-genre-marchen
илиde-x-e-marchen
- Немачке бајке (Märchen)
9. Медијски класификатор (medium
или m
)
Идентификује медијум комуникације.
Формат:
- Дуги:
language-x-medium-[medium_type]
- Кратки:
language-x-m-[medium_type]
Примери:
en-x-medium-spoken
илиen-x-m-spoken
- Говорни енглескиko-x-medium-digital
илиko-x-m-digital
- Дигитални/онлајн корејскиja-x-medium-written
илиja-x-m-written
- Писани јапанскиhi-x-medium-bcast
илиhi-x-m-bcast
- Емитовани хиндиzh-x-medium-sms
илиzh-x-m-sms
- SMS/текстуалне поруке кинески
10. Социо класификатор (socio
или s
)
Идентификује социјалект или варијанте друштвених група.
Формат:
- Дуги:
language-x-socio-[social_group]
- Кратки:
language-x-s-[social_group]
Примери:
en-x-socio-academic
илиen-x-s-academic
- Академски социјалектen-x-socio-urban
илиen-x-s-urban
- Урбани социјалектes-x-socio-juvenil
илиes-x-s-juvenil
- Шпански омладински социјалект (jerga juvenil)fr-x-socio-jeune
илиfr-x-s-jeune
- Француски омладински социјалектde-x-socio-jugend
илиde-x-s-jugend
- Немачки омладински социјалект (Jugendsprache)ko-x-socio-online
илиko-x-s-online
- Корејски онлајн социјалект
11. Класификатор модалитета (modality
или o
)
Идентификује основни начин језичке продукције.
Формат:
- Дуги:
language-x-modality-[mode]
- Кратки:
language-x-o-[mode]
Примери:
en-x-modality-spoken
илиen-x-o-spoken
- Говорни енглескиen-x-modality-written
илиen-x-o-written
- Писани енглескиasl-x-modality-signed
илиasl-x-o-signed
- Амерички знаковни језикen-x-modality-multi
илиen-x-o-multi
- Мултимодални енглески (говор + гестови)fr-x-modality-tactile
илиfr-x-o-tactile
- Тактилни француски (за слепоглуве)
12. Регистарски класификатор (register
или r
)
Идентификује језички регистар или функционалну варијанту употребе језика.
Формат:
- Дуги:
language-x-register-[register_type]
- Кратки:
language-x-r-[register_type]
Примери:
en-x-register-frozen
илиen-x-r-frozen
- Замрзнути регистар (молитве, заклетве)en-x-register-formal
илиen-x-r-formal
- Формални регистар (академски радови)en-x-register-consult
илиen-x-r-consult
- Консултативни регистар (професионални)en-x-register-casual
илиen-x-r-casual
- Опуштени регистар (пријатељи)en-x-register-intimate
илиen-x-r-intimate
- Интимни регистар (породица)
13. Класификатор прагматичке функције (pragma
или u
)
Идентификује комуникативну функцију или говорни чин.
Формат:
- Дуги:
language-x-pragma-[function]
- Кратки:
language-x-u-[function]
Примери:
en-x-pragma-request
илиen-x-u-request
- Функција захтеваja-x-pragma-apology
илиja-x-u-apology
- Функција извињењаes-x-pragma-complmnt
илиes-x-u-complmnt
- Функција комплиментаar-x-pragma-greeting
илиar-x-u-greeting
- Функција поздраваzh-x-pragma-refusal
илиzh-x-u-refusal
- Функција одбијања
14. Класификатор временског означавања (temporal
или t
)
Идентификује временске аспекте или обрасце употребе времена.
Формат:
- Дуги:
language-x-temporal-[aspect]
- Кратки:
language-x-t-[aspect]
Примери:
en-x-temporal-past
илиen-x-t-past
- Дискурс оријентисан на прошлостja-x-temporal-nonpast
илиja-x-t-nonpast
- Фокус на не-прошлостid-x-temporal-atemprl
илиid-x-t-atemprl
- Безвременски/атемпоралниfr-x-temporal-future
илиfr-x-t-future
- Оријентисан на будућностzh-x-temporal-aspect
илиzh-x-t-aspect
- Аспектуални фокус
15. Евиденцијални класификатор (evidence
или v
)
Идентификује означавање извора информација.
Формат:
- Дуги:
language-x-evidence-[source]
- Кратки:
language-x-v-[source]
Примери:
qu-x-evidence-direct
илиqu-x-v-direct
- Директни сведокtr-x-evidence-hearsay
илиtr-x-v-hearsay
- Из друге руке/пријављеноja-x-evidence-infer
илиja-x-v-infer
- Инференцијалниen-x-evidence-assume
илиen-x-v-assume
- Претпостављениde-x-evidence-quote
илиde-x-v-quote
- Цитативни
16. Класификатор афекта/емоције (affect
или k
)
Идентификује емоционални тон или афекат.
Формат:
- Дуги:
language-x-affect-[emotion]
- Кратки:
language-x-k-[emotion]
Примери:
en-x-affect-angry
илиen-x-k-angry
- Љути тонja-x-affect-humble
илиja-x-k-humble
- Скромни афекатes-x-affect-joyful
илиes-x-k-joyful
- Радосни изразko-x-affect-sad
илиko-x-k-sad
- Тужан/меланхоличанfr-x-affect-neutral
илиfr-x-k-neutral
- Неутрални афекат
17. Класификатор старости/генерације (age
или n
)
Идентификује старосне или генерацијске језичке варијанте.
Формат:
- Дуги:
language-x-age-[generation]
- Кратки:
language-x-n-[generation]
Примери:
en-x-age-child
илиen-x-n-child
- Дечји говорja-x-age-teen
илиja-x-n-teen
- Тинејџерски језикko-x-age-elder
илиko-x-n-elder
- Говор старијихes-x-age-genz
илиes-x-n-genz
- Генерација Zzh-x-age-millenl
илиzh-x-n-millenl
- Миленијалски говор
18. Родни класификатор (gender
или i
)
Идентификује родно повезане језичке варијанте.
Формат:
- Дуги:
language-x-gender-[identity]
- Кратки:
language-x-i-[identity]
19. Класификатор нивоа стручности (expert
или b
)
Идентификује ниво доменске стручности на скали 0-10.
Формат:
- Дуги:
language-x-expert-[0-10]
- Кратки:
language-x-b-[0-10]
Скала стручности:
- 0 = Без знања
- 1-2 = Почетник
- 3-4 = Средњи ниво
- 5-6 = Напредни
- 7-8 = Стручњак
- 9-10 = Мајстор/Ауторитет
Примери:
en-x-expert-0
илиen-x-b-0
- Без стручностиde-x-expert-3
илиde-x-b-3
- Средњи нивоja-x-expert-7
илиja-x-b-7
- Ниво стручњакаes-x-expert-9
илиes-x-b-9
- Мајсторски нивоzh-x-expert-5
илиzh-x-b-5
- Напредни ниво
20. Класификатор интеракционе структуре (interact
или 2
)
Идентификује конверзацијске или интеракционе обрасце.
Формат:
- Дуги:
language-x-interact-[structure]
- Кратки:
language-x-2-[structure]
Примери:
en-x-interact-turn
илиen-x-2-turn
- Смењивање редоследаja-x-interact-overlap
илиja-x-2-overlap
- Преклапајући говорes-x-interact-monolog
илиes-x-2-monolog
- Монолошкиar-x-interact-dialog
илиar-x-2-dialog
- Дијалошкиzh-x-interact-multi
илиzh-x-2-multi
- Вишестраначки
21. Класификатор прозодијских карактеристика (prosody
или y
)
Идентификује прозодијске или супрасегменталне карактеристике.
Формат:
- Дуги:
language-x-prosody-[feature]
- Кратки:
language-x-y-[feature]
Примери:
en-x-prosody-stress
илиen-x-y-stress
- Нагласно времеja-x-prosody-pitch
илиja-x-y-pitch
- Тонски акценатfr-x-prosody-syllable
илиfr-x-y-syllable
- Слоговно времеzh-x-prosody-tone
илиzh-x-y-tone
- Тонски обрасциes-x-prosody-rhythm
илиes-x-y-rhythm
- Ритмички обрасци
22. Класификатор лексичке густине (lexical
или l
)
Идентификује лексичку густину као нумеричку вредност (0-100).
Формат:
- Дуги:
language-x-lexical-[0-100]
- Кратки:
language-x-l-[0-100]
Примери:
en-x-lexical-20
илиen-x-l-20
- Ниска густина (20%)de-x-lexical-55
илиde-x-l-55
- Средња густина (55%)ja-x-lexical-75
илиja-x-l-75
- Висока густина (75%)es-x-lexical-40
илиes-x-l-40
- Умерена густина (40%)zh-x-lexical-85
илиzh-x-l-85
- Веома висока густина (85%)
23. Класификатор синтаксичке сложености (syntax
или z
)
Идентификује синтаксичку сложеност као нумеричку вредност (0-100).
Формат:
- Дуги:
language-x-syntax-[0-100]
- Кратки:
language-x-z-[0-100]
Примери:
en-x-syntax-15
илиen-x-z-15
- Једноставна синтакса (15%)de-x-syntax-70
илиde-x-z-70
- Сложена синтакса (70%)ja-x-syntax-45
илиja-x-z-45
- Умерена сложеност (45%)es-x-syntax-30
илиes-x-z-30
- Ниска сложеност (30%)zh-x-syntax-60
илиzh-x-z-60
- Висока сложеност (60%)
24. Класификатор датума почетка (start
или 0
)
Идентификује датум почетка употребе језика (ISO 8601 формат без интерпункције).
Формат:
- Дуги:
language-x-start-[YYYYMMDD]
- Кратки:
language-x-0-[YYYYMMDD]
Формати датума:
- Пун датум: YYYYMMDD
- Година-месец: YYYYMM
- Само година: YYYY
Примери:
en-x-start-20240315
илиen-x-0-20240315
- Енглески почиње 15. марта 2024ja-x-start-19890108
илиja-x-0-19890108
- Јапански почиње 8. јануара 1989es-x-start-202403
илиes-x-0-202403
- Шпански почиње у марту 2024
25. Класификатор датума краја (end
или 1
)
Идентификује датум краја употребе језика (ISO 8601 формат без интерпункције).
Формат:
- Дуги:
language-x-end-[YYYYMMDD]
- Кратки:
language-x-1-[YYYYMMDD]
Формати датума:
- Пун датум: YYYYMMDD
- Година-месец: YYYYMM
- Само година: YYYY
Примери:
en-x-end-20240415
илиen-x-1-20240415
- Енглески се завршава 15. априла 2024ja-x-end-20190430
илиja-x-1-20190430
- Јапански се завршава 30. априла 2019es-x-end-202412
илиes-x-1-202412
- Шпански се завршава у децембру 2024
26. Табу класификатор (taboo
или j
)
Идентификује ниво табу, вулгарног или увредљивог садржаја.
Формат:
- Дуги:
language-x-taboo-[0-5]
- Кратки:
language-x-j-[0-5]
Примери:
en-x-taboo-0
илиen-x-j-0
- Без табу садржајаen-x-taboo-3
илиen-x-j-3
- Умерен ниво табуаja-x-form-5-taboo-4
илиja-x-f-5-j-4
- Веома опуштен јапански са високим нивоом табуа
27. Класификатор поверења (conf
или c
)
Означава оцену поверења за непосредно претходни класификатор.
Формат:
- Дуги:
language-x-[classifier]-[value]-conf-[0-100]
- Кратки:
language-x-[classifier]-[value]-c-[0-100]
Посебно понашање:
- Оцена поверења се примењује на непосредно претходни класификатор
- Више оцена поверења може се користити за различите класификаторе
- Ако нема претходног класификатора, поверење се примењује на основну језичку ознаку
Примери:
en-x-form-3-conf-95
илиen-x-f-3-c-95
- Неутрална формалност са 95% поверењаko-x-polite-2-conf-80-domain-med-conf-60
илиko-x-p-2-c-80-d-med-c-60
- Веома учтив (80% поверења) медицински корејски (60% поверења)ja-x-hist-kobun-conf-100
илиja-x-h-kobun-c-100
- Класични јапански са 100% поверењаx-proto-ine-conf-75
илиx-a-ine-c-75
- Праиндоевропски са 75% поверења
Вишеструке класификације
LVTag подржава више класификатора у једној ознаци за прецизну идентификацију језика. Дуги и кратки облици се могу мешати:
ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
Горњи примери приказују корејски са неформалном формалношћу (4) али учтивим говором (2) у пословном контексту.
Валидне вредности
Напомена: Све вредности морају бити 8 карактера или мање да би се придржавале ограничења дужине под-ознаке BCP 47. Док се специфичне вредности за многе класификаторе треба установити кроз стручну употребу и консензус заједнице, нумеричке скале, формати датума и основне вредности наведене испод су дефинисане у овом стандарду.
Скала формалности (Универзална)
Ниво | Опис | Примери |
---|---|---|
1 | Најформалнији | Правни документи, званичне церемоније, академски радови |
2 | Формалан | Пословна писма, новински чланци, презентације |
3 | Неутралан | Стандардни разговор, имејл, опште писање |
4 | Неформалан | Опуштен разговор, лични блогови, текстуалне поруке |
5 | Најопуштенији | Сленг, интимни разговор, друштвени медији |
Скала учтивости (Универзална)
Ниво | Опис | Примери |
---|---|---|
1 | Најучтивији | Краљевско обраћање, верске вође, поштовање старијих |
2 | Веома учтив | Корисничка подршка, формални састанци, наставници |
3 | Учтив/неутралан | Стандардне интеракције, колеге |
4 | Фамилијаран | Пријатељи, вршњаци, повремени познаници |
5 | Интиман/једноставан | Блиска породица, интимни партнери |
Скала стручности (Универзална)
Ниво | Опис |
---|---|
0 | Без знања |
1-2 | Почетник |
3-4 | Средњи ниво |
5-6 | Напредни |
7-8 | Стручњак |
9-10 | Мајстор/Ауторитет |
Скала табуа (Универзална)
Ниво | Опис |
---|---|
0 | Без табу садржаја |
1 | Благи табу |
2 | Лаки табу |
3 | Умерени табу |
4 | Високи табу |
5 | Екстремни табу |
Скала лексичке густине (Универзална)
Ниво | Опис |
---|---|
0-20 | Веома ниска густина |
21-40 | Ниска густина |
41-60 | Умерена густина |
61-80 | Висока густина |
81-100 | Веома висока густина |
Скала синтаксичке сложености (Универзална)
Ниво | Опис |
---|---|
0-20 | Веома једноставна |
21-40 | Једноставна |
41-60 | Умерена сложеност |
61-80 | Сложена |
81-100 | Веома сложена |
Вредности домена
Вредност | Опис |
---|---|
legal |
Правна терминологија |
med |
Медицинска терминологија |
tech |
Техничка/ИТ |
business |
Пословна/корпоративна |
fin |
Финансије/банкарство |
acad |
Академска/научна |
sci |
Научна/истраживачка |
Примери имплементације
Појединачни класификатор (Дуги облик)
# Најформалнији корејски
ko-x-form-1
# Веома учтив јапански
ja-x-polite-2
# Правни енглески
en-x-domain-legal
# Кјонгсанг корејски
ko-x-geo-gyeong
# Праиндоевропски
x-proto-ine
Појединачни класификатор (Кратки облик)
# Најформалнији корејски
ko-x-f-1
# Веома учтив јапански
ja-x-p-2
# Правни енглески
en-x-d-legal
# Кјонгсанг корејски
ko-x-g-gyeong
# Праиндоевропски
x-a-ine
Вишеструки класификатори
# Неформалан али учтив корејски пословни језик
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
# Формалан и пун поштовања јапански медицински језик
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med
# Јужни вијетнамски са неутралном формалношћу, учтивим говором, техничком доменом
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech
# Сложена класификација са више димензија
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written
# Језичке варијанте које показују разлику формалност/учтивост
ko-x-f-5-p-2 # Веома опуштен али учтив (према старијем пријатељу)
ko-x-f-1-p-4 # Веома формалан али фамилијаран (писано вршњаку)
ja-x-f-4-p-1 # Опуштена формалност али највише поштовање
en-x-f-5-j-4 # Веома опуштен енглески са високим нивоом табуа
Случајеви употребе
- Апликације за учење језика
- Подучавање одговарајућем регистру за различите друштвене контексте
- Пружање тренинга вокабулара специфичног за домену
- Машинско превођење
- Одржавање доследности регистра у преводима
- Примена терминологије специфичне за домену
- Класификација садржаја
- Аутоматска категоризација текста према формалности и домени
- Усмеравање садржаја одговарајућим рецензентима или системима
- Корпусна лингвистика
- Изградња означених корпуса за лингвистичка истраживања
- Проучавање варијација регистра и домене
Правила валидације
- Дужина под-ознаке: Свака под-ознака после
x-
мора имати 8 карактера или мање - Редослед: Класификатори се могу појавити било којим редоследом после
x-
- Јединственост: Сваки тип класификатора треба да се појави само једном по ознаци (осим
conf
који се може појавити више пута) - Велика/мала слова: Ознаке треба да буду малим словима (не прави разлику велика/мала слова према BCP 47)
- Магичне ознаке: Ознаке кратког облика су појединачни карактери;
q
,3
-9
су резервисани за будућу употребу - Мешање: Дуги и кратки облици се могу мешати унутар исте ознаке
- Прото ознаке: Морају почињати са
x-
и ТРЕБА да користе ISO 639-5 кодове када су доступни (нпр.x-proto-sla
неx-proto-slavic
) - Поверење: Класификатор
conf
/c
се примењује на непосредно претходни класификатор - Нумеричке вредности: Морају бити унутар дефинисаних опсега (0-5 за табу, 0-10 за стручност, 0-100 за процентуалне вредности)
- Формат датума: Датуми користе ISO 8601 без интерпункције (YYYY, YYYYMM или YYYYMMDD)
Компатибилност
LVTag формат је потпуно компатибилан са:
- BCP 47 (RFC 5646)
- ISO 639 језичким кодовима
- IANA Language Subtag Registry
- Unicode CLDR
Предности
- Прецизност: Омогућава финозрну идентификацију језичких варијанти
- Проширивост: Нови регистри и домене могу се додати
- Заснован на стандардима: Изграђен на утврђеном BCP 47 механизму приватне употребе
- Машински читљив: Систематски формат омогућава аутоматизовану обраду
- Људски читљив: Јасне, описне под-ознаке
- Флексибилност: Подршка за детаљне дуге и сажете кратке ознаке
- Краткоћа: Кратке магичне ознаке омогућавају компактну репрезентацију уз задржавање јасноће
Будућа проширења
LVTag је дизајниран да еволуира са потребама заједнице језичких технологија. Поздрављамо предлоге за нове класификаторе, побољшања постојећих и повратне информације из реалних имплементација.
За предлагање проширења или допринос спецификацији:
- Отворите issue на github.com/lvtag/spec
- Придружите се дискусији о постојећим предлозима
- Поделите своја искуства имплементације
- Пошаљите pull request за побољшања документације
Резервисани једнокарактерни кодови (q
, 3
-9
) су доступни за будућа стандардизована проширења.
Референце
Лиценца и додела патената
Ова спецификација је објављена под CC0 1.0 Universal (Public Domain Dedication).
Зашто CC0: Да би се обезбедило максимално усвајање и слобода имплементације, LVTag је стављен у јавну својину. То значи:
- Није потребна дозвола за коришћење, имплементацију или модификацију
- Није потребно приписивање (иако се цени)
- Нема правних препрека за комерцијалну или владину употребу
- Компатибилан са свим софтверским лиценцама
- Користе га главни стандарди попут Unicode CLDR
Додела патената: Сви патенти који покривају LVTag спецификацију се овим дају без накнаде за било коју имплементацију која је у складу са овом спецификацијом.
Без препоруке: Коришћење LVTag не имплицира препоруку аутора спецификације.
У мери дозвољеној законом, Danslav Slavenskoj се одрекао свих ауторских и сродних или суседних права на Language Variant Tag (LVTag) Format Specification. Овај рад је објављен из: Сједињених Америчких Држава.