Спецификация LVTag
Версия 1.0
Создал Danslav Slavenskoj
Дата: Май 2025
Языки: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски
Быстрые ссылки
- JSON схема - Полная схема валидации для формата LVTag
- Определения классификаторов - Машиночитаемые спецификации классификаторов
- Спецификация - Перейти к деталям формата
- Примеры - Посмотреть LVTag в действии
Обзор
Формат Language Variant Tag (LVTag) - это систематический подход к классификации языков, который расширяет стандарт BCP 47 с использованием подтегов частного использования. Он позволяет точно идентифицировать языковые варианты по нескольким измерениям, включая формальность, вежливость, область и орфографию.
Ключевые преимущества
Строгость классификации: LVTag привносит систематическую организацию в языковую маркировку, предоставляя четкие, отдельные измерения для различных типов вариаций. В отличие от существующих подтегов и систем, которые смешивают разные категории на одном уровне, LVTag поддерживает строгое разделение между формальностью, вежливостью, областью и другими измерениями.
Совместимость со стандартами: LVTag полностью совместим с BCP 47 (RFC 5646) и бесшовно работает с:
- Реестром языковых подтегов IANA
- Языковыми кодами ISO 639
- Unicode CLDR
- Языковыми тегами W3C
- Заголовками HTTP Accept-Language
- Атрибутами lang XML
- Атрибутами lang HTML
Технологическая интеграция: Теги LVTag могут использоваться напрямую в:
- Конвейерах обработки естественного языка (NLP)
- Системах машинного перевода
- Системах управления контентом (CMS)
- Библиотеках определения языка
- Поисковых системах и системах поиска информации
- Веб-приложениях и API
- Рабочих процессах локализации
Случаи использования:
- Целевая аудитория: Адаптация контента для соответствующей аудитории на основе регистра и области
- Качество перевода: Поддержание соответствующих уровней формальности и вежливости в машинном переводе
- Изучение языков: Обучение учащихся соответствующему регистру для различных контекстов
- Корпусная лингвистика: Создание точно размеченных корпусов для исследований
- Анализ социальных сетей: Классификация пользовательского контента по регистру и области
- Обслуживание клиентов: Направление сообщений на основе формальности и области соответствующим агентам
Обоснование
Хотя BCP 47 обеспечивает отличную поддержку для идентификации языков, письменностей и регионов, ему не хватает стандартизированных механизмов для фиксации социолингвистических вариаций внутри языка. Текущие стандарты не охватывают:
- Вариации регистра: Нет способа различать формальные и неформальные разновидности одного языка
- Уровни вежливости: Критично для языков, таких как японский, корейский и тайский, где вежливость грамматически закодирована
- Специализированный язык: Нет стандарта для маркировки технических, медицинских или юридических языковых разновидностей
- Социолекты: Нет механизма для идентификации разновидностей социальных групп (молодежный язык, профессиональный жаргон)
- Исторические этапы: Ограниченная поддержка различения классических форм от современных
- Градиенты формальности: Нет числовой шкалы для вычислительной обработки регистра
- Праязыки: Непоследовательное кодирование - некоторые праязыки имеют коды ISO (например,
ineдля PIE), в то время как другие нет, а коды семейств ISO 639-5 недействительны в тегах BCP 47, создавая запутанную ситуацию для исторической лингвистики - Орфографические вариации: Хотя BCP 47 обрабатывает письменности, он не эффективно фиксирует вариации внутри письменностей (орфографические реформы, системы романизации, конкурирующие стандарты), которые фундаментально влияют на обработку текста, поиск и проверку орфографии
LVTag заполняет эти пробелы, используя механизм расширения частного использования BCP 47 (-x-), предоставляя систематический, машиночитаемый способ кодирования этих критических измерений языковой вариации при сохранении полной обратной совместимости.
Точная языковая классификация
Появление больших языковых моделей и сложных инструментов NLP сделало точную классификацию языковых разновидностей не просто полезной, но необходимой. Современные системы должны:
- Генерировать текст, подходящий для конкретных контекстов (формальный vs. неформальный, вежливый vs. повседневный)
- Обучаться на правильно классифицированных корпусах, чтобы избежать неуместного смешения регистров
- Предоставлять культурно и контекстуально подходящие ответы
- Точно обрабатывать переключение кода и смешанный языковой контент
- Сохранять стилистическую последовательность при переводе или преобразовании текста
- Фильтровать обучающие данные на основе формальности, области или других характеристик
- Адаптировать вывод в соответствии с предпочтениями или требованиями пользователя
LVTag предоставляет детализированные метаданные, необходимые для понимания не только того, какой язык используется, но и как он используется, позволяя создавать более тонкие и подходящие конвейеры обработки языка.
Спецификация формата
Базовая структура
language-x-[classifier]-[value]-[classifier2]-[value2]...
Где:
language- это действительный подтег основного языка BCP 47 (например,en,ko,ja)xуказывает на начало подтегов частного использованияclassifier- это идентификатор категории (см. Магические теги ниже)value- это конкретная классификация в рамках этой категории
Магические теги
LVTag поддерживает как длинные, так и короткие формы “магических” классификаторов для гибкости:
| Длинная форма | Короткая форма | Описание |
|---|---|---|
ortho |
w |
Орфографический вариант |
form |
f |
Уровень формальности (шкала 1-5) |
polite |
p |
Уровень вежливости/уважения (шкала 1-5) |
domain |
d |
Специализированная лексика или профессиональный контекст |
geo |
g |
Географическая или региональная разновидность |
proto |
a |
Праязык или реконструированный язык |
hist |
h |
Исторический период или этап языка |
genre |
e |
Текстовый жанр или литературный стиль |
medium |
m |
Средство коммуникации (устное, письменное, цифровое) |
socio |
s |
Социолект или разновидность социальной группы |
modality |
o |
Способ языкового производства |
register |
r |
Языковой регистр |
pragma |
u |
Коммуникативная функция |
temporal |
t |
Временная маркировка |
evidence |
v |
Источник информации |
affect |
k |
Эмоциональный тон |
age |
n |
Возрастная/поколенческая разновидность |
gender |
i |
Гендерная разновидность |
expert |
b |
Уровень экспертизы |
interact |
2 |
Интеракциональная структура |
prosody |
y |
Просодические особенности |
lexical |
l |
Лексическая плотность (0-100) |
syntax |
z |
Синтаксическая сложность (0-100) |
start |
0 |
Дата начала (ISO 8601 без пунктуации) |
end |
1 |
Дата окончания (ISO 8601 без пунктуации) |
taboo |
j |
Уровень табуированного/вульгарного контента (шкала 0-5) |
conf |
c |
Оценка уверенности (0-100) для предыдущего тега |
| — | q, 3-9 |
Зарезервировано для будущего использования |
Классификаторы
1. Орфографический классификатор (ortho или w)
Идентифицирует конкретные орфографические конвенции или варианты системы письма за пределами стандартных тегов письменности.
Формат:
- Длинный:
language-x-ortho-[variant] - Короткий:
language-x-w-[variant]
Примеры (в сочетании со стандартными тегами письменности):
az-Latn-x-ortho-newилиaz-Latn-x-w-new- Азербайджанский латиница, новая орфографияde-Latn-x-ortho-1901илиde-Latn-x-w-1901- Немецкий латиница, орфография 1901 годаzh-Hans-x-ortho-pinyinилиzh-Hans-x-w-pinyin- Упрощенный китайский с пиньиньyi-Hebr-x-ortho-yivoилиyi-Hebr-x-w-yivo- Идиш еврейское письмо, орфография YIVO
2. Классификатор формальности (form или f)
Идентифицирует уровень формальности языкового использования.
Формат:
- Длинный:
language-x-form-[1-5] - Короткий:
language-x-f-[1-5]
Шкала формальности:
- 1 = Наиболее формальный (письменные документы, официальные речи)
- 2 = Формальный (деловые встречи, академическое письмо)
- 3 = Нейтральный/стандартный (новости, общий разговор)
- 4 = Неформальный (непринужденный разговор, электронные письма друзьям)
- 5 = Наиболее повседневный (интимный разговор, сленг)
Примеры:
ko-x-form-1илиko-x-f-1- Наиболее формальный корейскийen-x-form-3илиen-x-f-3- Нейтральный английскийja-x-form-5илиja-x-f-5- Наиболее повседневный японский
3. Классификатор вежливости (polite или p)
Идентифицирует уровень вежливости/уважения языкового использования.
Формат:
- Длинный:
language-x-polite-[1-5] - Короткий:
language-x-p-[1-5]
Шкала вежливости:
- 1 = Наиболее уважительный/почтительный (королевское обращение, религиозные контексты)
- 2 = Очень вежливый (формальные почетные формы, уважительная речь)
- 3 = Вежливый/нейтральный (стандартная вежливость)
- 4 = Дружеский (между равными, друзьями)
- 5 = Интимный/простой (семья, очень близкие друзья)
Примеры:
ko-x-polite-1илиko-x-p-1- Корейский с высшим уважениемja-x-polite-2илиja-x-p-2- Очень вежливый японскийth-x-polite-3илиth-x-p-3- Стандартно вежливый тайский
4. Классификатор области (domain или d)
Идентифицирует специализированную лексику или профессиональный контекст.
Формат:
- Длинный:
language-x-domain-[domain_type] - Короткий:
language-x-d-[domain_type]
Примеры:
en-x-domain-legalилиen-x-d-legal- Юридический английскийja-x-domain-medилиja-x-d-med- Медицинский японскийko-x-domain-businessилиko-x-d-business- Деловой корейскийja-x-domain-techилиja-x-d-tech- Технический японскийen-x-domain-finилиen-x-d-fin- Финансовый английский
5. Географический классификатор (geo или g)
Идентифицирует региональные или географические языковые разновидности.
Формат:
- Длинный:
language-x-geo-[region] - Короткий:
language-x-g-[region]
Примеры:
ko-x-geo-gyeongилиko-x-g-gyeong- Корейский из Кёнсан (경상도)ko-x-geo-jeollaилиko-x-g-jeolla- Корейский из Чолла (전라도)es-x-geo-rioplaилиes-x-g-riopla- Риоплатский испанскийpt-x-geo-nordesteилиpt-x-g-nordeste- Португальский северо-востока Бразилии
6. Классификатор прото (proto или a)
Идентифицирует праязыки или реконструированные исторические языки.
Формат:
- Длинный:
x-proto-[iso639-5_code if available] - Короткий:
x-a-[iso639-5_code if available]
Правила:
- ДОЛЖЕН использовать коды языковых семейств ISO 639-5, когда они доступны
- Использовать описательные идентификаторы только когда код ISO 639-5 не существует
Примеры с использованием кодов ISO 639-5:
x-proto-ineилиx-a-ine- Праиндоевропейскийx-proto-gemилиx-a-gem- Прагерманскийx-proto-slaилиx-a-sla- Праславянскийx-proto-semилиx-a-sem- Прасемитскийx-proto-celилиx-a-cel- Пракельтскийx-proto-iraилиx-a-ira- Праиранскийx-proto-incилиx-a-inc- Праиндоарийскийx-proto-batилиx-a-bat- Прабалтийскийx-proto-roaилиx-a-roa- Праромансскийx-proto-trkилиx-a-trk- Пратюркский
Примеры без кодов ISO 639-5 (описательные, более трех символов):
x-proto-baltslavилиx-a-baltslav- Прабалтославянский (нет кода ISO 639-5)
Примечание:
- Коды языковых семейств (ISO 639-5) НЕ являются действительными как стандартные основные языковые теги BCP 47, поэтому мы реализовали их с использованием x-proto
- Они действительны и предпочтительны в расширениях частного использования (после
x-) - Поэтому все теги праязыков должны начинаться с
x-для соответствия BCP 47
7. Исторический классификатор (hist или h)
Идентифицирует исторические периоды или этапы языка.
Формат:
- Длинный:
language-x-hist-[period] - Короткий:
language-x-h-[period]
Примеры:
en-x-hist-oldилиen-x-h-old- Древнеанглийский периодen-x-hist-middleилиen-x-h-middle- Среднеанглийский периодja-x-hist-kobunилиja-x-h-kobun- Классический японский (古文)ko-x-hist-hunminилиko-x-h-hunmin- Среднекорейский (훈민정음 период)el-x-hist-koineилиel-x-h-koine- Койне греческий (Κοινή)sa-x-hist-vedicилиsa-x-h-vedic- Ведийский санскрит (वैदिक)
8. Жанровый классификатор (genre или e)
Идентифицирует текстовый жанр или литературный стиль.
Формат:
- Длинный:
language-x-genre-[genre_type] - Короткий:
language-x-e-[genre_type]
Примеры:
en-x-genre-newsилиen-x-e-news- Новостной английскийja-x-genre-mangaилиja-x-e-manga- Японский манга (漫画)ko-x-genre-webtoonилиko-x-e-webtoon- Корейский вебтун (웹툰)zh-x-genre-shiилиzh-x-e-shi- Китайская поэзия (詩)fr-x-genre-bdилиfr-x-e-bd- Французские комиксы (bande dessinée)de-x-genre-marchenилиde-x-e-marchen- Немецкие сказки (Märchen)
9. Классификатор средства (medium или m)
Идентифицирует средство коммуникации.
Формат:
- Длинный:
language-x-medium-[medium_type] - Короткий:
language-x-m-[medium_type]
Примеры:
en-x-medium-spokenилиen-x-m-spoken- Устный английскийko-x-medium-digitalилиko-x-m-digital- Цифровой/онлайн корейскийja-x-medium-writtenилиja-x-m-written- Письменный японскийhi-x-medium-bcastилиhi-x-m-bcast- Вещательный хиндиzh-x-medium-smsилиzh-x-m-sms- Китайский SMS/текстовые сообщения
10. Социо классификатор (socio или s)
Идентифицирует социолект или разновидности социальных групп.
Формат:
- Длинный:
language-x-socio-[social_group] - Короткий:
language-x-s-[social_group]
Примеры:
en-x-socio-academicилиen-x-s-academic- Академический социолектen-x-socio-urbanилиen-x-s-urban- Городской социолектes-x-socio-juvenilилиes-x-s-juvenil- Испанский молодежный социолект (jerga juvenil)fr-x-socio-jeuneилиfr-x-s-jeune- Французский молодежный социолектde-x-socio-jugendилиde-x-s-jugend- Немецкий молодежный социолект (Jugendsprache)ko-x-socio-onlineилиko-x-s-online- Корейский онлайн социолект
11. Классификатор модальности (modality или o)
Идентифицирует фундаментальный способ языкового производства.
Формат:
- Длинный:
language-x-modality-[mode] - Короткий:
language-x-o-[mode]
Примеры:
en-x-modality-spokenилиen-x-o-spoken- Устный английскийen-x-modality-writtenилиen-x-o-written- Письменный английскийasl-x-modality-signedилиasl-x-o-signed- Американский жестовый языкen-x-modality-multiилиen-x-o-multi- Мультимодальный английский (речь + жесты)fr-x-modality-tactileилиfr-x-o-tactile- Тактильный французский (для слепоглухих)
12. Классификатор регистра (register или r)
Идентифицирует языковой регистр или функциональную разновидность языкового использования.
Формат:
- Длинный:
language-x-register-[register_type] - Короткий:
language-x-r-[register_type]
Примеры:
en-x-register-frozenилиen-x-r-frozen- Замороженный регистр (молитвы, клятвы)en-x-register-formalилиen-x-r-formal- Формальный регистр (академические статьи)en-x-register-consultилиen-x-r-consult- Консультативный регистр (профессиональный)en-x-register-casualилиen-x-r-casual- Повседневный регистр (друзья)en-x-register-intimateилиen-x-r-intimate- Интимный регистр (семья)
13. Классификатор прагматической функции (pragma или u)
Идентифицирует коммуникативную функцию или речевой акт.
Формат:
- Длинный:
language-x-pragma-[function] - Короткий:
language-x-u-[function]
Примеры:
en-x-pragma-requestилиen-x-u-request- Функция просьбыja-x-pragma-apologyилиja-x-u-apology- Функция извиненияes-x-pragma-complmntилиes-x-u-complmnt- Функция комплиментаar-x-pragma-greetingилиar-x-u-greeting- Функция приветствияzh-x-pragma-refusalилиzh-x-u-refusal- Функция отказа
14. Классификатор временной маркировки (temporal или t)
Идентифицирует временные аспекты или паттерны использования времени.
Формат:
- Длинный:
language-x-temporal-[aspect] - Короткий:
language-x-t-[aspect]
Примеры:
en-x-temporal-pastилиen-x-t-past- Ориентированный на прошлое дискурсja-x-temporal-nonpastилиja-x-t-nonpast- Фокус на непрошлоеid-x-temporal-atemprlилиid-x-t-atemprl- Вневременной/атемпоральныйfr-x-temporal-futureилиfr-x-t-future- Ориентированный на будущееzh-x-temporal-aspectилиzh-x-t-aspect- Аспектуальный фокус
15. Эвиденциальный классификатор (evidence или v)
Идентифицирует маркировку источника информации.
Формат:
- Длинный:
language-x-evidence-[source] - Короткий:
language-x-v-[source]
Примеры:
qu-x-evidence-directилиqu-x-v-direct- Прямой свидетельtr-x-evidence-hearsayилиtr-x-v-hearsay- По слухам/сообщеноja-x-evidence-inferилиja-x-v-infer- Инференциальныйen-x-evidence-assumeилиen-x-v-assume- Предполагаемыйde-x-evidence-quoteилиde-x-v-quote- Цитативный
16. Классификатор аффекта/эмоции (affect или k)
Идентифицирует эмоциональный тон или аффект.
Формат:
- Длинный:
language-x-affect-[emotion] - Короткий:
language-x-k-[emotion]
Примеры:
en-x-affect-angryилиen-x-k-angry- Сердитый тонja-x-affect-humbleилиja-x-k-humble- Смиренный аффектes-x-affect-joyfulилиes-x-k-joyful- Радостное выражениеko-x-affect-sadилиko-x-k-sad- Грустный/меланхоличныйfr-x-affect-neutralилиfr-x-k-neutral- Нейтральный аффект
17. Классификатор возраста/поколения (age или n)
Идентифицирует возрастные или поколенческие языковые разновидности.
Формат:
- Длинный:
language-x-age-[generation] - Короткий:
language-x-n-[generation]
Примеры:
en-x-age-childилиen-x-n-child- Детская речьja-x-age-teenилиja-x-n-teen- Подростковый языкko-x-age-elderилиko-x-n-elder- Речь пожилыхes-x-age-genzилиes-x-n-genz- Поколение Zzh-x-age-millenlилиzh-x-n-millenl- Речь миллениалов
18. Гендерный классификатор (gender или i)
Идентифицирует гендерные языковые разновидности.
Формат:
- Длинный:
language-x-gender-[identity] - Короткий:
language-x-i-[identity]
19. Классификатор уровня экспертизы (expert или b)
Идентифицирует уровень предметной экспертизы по шкале 0-10.
Формат:
- Длинный:
language-x-expert-[0-10] - Короткий:
language-x-b-[0-10]
Шкала экспертизы:
- 0 = Нет знаний
- 1-2 = Начинающий
- 3-4 = Средний уровень
- 5-6 = Продвинутый
- 7-8 = Эксперт
- 9-10 = Мастер/Авторитет
Примеры:
en-x-expert-0илиen-x-b-0- Нет экспертизыde-x-expert-3илиde-x-b-3- Средний уровеньja-x-expert-7илиja-x-b-7- Уровень экспертаes-x-expert-9илиes-x-b-9- Уровень мастераzh-x-expert-5илиzh-x-b-5- Продвинутый уровень
20. Классификатор интеракциональной структуры (interact или 2)
Идентифицирует разговорные или интеракциональные паттерны.
Формат:
- Длинный:
language-x-interact-[structure] - Короткий:
language-x-2-[structure]
Примеры:
en-x-interact-turnилиen-x-2-turn- Смена очередиja-x-interact-overlapилиja-x-2-overlap- Перекрывающаяся речьes-x-interact-monologилиes-x-2-monolog- Монологическийar-x-interact-dialogилиar-x-2-dialog- Диалогическийzh-x-interact-multiилиzh-x-2-multi- Многосторонний
21. Классификатор просодических особенностей (prosody или y)
Идентифицирует просодические или суперсегментные особенности.
Формат:
- Длинный:
language-x-prosody-[feature] - Короткий:
language-x-y-[feature]
Примеры:
en-x-prosody-stressилиen-x-y-stress- Ударный ритмja-x-prosody-pitchилиja-x-y-pitch- Тональное ударениеfr-x-prosody-syllableилиfr-x-y-syllable- Слоговой ритмzh-x-prosody-toneилиzh-x-y-tone- Тональные паттерныes-x-prosody-rhythmилиes-x-y-rhythm- Ритмические паттерны
22. Классификатор лексической плотности (lexical или l)
Идентифицирует лексическую плотность как числовое значение (0-100).
Формат:
- Длинный:
language-x-lexical-[0-100] - Короткий:
language-x-l-[0-100]
Примеры:
en-x-lexical-20илиen-x-l-20- Низкая плотность (20%)de-x-lexical-55илиde-x-l-55- Средняя плотность (55%)ja-x-lexical-75илиja-x-l-75- Высокая плотность (75%)es-x-lexical-40илиes-x-l-40- Умеренная плотность (40%)zh-x-lexical-85илиzh-x-l-85- Очень высокая плотность (85%)
23. Классификатор синтаксической сложности (syntax или z)
Идентифицирует синтаксическую сложность как числовое значение (0-100).
Формат:
- Длинный:
language-x-syntax-[0-100] - Короткий:
language-x-z-[0-100]
Примеры:
en-x-syntax-15илиen-x-z-15- Простой синтаксис (15%)de-x-syntax-70илиde-x-z-70- Сложный синтаксис (70%)ja-x-syntax-45илиja-x-z-45- Умеренная сложность (45%)es-x-syntax-30илиes-x-z-30- Низкая сложность (30%)zh-x-syntax-60илиzh-x-z-60- Высокая сложность (60%)
24. Классификатор даты начала (start или 0)
Идентифицирует дату начала языкового использования (формат ISO 8601 без пунктуации).
Формат:
- Длинный:
language-x-start-[YYYYMMDD] - Короткий:
language-x-0-[YYYYMMDD]
Форматы дат:
- Полная дата: YYYYMMDD
- Год-месяц: YYYYMM
- Только год: YYYY
Примеры:
en-x-start-20240315илиen-x-0-20240315- Английский начиная с 15 марта 2024ja-x-start-19890108илиja-x-0-19890108- Японский начиная с 8 января 1989es-x-start-202403илиes-x-0-202403- Испанский начиная с марта 2024
25. Классификатор даты окончания (end или 1)
Идентифицирует дату окончания языкового использования (формат ISO 8601 без пунктуации).
Формат:
- Длинный:
language-x-end-[YYYYMMDD] - Короткий:
language-x-1-[YYYYMMDD]
Форматы дат:
- Полная дата: YYYYMMDD
- Год-месяц: YYYYMM
- Только год: YYYY
Примеры:
en-x-end-20240415илиen-x-1-20240415- Английский заканчивающийся 15 апреля 2024ja-x-end-20190430илиja-x-1-20190430- Японский заканчивающийся 30 апреля 2019es-x-end-202412илиes-x-1-202412- Испанский заканчивающийся в декабре 2024
26. Классификатор табу (taboo или j)
Идентифицирует уровень табуированного, вульгарного или оскорбительного контента.
Формат:
- Длинный:
language-x-taboo-[0-5] - Короткий:
language-x-j-[0-5]
Примеры:
en-x-taboo-0илиen-x-j-0- Нет табуированного контентаen-x-taboo-3илиen-x-j-3- Умеренный уровень табуja-x-form-5-taboo-4илиja-x-f-5-j-4- Очень повседневный японский с высоким уровнем табу
27. Классификатор уверенности (conf или c)
Указывает оценку уверенности для непосредственно предшествующего классификатора.
Формат:
- Длинный:
language-x-[classifier]-[value]-conf-[0-100] - Короткий:
language-x-[classifier]-[value]-c-[0-100]
Особое поведение:
- Оценка уверенности применяется к непосредственно предшествующему классификатору
- Несколько оценок уверенности могут использоваться для разных классификаторов
- Если нет предшествующего классификатора, уверенность применяется к базовому языковому тегу
Примеры:
en-x-form-3-conf-95илиen-x-f-3-c-95- Нейтральная формальность с 95% уверенностьюko-x-polite-2-conf-80-domain-med-conf-60илиko-x-p-2-c-80-d-med-c-60- Очень вежливый (80% уверенности) медицинский корейский (60% уверенности)ja-x-hist-kobun-conf-100илиja-x-h-kobun-c-100- Классический японский со 100% уверенностьюx-proto-ine-conf-75илиx-a-ine-c-75- Праиндоевропейский с 75% уверенностью
Множественные классификации
LVTag поддерживает несколько классификаторов в одном теге для обеспечения точной языковой идентификации. Длинные и короткие формы могут смешиваться:
ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
Приведенные выше примеры показывают корейский с неформальной формальностью (4), но вежливой речью (2) в деловом контексте.
Допустимые значения
Примечание: Все значения должны быть 8 символов или меньше для соответствия ограничениям длины подтегов BCP 47. Хотя конкретные значения для многих классификаторов должны устанавливаться через экспертное использование и консенсус сообщества, числовые шкалы, форматы дат и базовые значения, перечисленные ниже, определены в этом стандарте.
Шкала формальности (Универсальная)
| Уровень | Описание | Примеры |
|---|---|---|
| 1 | Наиболее формальный | Юридические документы, официальные церемонии, академические статьи |
| 2 | Формальный | Деловые письма, новостные статьи, презентации |
| 3 | Нейтральный | Стандартный разговор, электронная почта, общее письмо |
| 4 | Неформальный | Повседневный разговор, личные блоги, текстовые сообщения |
| 5 | Наиболее повседневный | Сленг, интимный разговор, социальные сети |
Шкала вежливости (Универсальная)
| Уровень | Описание | Примеры |
|---|---|---|
| 1 | Наиболее уважительный | Королевское обращение, религиозные лидеры, уважение к старшим |
| 2 | Очень вежливый | Обслуживание клиентов, формальные встречи, учителя |
| 3 | Вежливый/нейтральный | Стандартные взаимодействия, коллеги |
| 4 | Дружеский | Друзья, ровесники, случайные знакомые |
| 5 | Интимный/простой | Близкая семья, интимные партнеры |
Шкала экспертизы (Универсальная)
| Уровень | Описание |
|---|---|
| 0 | Нет знаний |
| 1-2 | Начинающий |
| 3-4 | Средний уровень |
| 5-6 | Продвинутый |
| 7-8 | Эксперт |
| 9-10 | Мастер/Авторитет |
Шкала табу (Универсальная)
| Уровень | Описание |
|---|---|
| 0 | Нет табуированного контента |
| 1 | Мягкое табу |
| 2 | Легкое табу |
| 3 | Умеренное табу |
| 4 | Высокое табу |
| 5 | Экстремальное табу |
Шкала лексической плотности (Универсальная)
| Уровень | Описание |
|---|---|
| 0-20 | Очень низкая плотность |
| 21-40 | Низкая плотность |
| 41-60 | Умеренная плотность |
| 61-80 | Высокая плотность |
| 81-100 | Очень высокая плотность |
Шкала синтаксической сложности (Универсальная)
| Уровень | Описание |
|---|---|
| 0-20 | Очень простая |
| 21-40 | Простая |
| 41-60 | Умеренная сложность |
| 61-80 | Сложная |
| 81-100 | Очень сложная |
Значения области
| Значение | Описание |
|---|---|
legal |
Юридическая терминология |
med |
Медицинская терминология |
tech |
Техническая/ИТ |
business |
Бизнес/корпоративная |
fin |
Финансы/банковское дело |
acad |
Академическая/научная |
sci |
Научная/исследовательская |
Примеры реализации
Одиночный классификатор (Длинная форма)
# Наиболее формальный корейский
ko-x-form-1
# Очень вежливый японский
ja-x-polite-2
# Юридический английский
en-x-domain-legal
# Корейский из Кёнсан
ko-x-geo-gyeong
# Праиндоевропейский
x-proto-ine
Одиночный классификатор (Короткая форма)
# Наиболее формальный корейский
ko-x-f-1
# Очень вежливый японский
ja-x-p-2
# Юридический английский
en-x-d-legal
# Корейский из Кёнсан
ko-x-g-gyeong
# Праиндоевропейский
x-a-ine
Множественные классификаторы
# Неформальный но вежливый корейский деловой язык
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
# Формальный и уважительный японский медицинский язык
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med
# Южный вьетнамский с нейтральной формальностью, вежливой речью, технической областью
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech
# Сложная классификация с несколькими измерениями
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written
# Языковые разновидности, показывающие различие формальность/вежливость
ko-x-f-5-p-2 # Очень повседневный но вежливый (к старшему другу)
ko-x-f-1-p-4 # Очень формальный но дружеский (письменно к ровеснику)
ja-x-f-4-p-1 # Повседневная формальность но высшее уважение
en-x-f-5-j-4 # Очень повседневный английский с высоким уровнем табу
Случаи использования
- Приложения для изучения языков
- Обучение соответствующему регистру для различных социальных контекстов
- Предоставление тренировки словаря для конкретной области
- Машинный перевод
- Поддержание последовательности регистра в переводах
- Применение терминологии для конкретной области
- Классификация контента
- Автоматическая категоризация текста по формальности и области
- Направление контента соответствующим рецензентам или системам
- Корпусная лингвистика
- Создание размеченных корпусов для лингвистических исследований
- Изучение вариаций регистра и области
Правила валидации
- Длина подтега: Каждый подтег после
x-должен быть 8 символов или меньше - Порядок: Классификаторы могут появляться в любом порядке после
x- - Уникальность: Каждый тип классификатора должен появляться только один раз на тег (кроме
conf, который может появляться несколько раз) - Регистр: Теги должны быть в нижнем регистре (нечувствительны к регистру согласно BCP 47)
- Магические теги: Теги короткой формы - это одиночные символы;
q,3-9зарезервированы для будущего использования - Смешивание: Длинные и короткие формы могут смешиваться в одном теге
- Теги прото: Должны начинаться с
x-и ДОЛЖНЫ использовать коды ISO 639-5, когда доступны (например,x-proto-slaнеx-proto-slavic) - Уверенность: Классификатор
conf/cприменяется к непосредственно предшествующему классификатору - Числовые значения: Должны быть в пределах определенных диапазонов (0-5 для табу, 0-10 для экспертизы, 0-100 для процентных значений)
- Формат даты: Даты используют ISO 8601 без пунктуации (YYYY, YYYYMM или YYYYMMDD)
Совместимость
Формат LVTag полностью совместим с:
- BCP 47 (RFC 5646)
- Языковыми кодами ISO 639
- Реестром языковых подтегов IANA
- Unicode CLDR
Преимущества
- Точность: Позволяет детальную идентификацию языковых разновидностей
- Расширяемость: Могут быть добавлены новые регистры и области
- Основан на стандартах: Построен на установленном механизме частного использования BCP 47
- Машиночитаемый: Систематический формат позволяет автоматизированную обработку
- Читаемый человеком: Ясные, описательные подтеги
- Гибкость: Поддержка как подробных длинных, так и кратких коротких тегов
- Краткость: Короткие магические теги позволяют компактное представление при сохранении ясности
Будущие расширения
LVTag разработан для развития вместе с потребностями сообщества языковых технологий. Мы приветствуем предложения для новых классификаторов, улучшений существующих и отзывы от реальных реализаций.
Чтобы предложить расширения или внести вклад в спецификацию:
- Откройте issue на github.com/lvtag/spec
- Присоединитесь к обсуждению существующих предложений
- Поделитесь своим опытом реализации
- Отправьте pull requests для улучшений документации
Зарезервированные однобуквенные коды (q, 3-9) доступны для будущих стандартизированных расширений.
Ссылки
Лицензия и предоставление патентов
Эта спецификация выпущена под CC0 1.0 Universal (Public Domain Dedication).
Почему CC0: Чтобы обеспечить максимальное принятие и свободу реализации, LVTag помещен в общественное достояние. Это означает:
- Не требуется разрешение для использования, реализации или модификации
- Не требуется указание авторства (хотя это приветствуется)
- Нет правовых барьеров для коммерческого или государственного использования
- Совместим со всеми лицензиями программного обеспечения
- Используется основными стандартами, такими как Unicode CLDR
Предоставление патентов: Любые патенты, охватывающие спецификацию LVTag, настоящим лицензируются без лицензионных отчислений для любой реализации, соответствующей этой спецификации.
Без одобрения: Использование LVTag не подразумевает одобрения авторами спецификации.
В пределах, разрешенных законом, Danslav Slavenskoj отказался от всех авторских и смежных или соседних прав на Спецификацию формата Language Variant Tag (LVTag). Эта работа опубликована из: Соединенных Штатов Америки.