Спецификация LVTag
Версия 1.0
Создал Danslav Slavenskoj
Дата: Май 2025
Языки: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски
Быстрые ссылки
- JSON схема - Полная схема валидации для формата LVTag
 - Определения классификаторов - Машиночитаемые спецификации классификаторов
 - Спецификация - Перейти к деталям формата
 - Примеры - Посмотреть LVTag в действии
 
Обзор
Формат Language Variant Tag (LVTag) - это систематический подход к классификации языков, который расширяет стандарт BCP 47 с использованием подтегов частного использования. Он позволяет точно идентифицировать языковые варианты по нескольким измерениям, включая формальность, вежливость, область и орфографию.
Ключевые преимущества
Строгость классификации: LVTag привносит систематическую организацию в языковую маркировку, предоставляя четкие, отдельные измерения для различных типов вариаций. В отличие от существующих подтегов и систем, которые смешивают разные категории на одном уровне, LVTag поддерживает строгое разделение между формальностью, вежливостью, областью и другими измерениями.
Совместимость со стандартами: LVTag полностью совместим с BCP 47 (RFC 5646) и бесшовно работает с:
- Реестром языковых подтегов IANA
 - Языковыми кодами ISO 639
 - Unicode CLDR
 - Языковыми тегами W3C
 - Заголовками HTTP Accept-Language
 - Атрибутами lang XML
 - Атрибутами lang HTML
 
Технологическая интеграция: Теги LVTag могут использоваться напрямую в:
- Конвейерах обработки естественного языка (NLP)
 - Системах машинного перевода
 - Системах управления контентом (CMS)
 - Библиотеках определения языка
 - Поисковых системах и системах поиска информации
 - Веб-приложениях и API
 - Рабочих процессах локализации
 
Случаи использования:
- Целевая аудитория: Адаптация контента для соответствующей аудитории на основе регистра и области
 - Качество перевода: Поддержание соответствующих уровней формальности и вежливости в машинном переводе
 - Изучение языков: Обучение учащихся соответствующему регистру для различных контекстов
 - Корпусная лингвистика: Создание точно размеченных корпусов для исследований
 - Анализ социальных сетей: Классификация пользовательского контента по регистру и области
 - Обслуживание клиентов: Направление сообщений на основе формальности и области соответствующим агентам
 
Обоснование
Хотя BCP 47 обеспечивает отличную поддержку для идентификации языков, письменностей и регионов, ему не хватает стандартизированных механизмов для фиксации социолингвистических вариаций внутри языка. Текущие стандарты не охватывают:
- Вариации регистра: Нет способа различать формальные и неформальные разновидности одного языка
 - Уровни вежливости: Критично для языков, таких как японский, корейский и тайский, где вежливость грамматически закодирована
 - Специализированный язык: Нет стандарта для маркировки технических, медицинских или юридических языковых разновидностей
 - Социолекты: Нет механизма для идентификации разновидностей социальных групп (молодежный язык, профессиональный жаргон)
 - Исторические этапы: Ограниченная поддержка различения классических форм от современных
 - Градиенты формальности: Нет числовой шкалы для вычислительной обработки регистра
 - Праязыки: Непоследовательное кодирование - некоторые праязыки имеют коды ISO (например, 
ineдля PIE), в то время как другие нет, а коды семейств ISO 639-5 недействительны в тегах BCP 47, создавая запутанную ситуацию для исторической лингвистики - Орфографические вариации: Хотя BCP 47 обрабатывает письменности, он не эффективно фиксирует вариации внутри письменностей (орфографические реформы, системы романизации, конкурирующие стандарты), которые фундаментально влияют на обработку текста, поиск и проверку орфографии
 
LVTag заполняет эти пробелы, используя механизм расширения частного использования BCP 47 (-x-), предоставляя систематический, машиночитаемый способ кодирования этих критических измерений языковой вариации при сохранении полной обратной совместимости.
Точная языковая классификация
Появление больших языковых моделей и сложных инструментов NLP сделало точную классификацию языковых разновидностей не просто полезной, но необходимой. Современные системы должны:
- Генерировать текст, подходящий для конкретных контекстов (формальный vs. неформальный, вежливый vs. повседневный)
 - Обучаться на правильно классифицированных корпусах, чтобы избежать неуместного смешения регистров
 - Предоставлять культурно и контекстуально подходящие ответы
 - Точно обрабатывать переключение кода и смешанный языковой контент
 - Сохранять стилистическую последовательность при переводе или преобразовании текста
 - Фильтровать обучающие данные на основе формальности, области или других характеристик
 - Адаптировать вывод в соответствии с предпочтениями или требованиями пользователя
 
LVTag предоставляет детализированные метаданные, необходимые для понимания не только того, какой язык используется, но и как он используется, позволяя создавать более тонкие и подходящие конвейеры обработки языка.
Спецификация формата
Базовая структура
language-x-[classifier]-[value]-[classifier2]-[value2]...
Где:
language- это действительный подтег основного языка BCP 47 (например,en,ko,ja)xуказывает на начало подтегов частного использованияclassifier- это идентификатор категории (см. Магические теги ниже)value- это конкретная классификация в рамках этой категории
Магические теги
LVTag поддерживает как длинные, так и короткие формы “магических” классификаторов для гибкости:
| Длинная форма | Короткая форма | Описание | 
|---|---|---|
ortho | 
      w | 
      Орфографический вариант | 
form | 
      f | 
      Уровень формальности (шкала 1-5) | 
polite | 
      p | 
      Уровень вежливости/уважения (шкала 1-5) | 
domain | 
      d | 
      Специализированная лексика или профессиональный контекст | 
geo | 
      g | 
      Географическая или региональная разновидность | 
proto | 
      a | 
      Праязык или реконструированный язык | 
hist | 
      h | 
      Исторический период или этап языка | 
genre | 
      e | 
      Текстовый жанр или литературный стиль | 
medium | 
      m | 
      Средство коммуникации (устное, письменное, цифровое) | 
socio | 
      s | 
      Социолект или разновидность социальной группы | 
modality | 
      o | 
      Способ языкового производства | 
register | 
      r | 
      Языковой регистр | 
pragma | 
      u | 
      Коммуникативная функция | 
temporal | 
      t | 
      Временная маркировка | 
evidence | 
      v | 
      Источник информации | 
affect | 
      k | 
      Эмоциональный тон | 
age | 
      n | 
      Возрастная/поколенческая разновидность | 
gender | 
      i | 
      Гендерная разновидность | 
expert | 
      b | 
      Уровень экспертизы | 
interact | 
      2 | 
      Интеракциональная структура | 
prosody | 
      y | 
      Просодические особенности | 
lexical | 
      l | 
      Лексическая плотность (0-100) | 
syntax | 
      z | 
      Синтаксическая сложность (0-100) | 
start | 
      0 | 
      Дата начала (ISO 8601 без пунктуации) | 
end | 
      1 | 
      Дата окончания (ISO 8601 без пунктуации) | 
taboo | 
      j | 
      Уровень табуированного/вульгарного контента (шкала 0-5) | 
conf | 
      c | 
      Оценка уверенности (0-100) для предыдущего тега | 
| — | q, 3-9 | 
      Зарезервировано для будущего использования | 
Классификаторы
1. Орфографический классификатор (ortho или w)
Идентифицирует конкретные орфографические конвенции или варианты системы письма за пределами стандартных тегов письменности.
Формат:
- Длинный: 
language-x-ortho-[variant] - Короткий: 
language-x-w-[variant] 
Примеры (в сочетании со стандартными тегами письменности):
az-Latn-x-ortho-newилиaz-Latn-x-w-new- Азербайджанский латиница, новая орфографияde-Latn-x-ortho-1901илиde-Latn-x-w-1901- Немецкий латиница, орфография 1901 годаzh-Hans-x-ortho-pinyinилиzh-Hans-x-w-pinyin- Упрощенный китайский с пиньиньyi-Hebr-x-ortho-yivoилиyi-Hebr-x-w-yivo- Идиш еврейское письмо, орфография YIVO
2. Классификатор формальности (form или f)
Идентифицирует уровень формальности языкового использования.
Формат:
- Длинный: 
language-x-form-[1-5] - Короткий: 
language-x-f-[1-5] 
Шкала формальности:
- 1 = Наиболее формальный (письменные документы, официальные речи)
 - 2 = Формальный (деловые встречи, академическое письмо)
 - 3 = Нейтральный/стандартный (новости, общий разговор)
 - 4 = Неформальный (непринужденный разговор, электронные письма друзьям)
 - 5 = Наиболее повседневный (интимный разговор, сленг)
 
Примеры:
ko-x-form-1илиko-x-f-1- Наиболее формальный корейскийen-x-form-3илиen-x-f-3- Нейтральный английскийja-x-form-5илиja-x-f-5- Наиболее повседневный японский
3. Классификатор вежливости (polite или p)
Идентифицирует уровень вежливости/уважения языкового использования.
Формат:
- Длинный: 
language-x-polite-[1-5] - Короткий: 
language-x-p-[1-5] 
Шкала вежливости:
- 1 = Наиболее уважительный/почтительный (королевское обращение, религиозные контексты)
 - 2 = Очень вежливый (формальные почетные формы, уважительная речь)
 - 3 = Вежливый/нейтральный (стандартная вежливость)
 - 4 = Дружеский (между равными, друзьями)
 - 5 = Интимный/простой (семья, очень близкие друзья)
 
Примеры:
ko-x-polite-1илиko-x-p-1- Корейский с высшим уважениемja-x-polite-2илиja-x-p-2- Очень вежливый японскийth-x-polite-3илиth-x-p-3- Стандартно вежливый тайский
4. Классификатор области (domain или d)
Идентифицирует специализированную лексику или профессиональный контекст.
Формат:
- Длинный: 
language-x-domain-[domain_type] - Короткий: 
language-x-d-[domain_type] 
Примеры:
en-x-domain-legalилиen-x-d-legal- Юридический английскийja-x-domain-medилиja-x-d-med- Медицинский японскийko-x-domain-businessилиko-x-d-business- Деловой корейскийja-x-domain-techилиja-x-d-tech- Технический японскийen-x-domain-finилиen-x-d-fin- Финансовый английский
5. Географический классификатор (geo или g)
Идентифицирует региональные или географические языковые разновидности.
Формат:
- Длинный: 
language-x-geo-[region] - Короткий: 
language-x-g-[region] 
Примеры:
ko-x-geo-gyeongилиko-x-g-gyeong- Корейский из Кёнсан (경상도)ko-x-geo-jeollaилиko-x-g-jeolla- Корейский из Чолла (전라도)es-x-geo-rioplaилиes-x-g-riopla- Риоплатский испанскийpt-x-geo-nordesteилиpt-x-g-nordeste- Португальский северо-востока Бразилии
6. Классификатор прото (proto или a)
Идентифицирует праязыки или реконструированные исторические языки.
Формат:
- Длинный: 
x-proto-[iso639-5_code if available] - Короткий: 
x-a-[iso639-5_code if available] 
Правила:
- ДОЛЖЕН использовать коды языковых семейств ISO 639-5, когда они доступны
 - Использовать описательные идентификаторы только когда код ISO 639-5 не существует
 
Примеры с использованием кодов ISO 639-5:
x-proto-ineилиx-a-ine- Праиндоевропейскийx-proto-gemилиx-a-gem- Прагерманскийx-proto-slaилиx-a-sla- Праславянскийx-proto-semилиx-a-sem- Прасемитскийx-proto-celилиx-a-cel- Пракельтскийx-proto-iraилиx-a-ira- Праиранскийx-proto-incилиx-a-inc- Праиндоарийскийx-proto-batилиx-a-bat- Прабалтийскийx-proto-roaилиx-a-roa- Праромансскийx-proto-trkилиx-a-trk- Пратюркский
Примеры без кодов ISO 639-5 (описательные, более трех символов):
x-proto-baltslavилиx-a-baltslav- Прабалтославянский (нет кода ISO 639-5)
Примечание:
- Коды языковых семейств (ISO 639-5) НЕ являются действительными как стандартные основные языковые теги BCP 47, поэтому мы реализовали их с использованием x-proto
 - Они действительны и предпочтительны в расширениях частного использования (после 
x-) - Поэтому все теги праязыков должны начинаться с 
x-для соответствия BCP 47 
7. Исторический классификатор (hist или h)
Идентифицирует исторические периоды или этапы языка.
Формат:
- Длинный: 
language-x-hist-[period] - Короткий: 
language-x-h-[period] 
Примеры:
en-x-hist-oldилиen-x-h-old- Древнеанглийский периодen-x-hist-middleилиen-x-h-middle- Среднеанглийский периодja-x-hist-kobunилиja-x-h-kobun- Классический японский (古文)ko-x-hist-hunminилиko-x-h-hunmin- Среднекорейский (훈민정음 период)el-x-hist-koineилиel-x-h-koine- Койне греческий (Κοινή)sa-x-hist-vedicилиsa-x-h-vedic- Ведийский санскрит (वैदिक)
8. Жанровый классификатор (genre или e)
Идентифицирует текстовый жанр или литературный стиль.
Формат:
- Длинный: 
language-x-genre-[genre_type] - Короткий: 
language-x-e-[genre_type] 
Примеры:
en-x-genre-newsилиen-x-e-news- Новостной английскийja-x-genre-mangaилиja-x-e-manga- Японский манга (漫画)ko-x-genre-webtoonилиko-x-e-webtoon- Корейский вебтун (웹툰)zh-x-genre-shiилиzh-x-e-shi- Китайская поэзия (詩)fr-x-genre-bdилиfr-x-e-bd- Французские комиксы (bande dessinée)de-x-genre-marchenилиde-x-e-marchen- Немецкие сказки (Märchen)
9. Классификатор средства (medium или m)
Идентифицирует средство коммуникации.
Формат:
- Длинный: 
language-x-medium-[medium_type] - Короткий: 
language-x-m-[medium_type] 
Примеры:
en-x-medium-spokenилиen-x-m-spoken- Устный английскийko-x-medium-digitalилиko-x-m-digital- Цифровой/онлайн корейскийja-x-medium-writtenилиja-x-m-written- Письменный японскийhi-x-medium-bcastилиhi-x-m-bcast- Вещательный хиндиzh-x-medium-smsилиzh-x-m-sms- Китайский SMS/текстовые сообщения
10. Социо классификатор (socio или s)
Идентифицирует социолект или разновидности социальных групп.
Формат:
- Длинный: 
language-x-socio-[social_group] - Короткий: 
language-x-s-[social_group] 
Примеры:
en-x-socio-academicилиen-x-s-academic- Академический социолектen-x-socio-urbanилиen-x-s-urban- Городской социолектes-x-socio-juvenilилиes-x-s-juvenil- Испанский молодежный социолект (jerga juvenil)fr-x-socio-jeuneилиfr-x-s-jeune- Французский молодежный социолектde-x-socio-jugendилиde-x-s-jugend- Немецкий молодежный социолект (Jugendsprache)ko-x-socio-onlineилиko-x-s-online- Корейский онлайн социолект
11. Классификатор модальности (modality или o)
Идентифицирует фундаментальный способ языкового производства.
Формат:
- Длинный: 
language-x-modality-[mode] - Короткий: 
language-x-o-[mode] 
Примеры:
en-x-modality-spokenилиen-x-o-spoken- Устный английскийen-x-modality-writtenилиen-x-o-written- Письменный английскийasl-x-modality-signedилиasl-x-o-signed- Американский жестовый языкen-x-modality-multiилиen-x-o-multi- Мультимодальный английский (речь + жесты)fr-x-modality-tactileилиfr-x-o-tactile- Тактильный французский (для слепоглухих)
12. Классификатор регистра (register или r)
Идентифицирует языковой регистр или функциональную разновидность языкового использования.
Формат:
- Длинный: 
language-x-register-[register_type] - Короткий: 
language-x-r-[register_type] 
Примеры:
en-x-register-frozenилиen-x-r-frozen- Замороженный регистр (молитвы, клятвы)en-x-register-formalилиen-x-r-formal- Формальный регистр (академические статьи)en-x-register-consultилиen-x-r-consult- Консультативный регистр (профессиональный)en-x-register-casualилиen-x-r-casual- Повседневный регистр (друзья)en-x-register-intimateилиen-x-r-intimate- Интимный регистр (семья)
13. Классификатор прагматической функции (pragma или u)
Идентифицирует коммуникативную функцию или речевой акт.
Формат:
- Длинный: 
language-x-pragma-[function] - Короткий: 
language-x-u-[function] 
Примеры:
en-x-pragma-requestилиen-x-u-request- Функция просьбыja-x-pragma-apologyилиja-x-u-apology- Функция извиненияes-x-pragma-complmntилиes-x-u-complmnt- Функция комплиментаar-x-pragma-greetingилиar-x-u-greeting- Функция приветствияzh-x-pragma-refusalилиzh-x-u-refusal- Функция отказа
14. Классификатор временной маркировки (temporal или t)
Идентифицирует временные аспекты или паттерны использования времени.
Формат:
- Длинный: 
language-x-temporal-[aspect] - Короткий: 
language-x-t-[aspect] 
Примеры:
en-x-temporal-pastилиen-x-t-past- Ориентированный на прошлое дискурсja-x-temporal-nonpastилиja-x-t-nonpast- Фокус на непрошлоеid-x-temporal-atemprlилиid-x-t-atemprl- Вневременной/атемпоральныйfr-x-temporal-futureилиfr-x-t-future- Ориентированный на будущееzh-x-temporal-aspectилиzh-x-t-aspect- Аспектуальный фокус
15. Эвиденциальный классификатор (evidence или v)
Идентифицирует маркировку источника информации.
Формат:
- Длинный: 
language-x-evidence-[source] - Короткий: 
language-x-v-[source] 
Примеры:
qu-x-evidence-directилиqu-x-v-direct- Прямой свидетельtr-x-evidence-hearsayилиtr-x-v-hearsay- По слухам/сообщеноja-x-evidence-inferилиja-x-v-infer- Инференциальныйen-x-evidence-assumeилиen-x-v-assume- Предполагаемыйde-x-evidence-quoteилиde-x-v-quote- Цитативный
16. Классификатор аффекта/эмоции (affect или k)
Идентифицирует эмоциональный тон или аффект.
Формат:
- Длинный: 
language-x-affect-[emotion] - Короткий: 
language-x-k-[emotion] 
Примеры:
en-x-affect-angryилиen-x-k-angry- Сердитый тонja-x-affect-humbleилиja-x-k-humble- Смиренный аффектes-x-affect-joyfulилиes-x-k-joyful- Радостное выражениеko-x-affect-sadилиko-x-k-sad- Грустный/меланхоличныйfr-x-affect-neutralилиfr-x-k-neutral- Нейтральный аффект
17. Классификатор возраста/поколения (age или n)
Идентифицирует возрастные или поколенческие языковые разновидности.
Формат:
- Длинный: 
language-x-age-[generation] - Короткий: 
language-x-n-[generation] 
Примеры:
en-x-age-childилиen-x-n-child- Детская речьja-x-age-teenилиja-x-n-teen- Подростковый языкko-x-age-elderилиko-x-n-elder- Речь пожилыхes-x-age-genzилиes-x-n-genz- Поколение Zzh-x-age-millenlилиzh-x-n-millenl- Речь миллениалов
18. Гендерный классификатор (gender или i)
Идентифицирует гендерные языковые разновидности.
Формат:
- Длинный: 
language-x-gender-[identity] - Короткий: 
language-x-i-[identity] 
19. Классификатор уровня экспертизы (expert или b)
Идентифицирует уровень предметной экспертизы по шкале 0-10.
Формат:
- Длинный: 
language-x-expert-[0-10] - Короткий: 
language-x-b-[0-10] 
Шкала экспертизы:
- 0 = Нет знаний
 - 1-2 = Начинающий
 - 3-4 = Средний уровень
 - 5-6 = Продвинутый
 - 7-8 = Эксперт
 - 9-10 = Мастер/Авторитет
 
Примеры:
en-x-expert-0илиen-x-b-0- Нет экспертизыde-x-expert-3илиde-x-b-3- Средний уровеньja-x-expert-7илиja-x-b-7- Уровень экспертаes-x-expert-9илиes-x-b-9- Уровень мастераzh-x-expert-5илиzh-x-b-5- Продвинутый уровень
20. Классификатор интеракциональной структуры (interact или 2)
Идентифицирует разговорные или интеракциональные паттерны.
Формат:
- Длинный: 
language-x-interact-[structure] - Короткий: 
language-x-2-[structure] 
Примеры:
en-x-interact-turnилиen-x-2-turn- Смена очередиja-x-interact-overlapилиja-x-2-overlap- Перекрывающаяся речьes-x-interact-monologилиes-x-2-monolog- Монологическийar-x-interact-dialogилиar-x-2-dialog- Диалогическийzh-x-interact-multiилиzh-x-2-multi- Многосторонний
21. Классификатор просодических особенностей (prosody или y)
Идентифицирует просодические или суперсегментные особенности.
Формат:
- Длинный: 
language-x-prosody-[feature] - Короткий: 
language-x-y-[feature] 
Примеры:
en-x-prosody-stressилиen-x-y-stress- Ударный ритмja-x-prosody-pitchилиja-x-y-pitch- Тональное ударениеfr-x-prosody-syllableилиfr-x-y-syllable- Слоговой ритмzh-x-prosody-toneилиzh-x-y-tone- Тональные паттерныes-x-prosody-rhythmилиes-x-y-rhythm- Ритмические паттерны
22. Классификатор лексической плотности (lexical или l)
Идентифицирует лексическую плотность как числовое значение (0-100).
Формат:
- Длинный: 
language-x-lexical-[0-100] - Короткий: 
language-x-l-[0-100] 
Примеры:
en-x-lexical-20илиen-x-l-20- Низкая плотность (20%)de-x-lexical-55илиde-x-l-55- Средняя плотность (55%)ja-x-lexical-75илиja-x-l-75- Высокая плотность (75%)es-x-lexical-40илиes-x-l-40- Умеренная плотность (40%)zh-x-lexical-85илиzh-x-l-85- Очень высокая плотность (85%)
23. Классификатор синтаксической сложности (syntax или z)
Идентифицирует синтаксическую сложность как числовое значение (0-100).
Формат:
- Длинный: 
language-x-syntax-[0-100] - Короткий: 
language-x-z-[0-100] 
Примеры:
en-x-syntax-15илиen-x-z-15- Простой синтаксис (15%)de-x-syntax-70илиde-x-z-70- Сложный синтаксис (70%)ja-x-syntax-45илиja-x-z-45- Умеренная сложность (45%)es-x-syntax-30илиes-x-z-30- Низкая сложность (30%)zh-x-syntax-60илиzh-x-z-60- Высокая сложность (60%)
24. Классификатор даты начала (start или 0)
Идентифицирует дату начала языкового использования (формат ISO 8601 без пунктуации).
Формат:
- Длинный: 
language-x-start-[YYYYMMDD] - Короткий: 
language-x-0-[YYYYMMDD] 
Форматы дат:
- Полная дата: YYYYMMDD
 - Год-месяц: YYYYMM
 - Только год: YYYY
 
Примеры:
en-x-start-20240315илиen-x-0-20240315- Английский начиная с 15 марта 2024ja-x-start-19890108илиja-x-0-19890108- Японский начиная с 8 января 1989es-x-start-202403илиes-x-0-202403- Испанский начиная с марта 2024
25. Классификатор даты окончания (end или 1)
Идентифицирует дату окончания языкового использования (формат ISO 8601 без пунктуации).
Формат:
- Длинный: 
language-x-end-[YYYYMMDD] - Короткий: 
language-x-1-[YYYYMMDD] 
Форматы дат:
- Полная дата: YYYYMMDD
 - Год-месяц: YYYYMM
 - Только год: YYYY
 
Примеры:
en-x-end-20240415илиen-x-1-20240415- Английский заканчивающийся 15 апреля 2024ja-x-end-20190430илиja-x-1-20190430- Японский заканчивающийся 30 апреля 2019es-x-end-202412илиes-x-1-202412- Испанский заканчивающийся в декабре 2024
26. Классификатор табу (taboo или j)
Идентифицирует уровень табуированного, вульгарного или оскорбительного контента.
Формат:
- Длинный: 
language-x-taboo-[0-5] - Короткий: 
language-x-j-[0-5] 
Примеры:
en-x-taboo-0илиen-x-j-0- Нет табуированного контентаen-x-taboo-3илиen-x-j-3- Умеренный уровень табуja-x-form-5-taboo-4илиja-x-f-5-j-4- Очень повседневный японский с высоким уровнем табу
27. Классификатор уверенности (conf или c)
Указывает оценку уверенности для непосредственно предшествующего классификатора.
Формат:
- Длинный: 
language-x-[classifier]-[value]-conf-[0-100] - Короткий: 
language-x-[classifier]-[value]-c-[0-100] 
Особое поведение:
- Оценка уверенности применяется к непосредственно предшествующему классификатору
 - Несколько оценок уверенности могут использоваться для разных классификаторов
 - Если нет предшествующего классификатора, уверенность применяется к базовому языковому тегу
 
Примеры:
en-x-form-3-conf-95илиen-x-f-3-c-95- Нейтральная формальность с 95% уверенностьюko-x-polite-2-conf-80-domain-med-conf-60илиko-x-p-2-c-80-d-med-c-60- Очень вежливый (80% уверенности) медицинский корейский (60% уверенности)ja-x-hist-kobun-conf-100илиja-x-h-kobun-c-100- Классический японский со 100% уверенностьюx-proto-ine-conf-75илиx-a-ine-c-75- Праиндоевропейский с 75% уверенностью
Множественные классификации
LVTag поддерживает несколько классификаторов в одном теге для обеспечения точной языковой идентификации. Длинные и короткие формы могут смешиваться:
ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
Приведенные выше примеры показывают корейский с неформальной формальностью (4), но вежливой речью (2) в деловом контексте.
Допустимые значения
Примечание: Все значения должны быть 8 символов или меньше для соответствия ограничениям длины подтегов BCP 47. Хотя конкретные значения для многих классификаторов должны устанавливаться через экспертное использование и консенсус сообщества, числовые шкалы, форматы дат и базовые значения, перечисленные ниже, определены в этом стандарте.
Шкала формальности (Универсальная)
| Уровень | Описание | Примеры | 
|---|---|---|
| 1 | Наиболее формальный | Юридические документы, официальные церемонии, академические статьи | 
| 2 | Формальный | Деловые письма, новостные статьи, презентации | 
| 3 | Нейтральный | Стандартный разговор, электронная почта, общее письмо | 
| 4 | Неформальный | Повседневный разговор, личные блоги, текстовые сообщения | 
| 5 | Наиболее повседневный | Сленг, интимный разговор, социальные сети | 
Шкала вежливости (Универсальная)
| Уровень | Описание | Примеры | 
|---|---|---|
| 1 | Наиболее уважительный | Королевское обращение, религиозные лидеры, уважение к старшим | 
| 2 | Очень вежливый | Обслуживание клиентов, формальные встречи, учителя | 
| 3 | Вежливый/нейтральный | Стандартные взаимодействия, коллеги | 
| 4 | Дружеский | Друзья, ровесники, случайные знакомые | 
| 5 | Интимный/простой | Близкая семья, интимные партнеры | 
Шкала экспертизы (Универсальная)
| Уровень | Описание | 
|---|---|
| 0 | Нет знаний | 
| 1-2 | Начинающий | 
| 3-4 | Средний уровень | 
| 5-6 | Продвинутый | 
| 7-8 | Эксперт | 
| 9-10 | Мастер/Авторитет | 
Шкала табу (Универсальная)
| Уровень | Описание | 
|---|---|
| 0 | Нет табуированного контента | 
| 1 | Мягкое табу | 
| 2 | Легкое табу | 
| 3 | Умеренное табу | 
| 4 | Высокое табу | 
| 5 | Экстремальное табу | 
Шкала лексической плотности (Универсальная)
| Уровень | Описание | 
|---|---|
| 0-20 | Очень низкая плотность | 
| 21-40 | Низкая плотность | 
| 41-60 | Умеренная плотность | 
| 61-80 | Высокая плотность | 
| 81-100 | Очень высокая плотность | 
Шкала синтаксической сложности (Универсальная)
| Уровень | Описание | 
|---|---|
| 0-20 | Очень простая | 
| 21-40 | Простая | 
| 41-60 | Умеренная сложность | 
| 61-80 | Сложная | 
| 81-100 | Очень сложная | 
Значения области
| Значение | Описание | 
|---|---|
legal | 
      Юридическая терминология | 
med | 
      Медицинская терминология | 
tech | 
      Техническая/ИТ | 
business | 
      Бизнес/корпоративная | 
fin | 
      Финансы/банковское дело | 
acad | 
      Академическая/научная | 
sci | 
      Научная/исследовательская | 
Примеры реализации
Одиночный классификатор (Длинная форма)
# Наиболее формальный корейский
ko-x-form-1
# Очень вежливый японский
ja-x-polite-2
# Юридический английский
en-x-domain-legal
# Корейский из Кёнсан
ko-x-geo-gyeong
# Праиндоевропейский
x-proto-ine
Одиночный классификатор (Короткая форма)
# Наиболее формальный корейский
ko-x-f-1
# Очень вежливый японский
ja-x-p-2
# Юридический английский
en-x-d-legal
# Корейский из Кёнсан
ko-x-g-gyeong
# Праиндоевропейский
x-a-ine
Множественные классификаторы
# Неформальный но вежливый корейский деловой язык
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
# Формальный и уважительный японский медицинский язык
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med
# Южный вьетнамский с нейтральной формальностью, вежливой речью, технической областью
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech
# Сложная классификация с несколькими измерениями
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written
# Языковые разновидности, показывающие различие формальность/вежливость
ko-x-f-5-p-2  # Очень повседневный но вежливый (к старшему другу)
ko-x-f-1-p-4  # Очень формальный но дружеский (письменно к ровеснику)
ja-x-f-4-p-1  # Повседневная формальность но высшее уважение
en-x-f-5-j-4  # Очень повседневный английский с высоким уровнем табу
Случаи использования
- Приложения для изучения языков
    
- Обучение соответствующему регистру для различных социальных контекстов
 - Предоставление тренировки словаря для конкретной области
 
 - Машинный перевод
    
- Поддержание последовательности регистра в переводах
 - Применение терминологии для конкретной области
 
 - Классификация контента
    
- Автоматическая категоризация текста по формальности и области
 - Направление контента соответствующим рецензентам или системам
 
 - Корпусная лингвистика
    
- Создание размеченных корпусов для лингвистических исследований
 - Изучение вариаций регистра и области
 
 
Правила валидации
- Длина подтега: Каждый подтег после 
x-должен быть 8 символов или меньше - Порядок: Классификаторы могут появляться в любом порядке после 
x- - Уникальность: Каждый тип классификатора должен появляться только один раз на тег (кроме 
conf, который может появляться несколько раз) - Регистр: Теги должны быть в нижнем регистре (нечувствительны к регистру согласно BCP 47)
 - Магические теги: Теги короткой формы - это одиночные символы; 
q,3-9зарезервированы для будущего использования - Смешивание: Длинные и короткие формы могут смешиваться в одном теге
 - Теги прото: Должны начинаться с 
x-и ДОЛЖНЫ использовать коды ISO 639-5, когда доступны (например,x-proto-slaнеx-proto-slavic) - Уверенность: Классификатор 
conf/cприменяется к непосредственно предшествующему классификатору - Числовые значения: Должны быть в пределах определенных диапазонов (0-5 для табу, 0-10 для экспертизы, 0-100 для процентных значений)
 - Формат даты: Даты используют ISO 8601 без пунктуации (YYYY, YYYYMM или YYYYMMDD)
 
Совместимость
Формат LVTag полностью совместим с:
- BCP 47 (RFC 5646)
 - Языковыми кодами ISO 639
 - Реестром языковых подтегов IANA
 - Unicode CLDR
 
Преимущества
- Точность: Позволяет детальную идентификацию языковых разновидностей
 - Расширяемость: Могут быть добавлены новые регистры и области
 - Основан на стандартах: Построен на установленном механизме частного использования BCP 47
 - Машиночитаемый: Систематический формат позволяет автоматизированную обработку
 - Читаемый человеком: Ясные, описательные подтеги
 - Гибкость: Поддержка как подробных длинных, так и кратких коротких тегов
 - Краткость: Короткие магические теги позволяют компактное представление при сохранении ясности
 
Будущие расширения
LVTag разработан для развития вместе с потребностями сообщества языковых технологий. Мы приветствуем предложения для новых классификаторов, улучшений существующих и отзывы от реальных реализаций.
Чтобы предложить расширения или внести вклад в спецификацию:
- Откройте issue на github.com/lvtag/spec
 - Присоединитесь к обсуждению существующих предложений
 - Поделитесь своим опытом реализации
 - Отправьте pull requests для улучшений документации
 
Зарезервированные однобуквенные коды (q, 3-9) доступны для будущих стандартизированных расширений.
Ссылки
Лицензия и предоставление патентов
Эта спецификация выпущена под CC0 1.0 Universal (Public Domain Dedication).
Почему CC0: Чтобы обеспечить максимальное принятие и свободу реализации, LVTag помещен в общественное достояние. Это означает:
- Не требуется разрешение для использования, реализации или модификации
 - Не требуется указание авторства (хотя это приветствуется)
 - Нет правовых барьеров для коммерческого или государственного использования
 - Совместим со всеми лицензиями программного обеспечения
 - Используется основными стандартами, такими как Unicode CLDR
 
Предоставление патентов: Любые патенты, охватывающие спецификацию LVTag, настоящим лицензируются без лицензионных отчислений для любой реализации, соответствующей этой спецификации.
Без одобрения: Использование LVTag не подразумевает одобрения авторами спецификации.
В пределах, разрешенных законом, Danslav Slavenskoj отказался от всех авторских и смежных или соседних прав на Спецификацию формата Language Variant Tag (LVTag). Эта работа опубликована из: Соединенных Штатов Америки.