LVTag-Spezifikation
Version 1.0
Erstellt von Danslav Slavenskoj
Datum: Mai 2025
Sprachen: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски
Schnelllinks
- JSON-Schema - Vollständiges Validierungsschema für das LVTag-Format
 - Klassifikator-Definitionen - Maschinenlesbare Klassifikator-Spezifikationen
 - Spezifikation - Zu den Formatdetails springen
 - Beispiele - LVTag in Aktion sehen
 
Überblick
Das Language Variant Tag (LVTag)-Format ist ein systematischer Ansatz zur Sprachklassifikation, der den BCP 47-Standard durch Private-Use-Subtags erweitert. Es ermöglicht die präzise Identifikation von Sprachvarianten über mehrere Dimensionen hinweg, einschließlich Formalität, Höflichkeit, Domäne und Orthographie.
Hauptvorteile
Klassifikationsrigorosität: LVTag bringt systematische Organisation in die Sprachkennzeichnung, indem es klare, getrennte Dimensionen für verschiedene Variationstypen bereitstellt. Im Gegensatz zu bestehenden Subtags und Systemen, die verschiedene Kategorien auf derselben Ebene vermischen, behält LVTag eine strikte Trennung zwischen Formalität, Höflichkeit, Domäne und anderen Dimensionen bei.
Standards-Kompatibilität: LVTag ist vollständig kompatibel mit BCP 47 (RFC 5646) und funktioniert nahtlos mit:
- IANA Language Subtag Registry
 - ISO 639 Sprachcodes
 - Unicode CLDR
 - W3C-Sprachtags
 - HTTP Accept-Language-Header
 - XML lang-Attribute
 - HTML lang-Attribute
 
Technologie-Integration: LVTag-Tags können direkt verwendet werden in:
- Natural Language Processing (NLP)-Pipelines
 - Maschinelle Übersetzungssysteme
 - Content Management Systeme (CMS)
 - Spracherkennungsbibliotheken
 - Suchmaschinen und Informationsabrufsysteme
 - Webanwendungen und APIs
 - Lokalisierungs-Workflows
 
Anwendungsfälle:
- Zielgruppenansprache: Inhalte basierend auf Register und Domäne an geeignete Zielgruppen anpassen
 - Übersetzungsqualität: Angemessene Formalitäts- und Höflichkeitsstufen in maschineller Übersetzung beibehalten
 - Sprachenlernen: Lernenden das angemessene Register für verschiedene Kontexte beibringen
 - Korpuslinguistik: Präzise getaggte Korpora für die Forschung erstellen
 - Social-Media-Analyse: Benutzergenerierte Inhalte nach Register und Domäne klassifizieren
 - Kundenservice: Nachrichten basierend auf Formalität und Domäne an geeignete Agenten weiterleiten
 
Begründung
Während BCP 47 hervorragende Unterstützung für die Identifizierung von Sprachen, Schriften und Regionen bietet, fehlen standardisierte Mechanismen zur Erfassung soziolinguistischer Variation innerhalb einer Sprache. Aktuelle Standards behandeln nicht:
- Registervariation: Keine Möglichkeit, zwischen formellen und informellen Varietäten derselben Sprache zu unterscheiden
 - Höflichkeitsstufen: Kritisch für Sprachen wie Japanisch, Koreanisch und Thai, wo Höflichkeit grammatisch kodiert ist
 - Domänenspezifische Sprache: Kein Standard für die Kennzeichnung technischer, medizinischer oder juristischer Sprachvarietäten
 - Soziolekte: Kein Mechanismus zur Identifizierung von Varietäten sozialer Gruppen (Jugendsprache, Fachjargon)
 - Historische Stadien: Begrenzte Unterstützung zur Unterscheidung klassischer von modernen Formen
 - Formalitätsgradienten: Keine numerische Skala für die computergestützte Verarbeitung von Registern
 - Ursprachen: Inkonsistente Kodierung - einige Ursprachen haben ISO-Codes (z.B. 
inefür PIE), während andere keine haben, und ISO 639-5-Familiencodes sind in BCP 47-Tags nicht gültig, was eine verwirrende Landschaft für die historische Linguistik schafft - Orthographische Variation: Während BCP 47 Schriften behandelt, erfasst es nicht effektiv Variationen innerhalb von Schriften (Rechtschreibreformen, Romanisierungssysteme, konkurrierende Standards), die die Textverarbeitung, Suche und Rechtschreibprüfung grundlegend beeinflussen
 
LVTag füllt diese Lücken mithilfe des Private-Use-Erweiterungsmechanismus von BCP 47 (-x-), indem es eine systematische, maschinenlesbare Methode zur Kodierung dieser kritischen Dimensionen der Sprachvariation bereitstellt und dabei die volle Rückwärtskompatibilität beibehält.
Präzise Sprachklassifikation
Das Aufkommen großer Sprachmodelle und ausgefeilter NLP-Tools hat die präzise Klassifikation von Sprachvarietäten nicht nur nützlich, sondern unverzichtbar gemacht. Moderne Systeme müssen:
- Text generieren, der für spezifische Kontexte geeignet ist (formell vs. informell, höflich vs. lässig)
 - Auf ordnungsgemäß klassifizierten Korpora trainieren, um unangemessene Registermischungen zu vermeiden
 - Kulturell und kontextuell angemessene Antworten bereitstellen
 - Code-Switching und gemischtsprachige Inhalte genau handhaben
 - Stilistische Konsistenz beim Übersetzen oder Transformieren von Text bewahren
 - Trainingsdaten basierend auf Formalität, Domäne oder anderen Merkmalen filtern
 - Die Ausgabe an Benutzerpräferenzen oder -anforderungen anpassen
 
LVTag bietet die granularen Metadaten, die benötigt werden, um nicht nur zu verstehen, welche Sprache verwendet wird, sondern wie sie verwendet wird, was nuanciertere und angemessenere Sprachverarbeitungs-Pipelines ermöglicht.
Format-Spezifikation
Grundstruktur
language-x-[classifier]-[value]-[classifier2]-[value2]...
Wobei:
languageein gültiger BCP 47-Primärsprachen-Subtag ist (z.B.en,ko,ja)xden Beginn von Private-Use-Subtags anzeigtclassifierein Kategoriebezeichner ist (siehe Magische Tags unten)valuedie spezifische Klassifikation innerhalb dieser Kategorie ist
Magische Tags
LVTag unterstützt sowohl Lang- als auch Kurzform-“magische” Klassifikatoren für Flexibilität:
| Langform | Kurzform | Beschreibung | 
|---|---|---|
ortho | 
      w | 
      Orthographische Variante | 
form | 
      f | 
      Formalitätsstufe (1-5 Skala) | 
polite | 
      p | 
      Höflichkeits-/Respektstufe (1-5 Skala) | 
domain | 
      d | 
      Spezialisiertes Vokabular oder professioneller Kontext | 
geo | 
      g | 
      Geografische oder regionale Varietät | 
proto | 
      a | 
      Ursprache oder rekonstruierte Sprache | 
hist | 
      h | 
      Historische Periode oder Stadium einer Sprache | 
genre | 
      e | 
      Textgenre oder literarischer Stil | 
medium | 
      m | 
      Kommunikationsmedium (gesprochen, geschrieben, digital) | 
socio | 
      s | 
      Soziolekt oder Varietät sozialer Gruppen | 
modality | 
      o | 
      Modus der Sprachproduktion | 
register | 
      r | 
      Sprachregister | 
pragma | 
      u | 
      Kommunikative Funktion | 
temporal | 
      t | 
      Zeitliche Markierung | 
evidence | 
      v | 
      Informationsquelle | 
affect | 
      k | 
      Emotionaler Ton | 
age | 
      n | 
      Alters-/Generationsvarietät | 
gender | 
      i | 
      Geschlechtsvarietät | 
expert | 
      b | 
      Expertisegrad | 
interact | 
      2 | 
      Interaktionsstruktur | 
prosody | 
      y | 
      Prosodische Merkmale | 
lexical | 
      l | 
      Lexikalische Dichte (0-100) | 
syntax | 
      z | 
      Syntaktische Komplexität (0-100) | 
start | 
      0 | 
      Startdatum (ISO 8601 ohne Interpunktion) | 
end | 
      1 | 
      Enddatum (ISO 8601 ohne Interpunktion) | 
taboo | 
      j | 
      Tabu-/Vulgärinhaltsstufe (0-5 Skala) | 
conf | 
      c | 
      Konfidenzwert (0-100) für vorhergehendes Tag | 
| — | q, 3-9 | 
      Für zukünftige Verwendung reserviert | 
Klassifikatoren
1. Orthographie-Klassifikator (ortho oder w)
Identifiziert spezifische orthographische Konventionen oder Schriftsystemvarianten über Standard-Schrift-Tags hinaus.
Format:
- Lang: 
language-x-ortho-[variant] - Kurz: 
language-x-w-[variant] 
Beispiele (kombiniert mit Standard-Schrift-Tags):
az-Latn-x-ortho-newoderaz-Latn-x-w-new- Aserbaidschanisch lateinische Schrift, neue Orthographiede-Latn-x-ortho-1901oderde-Latn-x-w-1901- Deutsch lateinische Schrift, 1901 Orthographiezh-Hans-x-ortho-pinyinoderzh-Hans-x-w-pinyin- Vereinfachtes Chinesisch mit Pinyinyi-Hebr-x-ortho-yivooderyi-Hebr-x-w-yivo- Jiddisch hebräische Schrift, YIVO-Orthographie
2. Formalitäts-Klassifikator (form oder f)
Identifiziert die Formalitätsstufe der Sprachverwendung.
Format:
- Lang: 
language-x-form-[1-5] - Kurz: 
language-x-f-[1-5] 
Formalitätsskala:
- 1 = Am formellsten (schriftliche Dokumente, offizielle Reden)
 - 2 = Formell (Geschäftstreffen, akademisches Schreiben)
 - 3 = Neutral/Standard (Nachrichten, allgemeine Konversation)
 - 4 = Informell (lockere Konversation, E-Mails an Freunde)
 - 5 = Am lockersten (intime Konversation, Slang)
 
Beispiele:
ko-x-form-1oderko-x-f-1- Formellstes Koreanischen-x-form-3oderen-x-f-3- Neutrales Englischja-x-form-5oderja-x-f-5- Lockerstes Japanisch
3. Höflichkeits-Klassifikator (polite oder p)
Identifiziert die Höflichkeits-/Respektstufe der Sprachverwendung.
Format:
- Lang: 
language-x-polite-[1-5] - Kurz: 
language-x-p-[1-5] 
Höflichkeitsskala:
- 1 = Am respektvollsten/ehrerbietigsten (königliche Anrede, religiöse Kontexte)
 - 2 = Sehr höflich (formelle Höflichkeitsformen, respektvolle Rede)
 - 3 = Höflich/neutral (Standard-Höflichkeit)
 - 4 = Vertraut (unter Gleichen, Freunden)
 - 5 = Intim/schlicht (Familie, sehr enge Freunde)
 
Beispiele:
ko-x-polite-1oderko-x-p-1- Höchster Respekt Koreanischja-x-polite-2oderja-x-p-2- Sehr höfliches Japanischth-x-polite-3oderth-x-p-3- Standard-höfliches Thai
4. Domänen-Klassifikator (domain oder d)
Identifiziert spezialisiertes Vokabular oder professionellen Kontext.
Format:
- Lang: 
language-x-domain-[domain_type] - Kurz: 
language-x-d-[domain_type] 
Beispiele:
en-x-domain-legaloderen-x-d-legal- Juristisches Englischja-x-domain-medoderja-x-d-med- Medizinisches Japanischko-x-domain-businessoderko-x-d-business- Geschäftskoreanischja-x-domain-techoderja-x-d-tech- Technisches Japanischen-x-domain-finoderen-x-d-fin- Finanzenglisch
5. Geografischer Klassifikator (geo oder g)
Identifiziert regionale oder geografische Sprachvarietäten.
Format:
- Lang: 
language-x-geo-[region] - Kurz: 
language-x-g-[region] 
Beispiele:
ko-x-geo-gyeongoderko-x-g-gyeong- Gyeongsang-Koreanisch (경상도)ko-x-geo-jeollaoderko-x-g-jeolla- Jeolla-Koreanisch (전라도)es-x-geo-rioplaoderes-x-g-riopla- Rioplatense-Spanischpt-x-geo-nordesteoderpt-x-g-nordeste- Nordöstliches brasilianisches Portugiesisch
6. Proto-Klassifikator (proto oder a)
Identifiziert Ursprachen oder rekonstruierte historische Sprachen.
Format:
- Lang: 
x-proto-[iso639-5_code if available] - Kurz: 
x-a-[iso639-5_code if available] 
Regeln:
- MUSS ISO 639-5-Sprachfamiliencodes verwenden, wenn verfügbar
 - Verwenden Sie beschreibende Identifikatoren nur, wenn kein ISO 639-5-Code existiert
 
Beispiele mit ISO 639-5-Codes:
x-proto-ineoderx-a-ine- Proto-Indoeuropäischx-proto-gemoderx-a-gem- Proto-Germanischx-proto-slaoderx-a-sla- Proto-Slawischx-proto-semoderx-a-sem- Proto-Semitischx-proto-celoderx-a-cel- Proto-Keltischx-proto-iraoderx-a-ira- Proto-Iranischx-proto-incoderx-a-inc- Proto-Indo-Arischx-proto-batoderx-a-bat- Proto-Baltischx-proto-roaoderx-a-roa- Proto-Romanischx-proto-trkoderx-a-trk- Proto-Türkisch
Beispiele ohne ISO 639-5-Codes (beschreibend, länger als drei Zeichen):
x-proto-baltslavoderx-a-baltslav- Proto-Balto-Slawisch (kein ISO 639-5-Code)
Hinweis:
- Sprachfamiliencodes (ISO 639-5) sind NICHT als Standard-Primär-BCP-47-Sprachtags gültig, weshalb wir sie mit x-proto implementiert haben
 - Sie sind gültig und bevorzugt innerhalb von Private-Use-Erweiterungen (nach 
x-) - Daher müssen alle Proto-Sprach-Tags mit 
x-beginnen, um BCP 47 zu entsprechen 
7. Historischer Klassifikator (hist oder h)
Identifiziert historische Perioden oder Stadien einer Sprache.
Format:
- Lang: 
language-x-hist-[period] - Kurz: 
language-x-h-[period] 
Beispiele:
en-x-hist-oldoderen-x-h-old- Altenglische Periodeen-x-hist-middleoderen-x-h-middle- Mittelenglische Periodeja-x-hist-kobunoderja-x-h-kobun- Klassisches Japanisch (古文)ko-x-hist-hunminoderko-x-h-hunmin- Mittelkoreanisch (훈민정음 Periode)el-x-hist-koineoderel-x-h-koine- Koine-Griechisch (Κοινή)sa-x-hist-vedicodersa-x-h-vedic- Vedisches Sanskrit (वैदिक)
8. Genre-Klassifikator (genre oder e)
Identifiziert Textgenre oder literarischen Stil.
Format:
- Lang: 
language-x-genre-[genre_type] - Kurz: 
language-x-e-[genre_type] 
Beispiele:
en-x-genre-newsoderen-x-e-news- Nachrichtenenglischja-x-genre-mangaoderja-x-e-manga- Manga-Japanisch (漫画)ko-x-genre-webtoonoderko-x-e-webtoon- Koreanischer Webtoon (웹툰)zh-x-genre-shioderzh-x-e-shi- Chinesische Poesie (詩)fr-x-genre-bdoderfr-x-e-bd- Französische Comics (bande dessinée)de-x-genre-marchenoderde-x-e-marchen- Deutsche Märchen (Märchen)
9. Medium-Klassifikator (medium oder m)
Identifiziert das Kommunikationsmedium.
Format:
- Lang: 
language-x-medium-[medium_type] - Kurz: 
language-x-m-[medium_type] 
Beispiele:
en-x-medium-spokenoderen-x-m-spoken- Gesprochenes Englischko-x-medium-digitaloderko-x-m-digital- Digitales/Online-Koreanischja-x-medium-writtenoderja-x-m-written- Geschriebenes Japanischhi-x-medium-bcastoderhi-x-m-bcast- Rundfunk-Hindizh-x-medium-smsoderzh-x-m-sms- SMS/Textnachricht Chinesisch
10. Sozio-Klassifikator (socio oder s)
Identifiziert Soziolekt oder Varietäten sozialer Gruppen.
Format:
- Lang: 
language-x-socio-[social_group] - Kurz: 
language-x-s-[social_group] 
Beispiele:
en-x-socio-academicoderen-x-s-academic- Akademischer Soziolekten-x-socio-urbanoderen-x-s-urban- Städtischer Soziolektes-x-socio-juveniloderes-x-s-juvenil- Spanischer Jugendsoziolekt (jerga juvenil)fr-x-socio-jeuneoderfr-x-s-jeune- Französischer Jugendsoziolektde-x-socio-jugendoderde-x-s-jugend- Deutscher Jugendsoziolekt (Jugendsprache)ko-x-socio-onlineoderko-x-s-online- Koreanischer Online-Soziolekt
11. Modalitäts-Klassifikator (modality oder o)
Identifiziert den grundlegenden Modus der Sprachproduktion.
Format:
- Lang: 
language-x-modality-[mode] - Kurz: 
language-x-o-[mode] 
Beispiele:
en-x-modality-spokenoderen-x-o-spoken- Gesprochenes Englischen-x-modality-writtenoderen-x-o-written- Geschriebenes Englischasl-x-modality-signedoderasl-x-o-signed- Amerikanische Gebärdenspracheen-x-modality-multioderen-x-o-multi- Multimodales Englisch (Sprache + Gesten)fr-x-modality-tactileoderfr-x-o-tactile- Taktiles Französisch (für Taubblinde)
12. Register-Klassifikator (register oder r)
Identifiziert das Sprachregister oder die funktionale Varietät der Sprachverwendung.
Format:
- Lang: 
language-x-register-[register_type] - Kurz: 
language-x-r-[register_type] 
Beispiele:
en-x-register-frozenoderen-x-r-frozen- Erstarrtes Register (Gebete, Gelöbnisse)en-x-register-formaloderen-x-r-formal- Formelles Register (akademische Arbeiten)en-x-register-consultoderen-x-r-consult- Beratungsregister (professionell)en-x-register-casualoderen-x-r-casual- Lässiges Register (Freunde)en-x-register-intimateoderen-x-r-intimate- Intimes Register (Familie)
13. Pragmatischer Funktions-Klassifikator (pragma oder u)
Identifiziert die kommunikative Funktion oder den Sprechakt.
Format:
- Lang: 
language-x-pragma-[function] - Kurz: 
language-x-u-[function] 
Beispiele:
en-x-pragma-requestoderen-x-u-request- Anfragefunktionja-x-pragma-apologyoderja-x-u-apology- Entschuldigungsfunktiones-x-pragma-complmntoderes-x-u-complmnt- Komplimentfunktionar-x-pragma-greetingoderar-x-u-greeting- Grußfunktionzh-x-pragma-refusaloderzh-x-u-refusal- Ablehnungsfunktion
14. Temporaler Markierungs-Klassifikator (temporal oder t)
Identifiziert zeitliche Aspekte oder Tempusverwendungsmuster.
Format:
- Lang: 
language-x-temporal-[aspect] - Kurz: 
language-x-t-[aspect] 
Beispiele:
en-x-temporal-pastoderen-x-t-past- Vergangenheitsorientierter Diskursja-x-temporal-nonpastoderja-x-t-nonpast- Nicht-Vergangenheitsfokusid-x-temporal-atemprloderid-x-t-atemprl- Zeitlos/atemporalfr-x-temporal-futureoderfr-x-t-future- Zukunftsorientiertzh-x-temporal-aspectoderzh-x-t-aspect- Aspektueller Fokus
15. Evidentialitäts-Klassifikator (evidence oder v)
Identifiziert Informationsquellenmarkierung.
Format:
- Lang: 
language-x-evidence-[source] - Kurz: 
language-x-v-[source] 
Beispiele:
qu-x-evidence-directoderqu-x-v-direct- Direkter Zeugetr-x-evidence-hearsayodertr-x-v-hearsay- Hörensagen/berichtetja-x-evidence-inferoderja-x-v-infer- Inferentiellen-x-evidence-assumeoderen-x-v-assume- Angenommende-x-evidence-quoteoderde-x-v-quote- Zitativ
16. Affekt/Emotions-Klassifikator (affect oder k)
Identifiziert emotionalen Ton oder Affekt.
Format:
- Lang: 
language-x-affect-[emotion] - Kurz: 
language-x-k-[emotion] 
Beispiele:
en-x-affect-angryoderen-x-k-angry- Wütender Tonja-x-affect-humbleoderja-x-k-humble- Demütiger Affektes-x-affect-joyfuloderes-x-k-joyful- Freudiger Ausdruckko-x-affect-sadoderko-x-k-sad- Traurig/melancholischfr-x-affect-neutraloderfr-x-k-neutral- Neutraler Affekt
17. Alters-/Generations-Klassifikator (age oder n)
Identifiziert alters- oder generationsbezogene Sprachvarietäten.
Format:
- Lang: 
language-x-age-[generation] - Kurz: 
language-x-n-[generation] 
Beispiele:
en-x-age-childoderen-x-n-child- Kinderspracheja-x-age-teenoderja-x-n-teen- Teenagerspracheko-x-age-elderoderko-x-n-elder- Sprache Ältereres-x-age-genzoderes-x-n-genz- Generation Zzh-x-age-millenloderzh-x-n-millenl- Millennialsprache
18. Gender-Klassifikator (gender oder i)
Identifiziert geschlechtsbezogene Sprachvarietäten.
Format:
- Lang: 
language-x-gender-[identity] - Kurz: 
language-x-i-[identity] 
19. Expertisegrad-Klassifikator (expert oder b)
Identifiziert den Grad der Domänenexpertise auf einer 0-10-Skala.
Format:
- Lang: 
language-x-expert-[0-10] - Kurz: 
language-x-b-[0-10] 
Expertiseskala:
- 0 = Kein Wissen
 - 1-2 = Anfänger
 - 3-4 = Mittelstufe
 - 5-6 = Fortgeschritten
 - 7-8 = Experte
 - 9-10 = Meister/Autorität
 
Beispiele:
en-x-expert-0oderen-x-b-0- Keine Expertisede-x-expert-3oderde-x-b-3- Mittelstufeja-x-expert-7oderja-x-b-7- Expertenniveaues-x-expert-9oderes-x-b-9- Meisterniveauzh-x-expert-5oderzh-x-b-5- Fortgeschrittenes Niveau
20. Interaktionsstruktur-Klassifikator (interact oder 2)
Identifiziert konversationelle oder interaktionale Muster.
Format:
- Lang: 
language-x-interact-[structure] - Kurz: 
language-x-2-[structure] 
Beispiele:
en-x-interact-turnoderen-x-2-turn- Sprecherwechselja-x-interact-overlapoderja-x-2-overlap- Überlappende Redees-x-interact-monologoderes-x-2-monolog- Monologischar-x-interact-dialogoderar-x-2-dialog- Dialogischzh-x-interact-multioderzh-x-2-multi- Mehrparteien
21. Prosodische Merkmale-Klassifikator (prosody oder y)
Identifiziert prosodische oder suprasegmentale Merkmale.
Format:
- Lang: 
language-x-prosody-[feature] - Kurz: 
language-x-y-[feature] 
Beispiele:
en-x-prosody-stressoderen-x-y-stress- Betonungszeitgesteuertja-x-prosody-pitchoderja-x-y-pitch- Tonhöhenakzentfr-x-prosody-syllableoderfr-x-y-syllable- Silbenzeitgesteuertzh-x-prosody-toneoderzh-x-y-tone- Tonale Musteres-x-prosody-rhythmoderes-x-y-rhythm- Rhythmische Muster
22. Lexikalische Dichte-Klassifikator (lexical oder l)
Identifiziert lexikalische Dichte als numerischen Wert (0-100).
Format:
- Lang: 
language-x-lexical-[0-100] - Kurz: 
language-x-l-[0-100] 
Beispiele:
en-x-lexical-20oderen-x-l-20- Niedrige Dichte (20%)de-x-lexical-55oderde-x-l-55- Mittlere Dichte (55%)ja-x-lexical-75oderja-x-l-75- Hohe Dichte (75%)es-x-lexical-40oderes-x-l-40- Moderate Dichte (40%)zh-x-lexical-85oderzh-x-l-85- Sehr hohe Dichte (85%)
23. Syntaktische Komplexitäts-Klassifikator (syntax oder z)
Identifiziert syntaktische Komplexität als numerischen Wert (0-100).
Format:
- Lang: 
language-x-syntax-[0-100] - Kurz: 
language-x-z-[0-100] 
Beispiele:
en-x-syntax-15oderen-x-z-15- Einfache Syntax (15%)de-x-syntax-70oderde-x-z-70- Komplexe Syntax (70%)ja-x-syntax-45oderja-x-z-45- Moderate Komplexität (45%)es-x-syntax-30oderes-x-z-30- Niedrige Komplexität (30%)zh-x-syntax-60oderzh-x-z-60- Hohe Komplexität (60%)
24. Startdatum-Klassifikator (start oder 0)
Identifiziert das Startdatum der Sprachverwendung (ISO 8601-Format ohne Interpunktion).
Format:
- Lang: 
language-x-start-[YYYYMMDD] - Kurz: 
language-x-0-[YYYYMMDD] 
Datumsformate:
- Vollständiges Datum: YYYYMMDD
 - Jahr-Monat: YYYYMM
 - Nur Jahr: YYYY
 
Beispiele:
en-x-start-20240315oderen-x-0-20240315- Englisch beginnend am 15. März 2024ja-x-start-19890108oderja-x-0-19890108- Japanisch beginnend am 8. Januar 1989es-x-start-202403oderes-x-0-202403- Spanisch beginnend im März 2024
25. Enddatum-Klassifikator (end oder 1)
Identifiziert das Enddatum der Sprachverwendung (ISO 8601-Format ohne Interpunktion).
Format:
- Lang: 
language-x-end-[YYYYMMDD] - Kurz: 
language-x-1-[YYYYMMDD] 
Datumsformate:
- Vollständiges Datum: YYYYMMDD
 - Jahr-Monat: YYYYMM
 - Nur Jahr: YYYY
 
Beispiele:
en-x-end-20240415oderen-x-1-20240415- Englisch endend am 15. April 2024ja-x-end-20190430oderja-x-1-20190430- Japanisch endend am 30. April 2019es-x-end-202412oderes-x-1-202412- Spanisch endend im Dezember 2024
26. Tabu-Klassifikator (taboo oder j)
Identifiziert die Ebene von Tabu-, vulgärem oder anstößigem Inhalt.
Format:
- Lang: 
language-x-taboo-[0-5] - Kurz: 
language-x-j-[0-5] 
Beispiele:
en-x-taboo-0oderen-x-j-0- Kein Tabu-Inhalten-x-taboo-3oderen-x-j-3- Moderate Tabu-Ebeneja-x-form-5-taboo-4oderja-x-f-5-j-4- Sehr lockeres Japanisch mit hoher Tabu-Ebene
27. Konfidenz-Klassifikator (conf oder c)
Gibt den Konfidenzwert für den unmittelbar vorhergehenden Klassifikator an.
Format:
- Lang: 
language-x-[classifier]-[value]-conf-[0-100] - Kurz: 
language-x-[classifier]-[value]-c-[0-100] 
Spezielles Verhalten:
- Der Konfidenzwert gilt für den unmittelbar davor stehenden Klassifikator
 - Mehrere Konfidenzwerte können für verschiedene Klassifikatoren verwendet werden
 - Wenn kein Klassifikator vorausgeht, gilt die Konfidenz für das Basis-Sprach-Tag
 
Beispiele:
en-x-form-3-conf-95oderen-x-f-3-c-95- Neutrale Formalität mit 95% Konfidenzko-x-polite-2-conf-80-domain-med-conf-60oderko-x-p-2-c-80-d-med-c-60- Sehr höflich (80% Konfidenz) medizinisches Koreanisch (60% Konfidenz)ja-x-hist-kobun-conf-100oderja-x-h-kobun-c-100- Klassisches Japanisch mit 100% Konfidenzx-proto-ine-conf-75oderx-a-ine-c-75- Proto-Indoeuropäisch mit 75% Konfidenz
Mehrfachklassifikationen
LVTag unterstützt mehrere Klassifikatoren in einem einzigen Tag, um eine präzise Sprachidentifikation zu ermöglichen. Sowohl Lang- als auch Kurzformen können gemischt werden:
ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
Die obigen Beispiele zeigen Koreanisch mit informeller Formalität (4), aber höflicher Rede (2) im Geschäftskontext.
Gültige Werte
Hinweis: Alle Werte müssen 8 Zeichen oder kürzer sein, um den BCP 47-Subtag-Längenbeschränkungen zu entsprechen. Während spezifische Werte für viele Klassifikatoren durch Expertennutzung und Gemeinschaftskonsens festgelegt werden sollen, sind die numerischen Skalen, Datumsformate und unten aufgeführten Grundwerte in diesem Standard definiert.
Formalitätsskala (Universal)
| Stufe | Beschreibung | Beispiele | 
|---|---|---|
| 1 | Am formellsten | Rechtsdokumente, offizielle Zeremonien, akademische Arbeiten | 
| 2 | Formell | Geschäftsbriefe, Nachrichtenartikel, Präsentationen | 
| 3 | Neutral | Standardkonversation, E-Mail, allgemeines Schreiben | 
| 4 | Informell | Lockere Konversation, persönliche Blogs, Textnachrichten | 
| 5 | Am lockersten | Slang, intime Konversation, soziale Medien | 
Höflichkeitsskala (Universal)
| Stufe | Beschreibung | Beispiele | 
|---|---|---|
| 1 | Am respektvollsten | Königliche Anrede, religiöse Führer, Respekt vor Älteren | 
| 2 | Sehr höflich | Kundenservice, formelle Meetings, Lehrer | 
| 3 | Höflich/neutral | Standardinteraktionen, Kollegen | 
| 4 | Vertraut | Freunde, Gleichgestellte, lockere Bekannte | 
| 5 | Intim/schlicht | Enge Familie, intime Partner | 
Expertiseskala (Universal)
| Stufe | Beschreibung | 
|---|---|
| 0 | Kein Wissen | 
| 1-2 | Anfänger | 
| 3-4 | Mittelstufe | 
| 5-6 | Fortgeschritten | 
| 7-8 | Experte | 
| 9-10 | Meister/Autorität | 
Tabu-Skala (Universal)
| Stufe | Beschreibung | 
|---|---|
| 0 | Kein Tabu-Inhalt | 
| 1 | Mildes Tabu | 
| 2 | Leichtes Tabu | 
| 3 | Moderates Tabu | 
| 4 | Hohes Tabu | 
| 5 | Extremes Tabu | 
Lexikalische Dichteskala (Universal)
| Stufe | Beschreibung | 
|---|---|
| 0-20 | Sehr niedrige Dichte | 
| 21-40 | Niedrige Dichte | 
| 41-60 | Moderate Dichte | 
| 61-80 | Hohe Dichte | 
| 81-100 | Sehr hohe Dichte | 
Syntaktische Komplexitätsskala (Universal)
| Stufe | Beschreibung | 
|---|---|
| 0-20 | Sehr einfach | 
| 21-40 | Einfach | 
| 41-60 | Moderate Komplexität | 
| 61-80 | Komplex | 
| 81-100 | Sehr komplex | 
Domänenwerte
| Wert | Beschreibung | 
|---|---|
legal | 
      Rechtsterminologie | 
med | 
      Medizinische Terminologie | 
tech | 
      Technisch/IT | 
business | 
      Geschäftlich/unternehmerisch | 
fin | 
      Finanzen/Banking | 
acad | 
      Akademisch/wissenschaftlich | 
sci | 
      Wissenschaftlich/Forschung | 
Implementierungsbeispiele
Einzelklassifikator (Langform)
# Formellstes Koreanisch
ko-x-form-1
# Sehr höfliches Japanisch
ja-x-polite-2
# Juristisches Englisch
en-x-domain-legal
# Gyeongsang-Koreanisch
ko-x-geo-gyeong
# Proto-Indoeuropäisch
x-proto-ine
Einzelklassifikator (Kurzform)
# Formellstes Koreanisch
ko-x-f-1
# Sehr höfliches Japanisch
ja-x-p-2
# Juristisches Englisch
en-x-d-legal
# Gyeongsang-Koreanisch
ko-x-g-gyeong
# Proto-Indoeuropäisch
x-a-ine
Mehrfachklassifikatoren
# Informelle aber höfliche koreanische Geschäftssprache
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
# Formelle und respektvolle japanische medizinische Sprache
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med
# Südvietnamesisch mit neutraler Formalität, höflicher Rede, technischer Domäne
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech
# Komplexe Klassifikation mit mehreren Dimensionen
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written
# Sprachvarietäten, die Formalitäts-/Höflichkeitsunterscheidung zeigen
ko-x-f-5-p-2  # Sehr locker aber höflich (zu älterem Freund)
ko-x-f-1-p-4  # Sehr formell aber vertraut (schriftlich an Gleichgestellten)
ja-x-f-4-p-1  # Lockere Formalität aber höchster Respekt
en-x-f-5-j-4  # Sehr lockeres Englisch mit hoher Tabu-Ebene
Anwendungsfälle
- Sprachlern-Anwendungen
    
- Angemessenes Register für verschiedene soziale Kontexte lehren
 - Domänenspezifisches Vokabeltraining bereitstellen
 
 - Maschinelle Übersetzung
    
- Registerkonsistenz in Übersetzungen beibehalten
 - Domänenspezifische Terminologie anwenden
 
 - Inhaltsklassifikation
    
- Text automatisch nach Formalität und Domäne kategorisieren
 - Inhalte an geeignete Prüfer oder Systeme weiterleiten
 
 - Korpuslinguistik
    
- Getaggte Korpora für linguistische Forschung erstellen
 - Register- und Domänenvariation studieren
 
 
Validierungsregeln
- Subtag-Länge: Jeder Subtag nach 
x-muss 8 Zeichen oder weniger haben - Reihenfolge: Klassifikatoren können in beliebiger Reihenfolge nach 
x-erscheinen - Eindeutigkeit: Jeder Klassifikatortyp sollte nur einmal pro Tag erscheinen (außer 
conf, das mehrmals erscheinen kann) - Groß-/Kleinschreibung: Tags sollten kleingeschrieben sein (gemäß BCP 47 nicht case-sensitiv)
 - Magische Tags: Kurzform-Tags sind einzelne Zeichen; 
q,3-9sind für zukünftige Verwendung reserviert - Mischung: Lang- und Kurzformen können innerhalb desselben Tags gemischt werden
 - Proto-Tags: Müssen mit 
x-beginnen und SOLLTEN ISO 639-5-Codes verwenden, wenn verfügbar (z.B.x-proto-slanichtx-proto-slavic) - Konfidenz: Der 
conf/cKlassifikator gilt für den unmittelbar vorhergehenden Klassifikator - Numerische Werte: Müssen innerhalb definierter Bereiche liegen (0-5 für Tabu, 0-10 für Expertise, 0-100 für Prozentwerte)
 - Datumsformat: Daten verwenden ISO 8601 ohne Interpunktion (YYYY, YYYYMM oder YYYYMMDD)
 
Kompatibilität
Das LVTag-Format ist vollständig kompatibel mit:
- BCP 47 (RFC 5646)
 - ISO 639 Sprachcodes
 - IANA Language Subtag Registry
 - Unicode CLDR
 
Vorteile
- Präzision: Ermöglicht feinkörnige Sprachvarietätsidentifikation
 - Erweiterbarkeit: Neue Register und Domänen können hinzugefügt werden
 - Standardbasiert: Aufgebaut auf etabliertem BCP 47 Private-Use-Mechanismus
 - Maschinenlesbar: Systematisches Format ermöglicht automatisierte Verarbeitung
 - Menschenlesbar: Klare, beschreibende Subtags
 - Flexibilität: Unterstützung für sowohl ausführliche Langform- als auch prägnante Kurzform-Tags
 - Kürze: Kurze magische Tags ermöglichen kompakte Darstellung bei Beibehaltung der Klarheit
 
Zukünftige Erweiterungen
LVTag ist so konzipiert, dass es sich mit den Bedürfnissen der Sprachtechnologie-Community entwickelt. Wir begrüßen Vorschläge für neue Klassifikatoren, Verbesserungen bestehender und Feedback aus realen Implementierungen.
Um Erweiterungen vorzuschlagen oder zur Spezifikation beizutragen:
- Öffnen Sie ein Issue auf github.com/lvtag/spec
 - Beteiligen Sie sich an der Diskussion über bestehende Vorschläge
 - Teilen Sie Ihre Implementierungserfahrungen
 - Reichen Sie Pull Requests für Dokumentationsverbesserungen ein
 
Reservierte Einzelzeichencodes (q, 3-9) sind für zukünftige standardisierte Erweiterungen verfügbar.
Referenzen
Lizenz und Patentgewährung
Diese Spezifikation wird unter der CC0 1.0 Universal (Public Domain Dedication) veröffentlicht.
Warum CC0: Um maximale Akzeptanz und Implementierungsfreiheit zu gewährleisten, wird LVTag in die Public Domain gestellt. Das bedeutet:
- Keine Erlaubnis zur Nutzung, Implementierung oder Modifikation erforderlich
 - Keine Namensnennung erforderlich (obwohl geschätzt)
 - Keine rechtlichen Hindernisse für kommerzielle oder behördliche Nutzung
 - Kompatibel mit allen Softwarelizenzen
 - Verwendet von großen Standards wie Unicode CLDR
 
Patentgewährung: Alle Patente, die die LVTag-Spezifikation abdecken, werden hiermit lizenzgebührenfrei für jede Implementierung lizenziert, die dieser Spezifikation entspricht.
Keine Befürwortung: Die Verwendung von LVTag impliziert keine Befürwortung durch die Spezifikationsautoren.
Soweit gesetzlich möglich, hat Danslav Slavenskoj auf alle Urheber- und verwandten oder Nachbarrechte an der Language Variant Tag (LVTag) Format Spezifikation verzichtet. Dieses Werk wird veröffentlicht aus: Vereinigte Staaten von Amerika.