Skip to the content.
LVTag Logo

LVTag-Spezifikation

Version 1.0
Erstellt von Danslav Slavenskoj
Datum: Mai 2025

Sprachen: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски

Überblick

Das Language Variant Tag (LVTag)-Format ist ein systematischer Ansatz zur Sprachklassifikation, der den BCP 47-Standard durch Private-Use-Subtags erweitert. Es ermöglicht die präzise Identifikation von Sprachvarianten über mehrere Dimensionen hinweg, einschließlich Formalität, Höflichkeit, Domäne und Orthographie.

Hauptvorteile

Klassifikationsrigorosität: LVTag bringt systematische Organisation in die Sprachkennzeichnung, indem es klare, getrennte Dimensionen für verschiedene Variationstypen bereitstellt. Im Gegensatz zu bestehenden Subtags und Systemen, die verschiedene Kategorien auf derselben Ebene vermischen, behält LVTag eine strikte Trennung zwischen Formalität, Höflichkeit, Domäne und anderen Dimensionen bei.

Standards-Kompatibilität: LVTag ist vollständig kompatibel mit BCP 47 (RFC 5646) und funktioniert nahtlos mit:

Technologie-Integration: LVTag-Tags können direkt verwendet werden in:

Anwendungsfälle:

Begründung

Während BCP 47 hervorragende Unterstützung für die Identifizierung von Sprachen, Schriften und Regionen bietet, fehlen standardisierte Mechanismen zur Erfassung soziolinguistischer Variation innerhalb einer Sprache. Aktuelle Standards behandeln nicht:

LVTag füllt diese Lücken mithilfe des Private-Use-Erweiterungsmechanismus von BCP 47 (-x-), indem es eine systematische, maschinenlesbare Methode zur Kodierung dieser kritischen Dimensionen der Sprachvariation bereitstellt und dabei die volle Rückwärtskompatibilität beibehält.

Präzise Sprachklassifikation

Das Aufkommen großer Sprachmodelle und ausgefeilter NLP-Tools hat die präzise Klassifikation von Sprachvarietäten nicht nur nützlich, sondern unverzichtbar gemacht. Moderne Systeme müssen:

LVTag bietet die granularen Metadaten, die benötigt werden, um nicht nur zu verstehen, welche Sprache verwendet wird, sondern wie sie verwendet wird, was nuanciertere und angemessenere Sprachverarbeitungs-Pipelines ermöglicht.

Format-Spezifikation

Grundstruktur

language-x-[classifier]-[value]-[classifier2]-[value2]...

Wobei:

Magische Tags

LVTag unterstützt sowohl Lang- als auch Kurzform-“magische” Klassifikatoren für Flexibilität:

Langform Kurzform Beschreibung
ortho w Orthographische Variante
form f Formalitätsstufe (1-5 Skala)
polite p Höflichkeits-/Respektstufe (1-5 Skala)
domain d Spezialisiertes Vokabular oder professioneller Kontext
geo g Geografische oder regionale Varietät
proto a Ursprache oder rekonstruierte Sprache
hist h Historische Periode oder Stadium einer Sprache
genre e Textgenre oder literarischer Stil
medium m Kommunikationsmedium (gesprochen, geschrieben, digital)
socio s Soziolekt oder Varietät sozialer Gruppen
modality o Modus der Sprachproduktion
register r Sprachregister
pragma u Kommunikative Funktion
temporal t Zeitliche Markierung
evidence v Informationsquelle
affect k Emotionaler Ton
age n Alters-/Generationsvarietät
gender i Geschlechtsvarietät
expert b Expertisegrad
interact 2 Interaktionsstruktur
prosody y Prosodische Merkmale
lexical l Lexikalische Dichte (0-100)
syntax z Syntaktische Komplexität (0-100)
start 0 Startdatum (ISO 8601 ohne Interpunktion)
end 1 Enddatum (ISO 8601 ohne Interpunktion)
taboo j Tabu-/Vulgärinhaltsstufe (0-5 Skala)
conf c Konfidenzwert (0-100) für vorhergehendes Tag
q, 3-9 Für zukünftige Verwendung reserviert

Klassifikatoren

1. Orthographie-Klassifikator (ortho oder w)

Identifiziert spezifische orthographische Konventionen oder Schriftsystemvarianten über Standard-Schrift-Tags hinaus.

Format:

Beispiele (kombiniert mit Standard-Schrift-Tags):

2. Formalitäts-Klassifikator (form oder f)

Identifiziert die Formalitätsstufe der Sprachverwendung.

Format:

Formalitätsskala:

Beispiele:

3. Höflichkeits-Klassifikator (polite oder p)

Identifiziert die Höflichkeits-/Respektstufe der Sprachverwendung.

Format:

Höflichkeitsskala:

Beispiele:

4. Domänen-Klassifikator (domain oder d)

Identifiziert spezialisiertes Vokabular oder professionellen Kontext.

Format:

Beispiele:

5. Geografischer Klassifikator (geo oder g)

Identifiziert regionale oder geografische Sprachvarietäten.

Format:

Beispiele:

6. Proto-Klassifikator (proto oder a)

Identifiziert Ursprachen oder rekonstruierte historische Sprachen.

Format:

Regeln:

Beispiele mit ISO 639-5-Codes:

Beispiele ohne ISO 639-5-Codes (beschreibend, länger als drei Zeichen):

Hinweis:

7. Historischer Klassifikator (hist oder h)

Identifiziert historische Perioden oder Stadien einer Sprache.

Format:

Beispiele:

8. Genre-Klassifikator (genre oder e)

Identifiziert Textgenre oder literarischen Stil.

Format:

Beispiele:

9. Medium-Klassifikator (medium oder m)

Identifiziert das Kommunikationsmedium.

Format:

Beispiele:

10. Sozio-Klassifikator (socio oder s)

Identifiziert Soziolekt oder Varietäten sozialer Gruppen.

Format:

Beispiele:

11. Modalitäts-Klassifikator (modality oder o)

Identifiziert den grundlegenden Modus der Sprachproduktion.

Format:

Beispiele:

12. Register-Klassifikator (register oder r)

Identifiziert das Sprachregister oder die funktionale Varietät der Sprachverwendung.

Format:

Beispiele:

13. Pragmatischer Funktions-Klassifikator (pragma oder u)

Identifiziert die kommunikative Funktion oder den Sprechakt.

Format:

Beispiele:

14. Temporaler Markierungs-Klassifikator (temporal oder t)

Identifiziert zeitliche Aspekte oder Tempusverwendungsmuster.

Format:

Beispiele:

15. Evidentialitäts-Klassifikator (evidence oder v)

Identifiziert Informationsquellenmarkierung.

Format:

Beispiele:

16. Affekt/Emotions-Klassifikator (affect oder k)

Identifiziert emotionalen Ton oder Affekt.

Format:

Beispiele:

17. Alters-/Generations-Klassifikator (age oder n)

Identifiziert alters- oder generationsbezogene Sprachvarietäten.

Format:

Beispiele:

18. Gender-Klassifikator (gender oder i)

Identifiziert geschlechtsbezogene Sprachvarietäten.

Format:

19. Expertisegrad-Klassifikator (expert oder b)

Identifiziert den Grad der Domänenexpertise auf einer 0-10-Skala.

Format:

Expertiseskala:

Beispiele:

20. Interaktionsstruktur-Klassifikator (interact oder 2)

Identifiziert konversationelle oder interaktionale Muster.

Format:

Beispiele:

21. Prosodische Merkmale-Klassifikator (prosody oder y)

Identifiziert prosodische oder suprasegmentale Merkmale.

Format:

Beispiele:

22. Lexikalische Dichte-Klassifikator (lexical oder l)

Identifiziert lexikalische Dichte als numerischen Wert (0-100).

Format:

Beispiele:

23. Syntaktische Komplexitäts-Klassifikator (syntax oder z)

Identifiziert syntaktische Komplexität als numerischen Wert (0-100).

Format:

Beispiele:

24. Startdatum-Klassifikator (start oder 0)

Identifiziert das Startdatum der Sprachverwendung (ISO 8601-Format ohne Interpunktion).

Format:

Datumsformate:

Beispiele:

25. Enddatum-Klassifikator (end oder 1)

Identifiziert das Enddatum der Sprachverwendung (ISO 8601-Format ohne Interpunktion).

Format:

Datumsformate:

Beispiele:

26. Tabu-Klassifikator (taboo oder j)

Identifiziert die Ebene von Tabu-, vulgärem oder anstößigem Inhalt.

Format:

Beispiele:

27. Konfidenz-Klassifikator (conf oder c)

Gibt den Konfidenzwert für den unmittelbar vorhergehenden Klassifikator an.

Format:

Spezielles Verhalten:

Beispiele:

Mehrfachklassifikationen

LVTag unterstützt mehrere Klassifikatoren in einem einzigen Tag, um eine präzise Sprachidentifikation zu ermöglichen. Sowohl Lang- als auch Kurzformen können gemischt werden:

ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

Die obigen Beispiele zeigen Koreanisch mit informeller Formalität (4), aber höflicher Rede (2) im Geschäftskontext.

Gültige Werte

Hinweis: Alle Werte müssen 8 Zeichen oder kürzer sein, um den BCP 47-Subtag-Längenbeschränkungen zu entsprechen. Während spezifische Werte für viele Klassifikatoren durch Expertennutzung und Gemeinschaftskonsens festgelegt werden sollen, sind die numerischen Skalen, Datumsformate und unten aufgeführten Grundwerte in diesem Standard definiert.

Formalitätsskala (Universal)

Stufe Beschreibung Beispiele
1 Am formellsten Rechtsdokumente, offizielle Zeremonien, akademische Arbeiten
2 Formell Geschäftsbriefe, Nachrichtenartikel, Präsentationen
3 Neutral Standardkonversation, E-Mail, allgemeines Schreiben
4 Informell Lockere Konversation, persönliche Blogs, Textnachrichten
5 Am lockersten Slang, intime Konversation, soziale Medien

Höflichkeitsskala (Universal)

Stufe Beschreibung Beispiele
1 Am respektvollsten Königliche Anrede, religiöse Führer, Respekt vor Älteren
2 Sehr höflich Kundenservice, formelle Meetings, Lehrer
3 Höflich/neutral Standardinteraktionen, Kollegen
4 Vertraut Freunde, Gleichgestellte, lockere Bekannte
5 Intim/schlicht Enge Familie, intime Partner

Expertiseskala (Universal)

Stufe Beschreibung
0 Kein Wissen
1-2 Anfänger
3-4 Mittelstufe
5-6 Fortgeschritten
7-8 Experte
9-10 Meister/Autorität

Tabu-Skala (Universal)

Stufe Beschreibung
0 Kein Tabu-Inhalt
1 Mildes Tabu
2 Leichtes Tabu
3 Moderates Tabu
4 Hohes Tabu
5 Extremes Tabu

Lexikalische Dichteskala (Universal)

Stufe Beschreibung
0-20 Sehr niedrige Dichte
21-40 Niedrige Dichte
41-60 Moderate Dichte
61-80 Hohe Dichte
81-100 Sehr hohe Dichte

Syntaktische Komplexitätsskala (Universal)

Stufe Beschreibung
0-20 Sehr einfach
21-40 Einfach
41-60 Moderate Komplexität
61-80 Komplex
81-100 Sehr komplex

Domänenwerte

Wert Beschreibung
legal Rechtsterminologie
med Medizinische Terminologie
tech Technisch/IT
business Geschäftlich/unternehmerisch
fin Finanzen/Banking
acad Akademisch/wissenschaftlich
sci Wissenschaftlich/Forschung

Implementierungsbeispiele

Einzelklassifikator (Langform)

# Formellstes Koreanisch
ko-x-form-1

# Sehr höfliches Japanisch
ja-x-polite-2

# Juristisches Englisch
en-x-domain-legal

# Gyeongsang-Koreanisch
ko-x-geo-gyeong

# Proto-Indoeuropäisch
x-proto-ine

Einzelklassifikator (Kurzform)

# Formellstes Koreanisch
ko-x-f-1

# Sehr höfliches Japanisch
ja-x-p-2

# Juristisches Englisch
en-x-d-legal

# Gyeongsang-Koreanisch
ko-x-g-gyeong

# Proto-Indoeuropäisch
x-a-ine

Mehrfachklassifikatoren

# Informelle aber höfliche koreanische Geschäftssprache
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

# Formelle und respektvolle japanische medizinische Sprache
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med

# Südvietnamesisch mit neutraler Formalität, höflicher Rede, technischer Domäne
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech

# Komplexe Klassifikation mit mehreren Dimensionen
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written

# Sprachvarietäten, die Formalitäts-/Höflichkeitsunterscheidung zeigen
ko-x-f-5-p-2  # Sehr locker aber höflich (zu älterem Freund)
ko-x-f-1-p-4  # Sehr formell aber vertraut (schriftlich an Gleichgestellten)
ja-x-f-4-p-1  # Lockere Formalität aber höchster Respekt
en-x-f-5-j-4  # Sehr lockeres Englisch mit hoher Tabu-Ebene

Anwendungsfälle

  1. Sprachlern-Anwendungen
    • Angemessenes Register für verschiedene soziale Kontexte lehren
    • Domänenspezifisches Vokabeltraining bereitstellen
  2. Maschinelle Übersetzung
    • Registerkonsistenz in Übersetzungen beibehalten
    • Domänenspezifische Terminologie anwenden
  3. Inhaltsklassifikation
    • Text automatisch nach Formalität und Domäne kategorisieren
    • Inhalte an geeignete Prüfer oder Systeme weiterleiten
  4. Korpuslinguistik
    • Getaggte Korpora für linguistische Forschung erstellen
    • Register- und Domänenvariation studieren

Validierungsregeln

  1. Subtag-Länge: Jeder Subtag nach x- muss 8 Zeichen oder weniger haben
  2. Reihenfolge: Klassifikatoren können in beliebiger Reihenfolge nach x- erscheinen
  3. Eindeutigkeit: Jeder Klassifikatortyp sollte nur einmal pro Tag erscheinen (außer conf, das mehrmals erscheinen kann)
  4. Groß-/Kleinschreibung: Tags sollten kleingeschrieben sein (gemäß BCP 47 nicht case-sensitiv)
  5. Magische Tags: Kurzform-Tags sind einzelne Zeichen; q, 3-9 sind für zukünftige Verwendung reserviert
  6. Mischung: Lang- und Kurzformen können innerhalb desselben Tags gemischt werden
  7. Proto-Tags: Müssen mit x- beginnen und SOLLTEN ISO 639-5-Codes verwenden, wenn verfügbar (z.B. x-proto-sla nicht x-proto-slavic)
  8. Konfidenz: Der conf/c Klassifikator gilt für den unmittelbar vorhergehenden Klassifikator
  9. Numerische Werte: Müssen innerhalb definierter Bereiche liegen (0-5 für Tabu, 0-10 für Expertise, 0-100 für Prozentwerte)
  10. Datumsformat: Daten verwenden ISO 8601 ohne Interpunktion (YYYY, YYYYMM oder YYYYMMDD)

Kompatibilität

Das LVTag-Format ist vollständig kompatibel mit:

Vorteile

  1. Präzision: Ermöglicht feinkörnige Sprachvarietätsidentifikation
  2. Erweiterbarkeit: Neue Register und Domänen können hinzugefügt werden
  3. Standardbasiert: Aufgebaut auf etabliertem BCP 47 Private-Use-Mechanismus
  4. Maschinenlesbar: Systematisches Format ermöglicht automatisierte Verarbeitung
  5. Menschenlesbar: Klare, beschreibende Subtags
  6. Flexibilität: Unterstützung für sowohl ausführliche Langform- als auch prägnante Kurzform-Tags
  7. Kürze: Kurze magische Tags ermöglichen kompakte Darstellung bei Beibehaltung der Klarheit

Zukünftige Erweiterungen

LVTag ist so konzipiert, dass es sich mit den Bedürfnissen der Sprachtechnologie-Community entwickelt. Wir begrüßen Vorschläge für neue Klassifikatoren, Verbesserungen bestehender und Feedback aus realen Implementierungen.

Um Erweiterungen vorzuschlagen oder zur Spezifikation beizutragen:

Reservierte Einzelzeichencodes (q, 3-9) sind für zukünftige standardisierte Erweiterungen verfügbar.

Referenzen


Lizenz und Patentgewährung

Diese Spezifikation wird unter der CC0 1.0 Universal (Public Domain Dedication) veröffentlicht.

Warum CC0: Um maximale Akzeptanz und Implementierungsfreiheit zu gewährleisten, wird LVTag in die Public Domain gestellt. Das bedeutet:

Patentgewährung: Alle Patente, die die LVTag-Spezifikation abdecken, werden hiermit lizenzgebührenfrei für jede Implementierung lizenziert, die dieser Spezifikation entspricht.

Keine Befürwortung: Die Verwendung von LVTag impliziert keine Befürwortung durch die Spezifikationsautoren.

Soweit gesetzlich möglich, hat Danslav Slavenskoj auf alle Urheber- und verwandten oder Nachbarrechte an der Language Variant Tag (LVTag) Format Spezifikation verzichtet. Dieses Werk wird veröffentlicht aus: Vereinigte Staaten von Amerika.