Skip to the content.
LVTag Logo

LVTag 사양

버전 1.0
작성자: Danslav Slavenskoj
날짜: 2025년 5월

언어: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски

빠른 링크

개요

언어 변형 태그(LVTag) 형식은 개인 사용 서브태그를 사용하여 BCP 47 표준을 확장하는 체계적인 언어 분류 접근법입니다. 격식성, 공손함, 도메인, 철자법을 포함한 여러 차원에 걸쳐 언어 변종의 정확한 식별을 가능하게 합니다.

주요 이점

분류의 엄격성: LVTag는 다양한 유형의 변형에 대해 명확하고 분리된 차원을 제공함으로써 언어 태깅에 체계적인 조직을 가져옵니다. 동일한 수준에서 다른 범주를 혼합하는 기존 서브태그 및 시스템과 달리, LVTag는 격식성, 공손함, 도메인 및 기타 차원 간의 엄격한 분리를 유지합니다.

표준 호환성: LVTag는 BCP 47 (RFC 5646)과 완전히 호환되며 다음과 원활하게 작동합니다:

기술 통합: LVTag 태그는 다음에서 직접 사용할 수 있습니다:

사용 사례:

근거

BCP 47은 언어, 문자, 지역 식별에 대한 탁월한 지원을 제공하지만, 언어 내 사회언어학적 변형을 포착하기 위한 표준화된 메커니즘이 부족합니다. 현재 표준은 다음을 다루지 않습니다:

LVTag는 BCP 47의 개인 사용 확장 메커니즘(-x-)을 사용하여 이러한 격차를 메우며, 완전한 역호환성을 유지하면서 언어 변형의 이러한 중요한 차원을 인코딩하는 체계적이고 기계 판독 가능한 방법을 제공합니다.

정밀한 언어 분류

대규모 언어 모델과 정교한 NLP 도구의 출현으로 정밀한 언어 변종 분류가 유용할 뿐만 아니라 필수적이 되었습니다. 현대 시스템은 다음이 필요합니다:

LVTag는 어떤 언어가 사용되고 있는지뿐만 아니라 어떻게 사용되고 있는지 이해하는 데 필요한 세분화된 메타데이터를 제공하여 보다 미묘하고 적절한 언어 처리 파이프라인을 가능하게 합니다.

형식 사양

기본 구조

language-x-[classifier]-[value]-[classifier2]-[value2]...

여기서:

매직 태그

LVTag는 유연성을 위해 긴 형식과 짧은 형식의 “매직” 분류자를 모두 지원합니다:

긴 형식 짧은 형식 설명
ortho w 철자 변형
form f 격식성 수준 (1-5 척도)
polite p 공손함/존경 수준 (1-5 척도)
domain d 전문 어휘 또는 전문 맥락
geo g 지리적 또는 지역적 변종
proto a 조어 또는 재구성된 언어
hist h 언어의 역사적 시기 또는 단계
genre e 텍스트 장르 또는 문학적 스타일
medium m 커뮤니케이션 매체 (구어, 문어, 디지털)
socio s 사회방언 또는 사회 집단 변종
modality o 언어 생산 모드
register r 언어 레지스터
pragma u 의사소통 기능
temporal t 시간적 표시
evidence v 정보 출처
affect k 감정적 톤
age n 연령/세대 변종
gender i 성별 변종
expert b 전문 지식 수준
interact 2 상호작용 구조
prosody y 운율적 특징
lexical l 어휘 밀도 (0-100)
syntax z 구문 복잡성 (0-100)
start 0 시작 날짜 (구두점 없는 ISO 8601)
end 1 종료 날짜 (구두점 없는 ISO 8601)
taboo j 금기/저속한 콘텐츠 수준 (0-5 척도)
conf c 이전 태그의 신뢰도 점수 (0-100)
q, 3-9 향후 사용을 위해 예약됨

분류자

1. 철자 분류자 (ortho 또는 w)

표준 문자 태그를 넘어선 특정 철자 규칙이나 문자 체계 변형을 식별합니다.

형식:

예시 (표준 문자 태그와 결합):

2. 격식성 분류자 (form 또는 f)

언어 사용의 격식성 수준을 식별합니다.

형식:

격식성 척도:

예시:

3. 공손함 분류자 (polite 또는 p)

언어 사용의 공손함/존경 수준을 식별합니다.

형식:

공손함 척도:

예시:

4. 도메인 분류자 (domain 또는 d)

전문 어휘 또는 전문 맥락을 식별합니다.

형식:

예시:

5. 지리적 분류자 (geo 또는 g)

지역적 또는 지리적 언어 변종을 식별합니다.

형식:

예시:

6. 조어 분류자 (proto 또는 a)

조어 또는 재구성된 역사적 언어를 식별합니다.

형식:

규칙:

ISO 639-5 코드를 사용한 예시:

ISO 639-5 코드가 없는 예시 (설명적, 3자 이상):

참고:

7. 역사적 분류자 (hist 또는 h)

언어의 역사적 시기 또는 단계를 식별합니다.

형식:

예시:

8. 장르 분류자 (genre 또는 e)

텍스트 장르 또는 문학적 스타일을 식별합니다.

형식:

예시:

9. 매체 분류자 (medium 또는 m)

커뮤니케이션 매체를 식별합니다.

형식:

예시:

10. 사회방언 분류자 (socio 또는 s)

사회방언 또는 사회 집단 변종을 식별합니다.

형식:

예시:

11. 양식 분류자 (modality 또는 o)

언어 생산의 기본 모드를 식별합니다.

형식:

예시:

12. 레지스터 분류자 (register 또는 r)

언어 사용의 언어 레지스터 또는 기능적 변종을 식별합니다.

형식:

예시:

13. 화용 기능 분류자 (pragma 또는 u)

의사소통 기능 또는 화행을 식별합니다.

형식:

예시:

14. 시간적 표시 분류자 (temporal 또는 t)

시간적 측면 또는 시제 사용 패턴을 식별합니다.

형식:

예시:

15. 증거성 분류자 (evidence 또는 v)

정보 출처 표시를 식별합니다.

형식:

예시:

16. 정서/감정 분류자 (affect 또는 k)

감정적 톤 또는 정서를 식별합니다.

형식:

예시:

17. 연령/세대 분류자 (age 또는 n)

연령 관련 또는 세대적 언어 변종을 식별합니다.

형식:

예시:

18. 성별 분류자 (gender 또는 i)

성별 관련 언어 변종을 식별합니다.

형식:

19. 전문 지식 수준 분류자 (expert 또는 b)

0-10 척도로 도메인 전문 지식 수준을 식별합니다.

형식:

전문 지식 척도:

예시:

20. 상호작용 구조 분류자 (interact 또는 2)

대화 또는 상호작용 패턴을 식별합니다.

형식:

예시:

21. 운율적 특징 분류자 (prosody 또는 y)

운율적 또는 초분절적 특징을 식별합니다.

형식:

예시:

22. 어휘 밀도 분류자 (lexical 또는 l)

어휘 밀도를 숫자 값(0-100)으로 식별합니다.

형식:

예시:

23. 구문 복잡성 분류자 (syntax 또는 z)

구문 복잡성을 숫자 값(0-100)으로 식별합니다.

형식:

예시:

24. 시작 날짜 분류자 (start 또는 0)

언어 사용 시작 날짜를 식별합니다 (구두점 없는 ISO 8601 형식).

형식:

날짜 형식:

예시:

25. 종료 날짜 분류자 (end 또는 1)

언어 사용 종료 날짜를 식별합니다 (구두점 없는 ISO 8601 형식).

형식:

날짜 형식:

예시:

26. 금기 분류자 (taboo 또는 j)

금기, 저속하거나 불쾌한 콘텐츠의 수준을 식별합니다.

형식:

예시:

27. 신뢰도 분류자 (conf 또는 c)

바로 앞의 분류자에 대한 신뢰도 점수를 나타냅니다.

형식:

특별한 동작:

예시:

다중 분류

LVTag는 정확한 언어 식별을 제공하기 위해 단일 태그에서 여러 분류자를 지원합니다. 긴 형식과 짧은 형식을 모두 혼합할 수 있습니다:

ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

위의 예시는 비즈니스 맥락에서 비격식적 격식성(4)이지만 공손한 말투(2)를 가진 한국어를 보여줍니다.

유효한 값

참고: 모든 값은 BCP 47 서브태그 길이 제한을 준수하기 위해 8자 이하여야 합니다. 많은 분류자의 특정 값은 전문가 사용과 커뮤니티 합의를 통해 설정되어야 하지만, 숫자 척도, 날짜 형식 및 아래 나열된 기본 값은 이 표준에서 정의됩니다.

격식성 척도 (범용)

수준 설명 예시
1 가장 격식적 법률 문서, 공식 행사, 학술 논문
2 격식적 비즈니스 서신, 뉴스 기사, 프레젠테이션
3 중립적 표준 대화, 이메일, 일반 글쓰기
4 비격식적 캐주얼한 대화, 개인 블로그, 문자 메시지
5 가장 캐주얼 속어, 친밀한 대화, 소셜 미디어

공손함 척도 (범용)

수준 설명 예시
1 가장 공손함 왕실 호칭, 종교 지도자, 노인 공경
2 매우 공손함 고객 서비스, 공식 회의, 교사
3 공손함/중립 표준 상호작용, 동료
4 친근함 친구, 동료, 캐주얼한 지인
5 친밀함/평어 가까운 가족, 친밀한 파트너

전문 지식 척도 (범용)

수준 설명
0 지식 없음
1-2 초보자
3-4 중급
5-6 고급
7-8 전문가
9-10 마스터/권위자

금기 척도 (범용)

수준 설명
0 금기 콘텐츠 없음
1 약한 금기
2 가벼운 금기
3 보통 금기
4 높은 금기
5 극도의 금기

어휘 밀도 척도 (범용)

수준 설명
0-20 매우 낮은 밀도
21-40 낮은 밀도
41-60 보통 밀도
61-80 높은 밀도
81-100 매우 높은 밀도

구문 복잡성 척도 (범용)

수준 설명
0-20 매우 단순함
21-40 단순함
41-60 보통 복잡성
61-80 복잡함
81-100 매우 복잡함

도메인 값

설명
legal 법률 용어
med 의학 용어
tech 기술/IT
business 비즈니스/기업
fin 금융/은행
acad 학술/학문
sci 과학/연구

구현 예시

단일 분류자 (긴 형식)

# 가장 격식적인 한국어
ko-x-form-1

# 매우 공손한 일본어
ja-x-polite-2

# 법률 영어
en-x-domain-legal

# 경상도 한국어
ko-x-geo-gyeong

# 인도유럽조어
x-proto-ine

단일 분류자 (짧은 형식)

# 가장 격식적인 한국어
ko-x-f-1

# 매우 공손한 일본어
ja-x-p-2

# 법률 영어
en-x-d-legal

# 경상도 한국어
ko-x-g-gyeong

# 인도유럽조어
x-a-ine

다중 분류자

# 비격식적이지만 공손한 한국어 비즈니스 언어
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

# 격식적이고 존경하는 일본어 의학 언어
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med

# 중립적 격식성, 공손한 말투, 기술 도메인의 남부 베트남어
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech

# 여러 차원을 가진 복잡한 분류
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written

# 격식성/공손함 구분을 보여주는 언어 변종
ko-x-f-5-p-2  # 매우 캐주얼하지만 공손함 (나이 든 친구에게)
ko-x-f-1-p-4  # 매우 격식적이지만 친근함 (동료에게 쓴 글)
ja-x-f-4-p-1  # 캐주얼한 격식성이지만 최고의 존경
en-x-f-5-j-4  # 매우 캐주얼한 영어에 높은 금기 수준

사용 사례

  1. 언어 학습 애플리케이션
    • 다양한 사회적 맥락에 적합한 레지스터 교육
    • 도메인별 어휘 훈련 제공
  2. 기계 번역
    • 번역에서 레지스터 일관성 유지
    • 도메인별 용어 적용
  3. 콘텐츠 분류
    • 격식성과 도메인별로 텍스트 자동 분류
    • 적절한 검토자나 시스템으로 콘텐츠 라우팅
  4. 말뭉치 언어학
    • 언어 연구를 위한 태그된 말뭉치 구축
    • 레지스터와 도메인 변화 연구

검증 규칙

  1. 서브태그 길이: x- 이후의 각 서브태그는 8자 이하여야 함
  2. 순서: 분류자는 x- 이후 어떤 순서로든 나타날 수 있음
  3. 고유성: 각 분류자 유형은 태그당 한 번만 나타나야 함 (여러 번 나타날 수 있는 conf 제외)
  4. 대소문자: 태그는 소문자여야 함 (BCP 47에 따라 대소문자 구분 없음)
  5. 매직 태그: 짧은 형식 태그는 단일 문자; q, 3-9는 향후 사용을 위해 예약됨
  6. 혼합: 긴 형식과 짧은 형식은 같은 태그 내에서 혼합 가능
  7. 조어 태그: x-로 시작해야 하며 가능한 경우 ISO 639-5 코드를 사용해야 함 (예: x-proto-sla이지 x-proto-slavic이 아님)
  8. 신뢰도: conf/c 분류자는 바로 앞의 분류자에 적용됨
  9. 숫자 값: 정의된 범위 내에 있어야 함 (금기는 0-5, 전문 지식은 0-10, 백분율 값은 0-100)
  10. 날짜 형식: 날짜는 구두점 없는 ISO 8601 사용 (YYYY, YYYYMM 또는 YYYYMMDD)

호환성

LVTag 형식은 다음과 완전히 호환됩니다:

이점

  1. 정밀성: 세밀한 언어 변종 식별 가능
  2. 확장성: 새로운 레지스터와 도메인 추가 가능
  3. 표준 기반: 확립된 BCP 47 개인 사용 메커니즘 위에 구축
  4. 기계 판독 가능: 체계적인 형식으로 자동화된 처리 가능
  5. 사람이 읽을 수 있음: 명확하고 설명적인 서브태그
  6. 유연성: 상세한 긴 형식과 간결한 짧은 형식 태그 모두 지원
  7. 간결성: 짧은 매직 태그로 명확성을 유지하면서 간결한 표현 가능

향후 확장

LVTag는 언어 기술 커뮤니티의 요구에 따라 발전하도록 설계되었습니다. 새로운 분류자 제안, 기존 분류자 개선, 실제 구현 피드백을 환영합니다.

확장을 제안하거나 사양에 기여하려면:

예약된 단일 문자 코드 (q, 3-9)는 향후 표준화된 확장을 위해 사용 가능합니다.

참고 문헌


라이선스 및 특허 부여

이 사양은 CC0 1.0 Universal (Public Domain Dedication) 하에 발표됩니다.

왜 CC0인가: 최대한의 채택과 구현의 자유를 보장하기 위해 LVTag는 공공 도메인에 배치됩니다. 이는 다음을 의미합니다:

특허 부여: LVTag 사양을 다루는 모든 특허는 이 사양을 준수하는 모든 구현에 대해 무료로 라이선스됩니다.

보증 없음: LVTag 사용은 사양 작성자의 보증을 의미하지 않습니다.

법이 허용하는 범위 내에서 Danslav Slavenskoj는 Language Variant Tag (LVTag) 형식 사양에 대한 모든 저작권 및 관련 또는 인접 권리를 포기했습니다. 이 작품은 다음에서 발행됩니다: 미합중국. EOF < /dev/null