라벨링

🏷️ 라벨링 Labeling

1. 개요

라벨링은 녹음된 음성 파일에 대해 발음, 시간 구간, 가사(텍스트) 정보를 정밀하게 부착하는 과정입니다.
DiffSinger와 같은 음성합성/노래 합성 모델은 음성과 발음의 정확한 대응 관계를 필요로 하므로, 라벨링 품질은 모델 성능에 직결됩니다.

2. 준비사항

도구
- Praat
- Vlabeler
- Setparam

유용한 플러그인

3. 라벨링 방식

(1) 발음 단위 분할

음성을 음소(phoneme) 또는 음절(syllable) 단위로 구간 분할

한국어: 자모(초성, 중성, 종성) 단위가 일반적

(2) 시간 구간(Time Alignment)

각 발음이 시작되는 지점과 끝나는 지점을 밀리초 단위로 기록

예시 :

(3) 가사/텍스트 정렬

녹음된 문장과 텍스트 스크립트가 정확히 일치해야 함

띄어쓰기, 맞춤법, 특수문자 여부 확인 필요
- 팀코다 라벨링 오타 검수기

4. 라벨링 규칙

정확성 우선: 대충 분할하면 모델이 발음을 왜곡하여 학습

일관성 유지: 같은 발음은 동일한 라벨 사용 (예: "k" / "g" 혼동 금지)

무음 처리: 발음 사이의 짧은 무음 구간도 별도로 표기 가능 (무음 : "SP", 숨소리: "AP" 로 표기)

특수 발음 표기: 특수 발음을 따로 표시할지 여부 사전 정의

5. 파일 및 데이터 형식

일반적으로 .lab파일을 사용 (최종적으로 .csv 등을 사용)

6. 주의사항

잘못된 라벨링은 발음 인식 오류, 가창 타이밍 오류로 이어짐

파일명은 녹음 단계에서 설정한 규칙을 그대로 따름

맨 위로