메인 항목으로

라벨링

🏷️ 라벨링 Labeling

1. 개요

라벨링은 녹음된 음성 파일에 대해 발음, 시간 구간, 가사(텍스트) 정보를 정밀하게 부착하는 과정입니다.
DiffSinger와 같은 음성합성/노래 합성 모델은 음성과 발음의 정확한 대응 관계를 필요로 하므로, 라벨링 품질은 모델 성능에 직결됩니다.


2. 준비사항

  • 도구

    • Praat

    • Vlabeler
    • Setparam

  • 유용한 플러그인 


3. 라벨링 방식

(1) 발음 단위 분할

  • 음성을 음소(phoneme) 또는 음절(syllable) 단위로 구간 분할

  • 한국어: 자모(초성, 중성, 종성) 단위가 일반적

(2) 시간 구간(Time Alignment)

  • 각 발음이 시작되는 지점과 끝나는 지점을 밀리초 단위로 기록

  • 예시 :

0 177687072 SP 177687072 181315200 eo 181315200 182947856 jj 182947856 185306112 i 185306112 196734688 a 196734688 197306112 M 197306112 197877568 m 197877568 199428576 i

(3) 가사/텍스트 정렬

  • 녹음된 문장과 텍스트 스크립트가 정확히 일치해야 함

  • 띄어쓰기, 맞춤법, 특수문자 여부 확인 필요

    • 팀코다 라벨링 오타 검수기


4. 라벨링 규칙

  • 정확성 우선: 대충 분할하면 모델이 발음을 왜곡하여 학습

  • 일관성 유지: 같은 발음은 동일한 라벨 사용 (예: "k" / "g" 혼동 금지)

  • 무음 처리: 발음 사이의 짧은 무음 구간도 별도로 표기 가능 (무음 : "SP", 숨소리: "AP" 로 표기)

  • 특수 발음 표기: 특수 발음을 따로 표시할지 여부 사전 정의


5. 파일 및 데이터 형식

  • 일반적으로 .lab파일을 사용 (최종적으로 .csv 등을 사용)


6. 주의사항

  • 잘못된 라벨링은 발음 인식 오류, 가창 타이밍 오류로 이어짐

  • 파일명은 녹음 단계에서 설정한 규칙을 그대로 따름