라벨링
🏷️ 라벨링 Labeling
1. 개요
라벨링은 녹음된 음성 파일에 대해 발음, 시간 구간, 가사(텍스트) 정보를 정밀하게 부착하는 과정입니다.
DiffSinger와 같은 음성합성/노래 합성 모델은 음성과 발음의 정확한 대응 관계를 필요로 하므로, 라벨링 품질은 모델 성능에 직결됩니다.
2. 준비사항
-
도구
-
Praat
- Vlabeler
-
Setparam
-
-
유용한 플러그인
3. 라벨링 방식
(1) 발음 단위 분할
-
음성을 음소(phoneme) 또는 음절(syllable) 단위로 구간 분할
-
한국어: 자모(초성, 중성, 종성) 단위가 일반적
(2) 시간 구간(Time Alignment)
-
각 발음이 시작되는 지점과 끝나는 지점을 밀리초 단위로 기록
-
예시 :
(3) 가사/텍스트 정렬
-
녹음된 문장과 텍스트 스크립트가 정확히 일치해야 함
-
띄어쓰기, 맞춤법, 특수문자 여부 확인 필요
-
팀코다 라벨링 오타 검수기
-
4. 라벨링 규칙
-
정확성 우선: 대충 분할하면 모델이 발음을 왜곡하여 학습
-
일관성 유지: 같은 발음은 동일한 라벨 사용 (예: "k" / "g" 혼동 금지)
-
무음 처리: 발음 사이의 짧은 무음 구간도 별도로 표기 가능 (무음 : "SP", 숨소리: "AP" 로 표기)
-
특수 발음 표기: 특수 발음을 따로 표시할지 여부 사전 정의
5. 파일 및 데이터 형식
-
일반적으로
.lab파일을 사용 (최종적으로.csv등을 사용)
6. 주의사항
-
잘못된 라벨링은 발음 인식 오류, 가창 타이밍 오류로 이어짐
-
파일명은 녹음 단계에서 설정한 규칙을 그대로 따름