메인 항목으로

데이터 녹음

🎙️ 녹음 Recording

1. 개요

DiffSinger 학습용 코퍼스 제작에서 녹음(Recording) 은 모델이 학습할 원본 음성을 확보하는 단계입니다.
발음의 정확성과 음질은 이후 학습 성능에 직접적으로 영향을 주므로, 일정한 환경과 규칙을 유지하며 녹음하는 것이 필수적입니다.


2. 준비사항

  • 마이크: 콘덴서 마이크 권장 (예: AT2020, NT1-A 등)

  • 오디오 인터페이스: 잡음을 줄이고 안정적인 입력 신호 확보 (예: Focusrite Scarlett 시리즈)

  • 소프트웨어: Audacity, Cakewalk, Cubase 등 DAW 사용 가능


3. 녹음 규칙

  • 샘플링 레이트: 44.1kHz

  • 비트 깊이: 16bit

  • 파일 형식: WAV (무손실)

  • 모노(Mono)로 녹음 (스테레오 불필요)


4. 파일 네이밍 규칙

일관된 파일명은 라벨링과 학습자에게 전달할 때 도움이 되기 때문에 매우 중요합니다.

예시:

image.png

  • 앞자리 번호는 순서를 표시

  • 뒤에는 텍스트 문장을 간단히 적을 수 있음


6. 주의사항

  • 클리핑 방지: 입력 음량이 0dB에 닿지 않도록 -6~-3dB 사이 유지

  • 환경 잡음 최소화: 선풍기, 키보드 소리, 호흡 소리 등 제거

  • 재녹음 권장: 발음이 틀렸거나 음질에 문제가 있으면 즉시 재녹음


7. 녹음 후 처리

  • 노멀라이즈(Normalize): 볼륨을 일정한 기준으로 맞추기

  • 노이즈 제거: 기본적인 잡음 제거

  • 트림(Trim): 문장 앞뒤의 불필요한 무음을 정리