메인 항목으로

데이터 녹음

🎙️ 녹음 Recording

1. 개요

DiffSinger 학습용 코퍼스 제작에서 녹음(Recording) 은 모델이 학습할 원본 음성을 확보하는 단계입니다.
발음의 정확성과 음질은 이후 학습 성능에 직접적으로 영향을 주므로, 일정한 환경과 규칙을 유지하며 녹음하는 것이 필수적입니다.


2. 준비사항

  • 마이크: 콘덴서 마이크 권장 (예: AT2020, NT1-A 등)

  • 오디오 인터페이스: 잡음을 줄이고 안정적인 입력 신호 확보 (예: Focusrite Scarlett 시리즈)

  • 소프트웨어: Audacity, Cakewalk, Cubase 등 DAW 사용 가능


3. 녹음 규칙

  • 샘플링 레이트: 44.1kHz

  • 비트 깊이: 16bit

  • 파일 형식: WAV (무손실)

  • 모노(Mono)로 녹음 (스테레오 불필요)


4. 파일 네이밍 규칙

일관된 파일명은 라벨링과 학습자에게 전달할 때 도움이 되기 때문에 매우 중요합니다.

* 모든 파일명은 영문 표기로 기재. (숫자, _까지 표기 가능)

예시:

image.png

    • 추천 폴더 트리
      - 캐릭터 네임 폴더
         - 언어,CV이름,캐릭터이름,보컬스피커 폴더
             - wav 폴더
                   - 001_song_vocalmode_01.wav       - lab 폴더
                   - 001_song_vocalmode_01.lab


5. 주의사항

  • 클리핑 방지: 입력 음량이 0dB에 닿지 않도록 -6~-s-3dB 사이 유지

  • 환경 잡음 최소화: 선풍기, 키보드 소리, 호흡 소리 등 제거

  • 재녹음 권장: 발음이 틀렸거나 음질에 문제가 있으면 즉시 재녹음

  • 마이크와의 적절한 거리 유지
  • 하나의 선율로만 구성: 화음 등 2가지 이상의 선율이 동시에 나오는 형태로 저장X
  • 하나의 보컬모드로만 녹음
    • 보컬모드란? 음색을 뜻합니다. (예: Soft, Power 등)
  • 오디오 효과 제거: 리버브 등의 음향효과X

6. 녹음 후 처리

소프트웨어: RX 10 Audio Editor

  • 노멀라이즈(Normalize): 볼륨을 일정한 기준으로 맞추기

  • 립노이즈 제거:
  • 화이트 노이즈 제거: 기본적인 배경 잡음 제거

  • EQ: 필요없는 저음역대 주파순 제거
  • 컴프레서(Compressor): 저음과 고음의 음량 차이가 클 경우에 추천