데이터 녹음

🎙️ 녹음 Recording

1. 개요

DiffSinger 학습용 코퍼스 제작에서 녹음(Recording) 은 모델이 학습할 원본 음성을 확보하는 단계입니다.
발음의 정확성과 음질은 이후 학습 성능에 직접적으로 영향을 주므로, 일정한 환경과 규칙을 유지하며 녹음하는 것이 필수적입니다.

2. 준비사항

마이크: 콘덴서 마이크 권장 (예: AT2020, NT1-A 등)
오디오 인터페이스: 잡음을 줄이고 안정적인 입력 신호 확보 (예: Focusrite Scarlett 시리즈)
소프트웨어: Audacity, Cakewalk, Cubase 등 DAW 사용 가능

3. 녹음 규칙

샘플링 레이트: 44.1kHz
비트 깊이: 16bit
파일 형식: WAV (무손실)
모노(Mono)로 녹음 (스테레오 불필요)

4. 파일 네이밍 규칙

일관된 파일명은 라벨링과 학습자에게 전달할 때 도움이 되기 때문에 매우 중요합니다.

* 모든 파일명은 영문 표기로 기재. (숫자, _까지 표기 가능)

예시:

- 추천 폴더 트리
  - 캐릭터 네임 폴더
  - 언어,CV이름,캐릭터이름,보컬스피커 폴더
  - wav 폴더
  - 001_song_vocalmode_01.wav - lab 폴더
  - 001_song_vocalmode_01.lab

5. 주의사항

클리핑 방지: 입력 음량이 0dB에 닿지 않도록 -6~-s-3dB 사이 유지
환경 잡음 최소화: 선풍기, 키보드 소리, 호흡 소리 등 제거
재녹음 권장: 발음이 틀렸거나 음질에 문제가 있으면 즉시 재녹음
마이크와의 적절한 거리 유지

하나의 선율로만 구성: 화음 등 2가지 이상의 선율이 동시에 나오는 형태로 저장X

하나의 보컬모드로만 녹음
- 보컬모드란? 음색을 뜻합니다. (예: Soft, Power 등)

오디오 효과 제거: 리버브 등의 음향효과X

6. 녹음 후 처리

소프트웨어: RX 10 Audio Editor

노멀라이즈(Normalize): 볼륨을 일정한 기준으로 맞추기
립노이즈 제거:

화이트 노이즈 제거: 기본적인 배경 잡음 제거
EQ: 필요없는 저음역대 주파순 제거

컴프레서(Compressor): 저음과 고음의 음량 차이가 클 경우에 추천

맨 위로