업그레이드~!!/잡동사니

WAVE FILE의 구조

SamSiKi 2008. 7. 24. 16:15
WAVE FILE의 구조

WAVE 파일은 사운드 파일중에 한 형식으로 윈도우에서 가장 흔하게 쓰이는 파일중에 하나이다. 이번에 이 유령넘이 강좌?랍시고 주절 거리는 내용은 이넘의 WAVE 파일을 한번 재생해 보자..는 것이다. WAVE 파일을재생하는데는, 쉽게는 SoundPlay() 함수였던가? .. 한줄이면 족하다...
물론, 지금 이 강좌는 그렇게 한줄이면 끝나는 정도가 아닌, WAVE 파일의 밑바닥부터 꼭대기까지 샅샅히 훑어 내려가며, 그 내부를 마구 파헤쳐 WAVE 파일을 맘대로 주무를 수 있도록 하는 경지?에까지 도달하도록하는것이 목표다.
일단, WAVE 파일이고 머고 간에, 기본적인 공식?부터 알아보고 넘어가도록 하자.사운드라는 것에 대해 깊이 있는 지식을 가지고 있는 사람은
볼 필요가 없겠지만, 어디까지나 처음 시작하는 사람들이 볼 것 이라고가정하고 설명하도록 한다.
WAVE 파일을 재생하면서 가끔 등록정보를 보신 분들은 알겠지만, 대게WAVE 파일의 등록정보라고 하면, 16 Bit , Stereo , 44.1 kHz...  등등
의 정보가 보일것이다. 이게 뭐가 중요하냐고? 중요하다.. 정말 중요하다. 이것으로 WAVE 파일이 시작되는 것이기 때문이다.예를 들어서 다음
과 같은 WAVE 파일이 하나 있다고 보자.

------------------------------------------------------------------
[어떤 WAVE 파일의 등록정보]

- 곡명 : 유령이라 불러라!
- 16 Bit
- Stereo
- 44.1 khz
------------------------------------------------------------------

이 세가지 정보면 WAVE 파일의 모든 것?을 알 수 있다. 일단 이 3가지기본적인 정보만으로 이 WAVE 파일의 초당전송량(Bit/Second)이나,전체

재생시간등을 계산해 보자. (이거 배워두면 정말 좋다..-_-;;..그냥..)

일단 계산하는 방식은 모두 곱한다. 16 Bit 이므로 16 을 곱하고,스테레오 방식이기 때문에 (스테레오는 채널이 2개 이기때문에, 2를 곱한다

당연히 모노는 1채널이기 때문에 1을 곱하면 된다.... 1은 안곱해도 되는구나 --;) 그리고 44.1 kHz 라는 것은 1초에 44100 번 발광을 한다는

소리니까 44100을 곱하면 된다.


16 * 2 * 44100 = 1411200 Bit 다.. 다시 바이트로 고쳐주려면, 나누기 8을 하면 된다. (왜 나누기 8을 하냐고 묻는다면.. 아시다시피.. 8 Bit

는 1 Byte 이기 때문이다..) 나누기 8을 한 결과 176400 이라는 숫자가나왔다.


즉, 이 WAVE 파일은 초당 176400 Byte 의 용량을 전송한다는 얘기다..숫자가 너무 크다고?.. 다시 KByte로 환산해 보자.. 172.265625가 나오

는데,귀찮으니까 소수점 아랫것들은 잘라버리고 정수부분만 읽어보자면172 KB 라고 나올 것이다. 그렇다. 이 WAVE 파일은 1초에 172 KB 나 차

지한다. (더럽게 크구만..) 전체 재생시간을 구하는 것 역시 간단하다.단순히 나누기만 하면 되기 때문이다.  전체 파일 크기를 알고 있다면,


" 전체 파일 크기 / 초당 용량 = 전체 재생 시간 (초 단위) "

라는 공식이 성립되는 것이다.자,이제 자신의 컴퓨터에 들어있는 WAVE들을 모조리 불러다가 그 넘들의 재생시간을 구해보고 실제로 플레이

해본다음 비슷하게 맞는지 비교해 보라.

------------------------------------------------------------------
여기서, 숙제.. 다음의 WAVE 파일들의 전체 크기는 얼마나 될까??????

[1]  8 Bit , Mono , 22 kHz
[2] 16 Bit , Mono , 11 kHz
[3] 16 Bit , Stereo , 22 KHz

각각의 WAVE 파일들의 재생시간은 총 1분 30초씩 이다. 그렇다면 각각의 WAVE 파일들의 전체 파일크기는 얼마나 될까?? ( 대한민국 초등교육

과정을 이수한 사람이라면 누구나 풀 수 있는 문제라서 풀이는 생략..)
------------------------------------------------------------------

WAVE 파일은 대게 8 Bit , 16 Bit 가 많이 쓰이는데, 24, 32 Bit 파일은 별도로 치고.. 대표적인 8 / 16 Bit 파일들은 아래의 그림처럼 파일

에 저장되어 있다. 8 Bit 라면 - 1 Byte 이므로 1 Byte 단위 마다 저장되어 있고, 16 Bit 라면 당연히 2 Byte 마다 저장되어 있다. 아래 그림

을 보면 8 Bit 파일은 전부 16개 (16진수 10까지..) 로 되어 있는 반면 16 Bit 는 같은 크기인데도 8 칸 밖에는 안된다. 이론적으로 16 Bit 는

8 Bit 에 비해 2 배의 용량을 차지하기 때문이다. [ D ] 라고 표기되어있는 것은 본인이 편의상 구분하기 쉽게 [ DATA ] 를 줄여 표현한 것이

고.. ( Mono 는 L / R 구분이 없다 ) Stereo에서 [ L ] , [ R ] 이라고

표기 한 것은 양 채널 ( Left Channel, Right Channel ) 을 뜻 한다...

------------------------------------------------------------------
[ 8 Bit Mono ]

   1   2   3   4   5   6   7   8   9   A   B   C   D   E   F  10
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+
: D : D : D : D : D : D : D : D : D : D : D : D : D : D : D : D :
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

[ 8 Bit Stereo ]

   1   2   3   4   5   6   7   8   9   A   B   C   D   E   F  10
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+
: L : R : L : R : L : R : L : R : L : R : L : R : L : R : L : R :
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+


[ 16Bit Mono ]
     1       2       3       4       5       6       7       8
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+
:   D   :   D   :   D   :   D   :   D   :   D   :   D   :   D   :
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

[16Bit Stereo ]

     1       2       3       4       5       6       7       8
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+
:   L   :   R   :   L   :   R   :   L   :   R   :   L   :   R   :
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

------------------------------------------------------------------

이건 어디까지나 2 채널(Stereo)방식만을 봤을때 그렇다는 것이고, 채널이 많아지면 또 저장구조는 당연히 달라지게 된다. 요즘 흔히 말하는

5.1채널이니 7.1채널이니 하는 것들은, 저것과는 모양새가 또 다르다..

------------------------------------------------------------------

WAVE 파일에 대해서 간략하게나마 알아봤는데,이제부터는 정말 자세히파헤쳐 볼 시간이다. WAVE 파일들은 크게 청크 부분과 데이타 부분으로

나뉜다. 실제 사운드가 들어있는 데이타 부분 앞에는 헤더 청크 부분이있는데, WAVE 파일의 구조를 살펴보면 아래와 같다.

------------------------------------------------------------------
1. Wave 파일 포맷(I)

   1) PCMWAVEFORMAT 구조체의 구조
      -. WAVEFORMAT wf;
      -. WORD       wBitsPerSample;

   2) WAVEFORMAT 구조체의 구조
      -. WORD   wFormatTag;
      -. WORD   nChannels;
      -. DWORD  nSamplesPerSec;
      -. DWORD  nAvgBytesPerSec;
      -. WORD   nBlockAlign;

   3) 예 : 22kHz 샘플링된 8bit 스테레오 Wave 파일의 구조

      PCMWAVEFORMAT PcmWaveFormat;
     
      PcmWaveFormat.wf.wFormatTag = 1;
      PcmWaveFormat.wf.nChannels = 2;      
      PcmWaveFormat.wf.nSamplesPerSec = 22050; 
      PcmWaveFormat.wf.nAvgBytesPerSec = 44100;
      PcmWaveFormat.wf.nBlockAlign = 2;
      PcmWaveFormat.wBitsPerSample = 8;       


2. Wave 파일 포맷(II)
------------------------------------------------------------------
     데이터형 Byte  내용            의미
------------------------------------------------------------------

1) RIFF chunk 
     - Char   4   "RIFF"          파일의 종류가 RIFF 파일을 의미
     - DWORD  4   FILE SIZE       현재부터 끝까지의 파일크기
                                  (파일크기-4Byte 또는, 데이터 크기
                                   +40Byte)
     - Char   4   "WAVE"          Wave 파일을 의미
  
2) FMT sub-chunk
     - Char   4   "fmt "          FMT sub-chunk의 시작
     - DWORD  4   16              현재 포인터(16 Byte)
     - short  2   wFormatTag      PCMWAVEFORMAT의 값
                                  ( 1:Wave Format이 PCM 방식 )
     - short  2   nChannels       채널 수 ( 1:모노, 2:스테레오 )
     - DWORD  4   nSamplesPerSec  샘플링 수
                                  ( 11kHz:11025,
                                    22kHz:22050,
                                    44kHz:44100 )
     - DWORD  4   nAvgBytesperSec 초당 샘플바이트
                                  ( nSamplesPerSec*BlockAlign )
     - short  2   BlockAlign      샘플당 바이트( nChannels*비트/8 )
     - short  2   wBitsPerSample  샘플당 비트수

   3) Data sub-chunk
     - Char   4   "data"          데이터청크의 시작
     - DWORD  4   DATA SIZE       데이터의 크기
                  DATA            데이터
------------------------------------------------------------------

WAVE 파일들을 EDITOR 로 읽어보면 파일의 내용이 아래와 같이 나온다원래는 HEX 값이 나와야 하는데 메모장으로 읽어들였더니..아래처럼 나

왔다.. -_-; 그래도 상관없다. 중요한건 제일 처음 " RIFF " 라는 단어로 시작한다는 것이다. 그 다음에 WAVE 파일 포맷임을 알리는 " WAVE "

라는 단어가 온다. 보통 파일포맷에 따라 헤더에 해당 파일포맷임을 리는 식별자가 오는데 GIF나 PCX, 또는 EXE 파일들을 한번씩 열어 보면

같은 단어로 시작한다는 것을 알 수 있을 것이다.

[1] RIFF$?WAVEfmt D쵆Xdata? ...

[2] RIFF?$WAVEfmt D??data? ...

[3] RIFF? WAVEfmt   D  ? PAD ?                                      

                                          
------------------------------------------------------------------              

                   
3 개의 WAVE 파일들을 열어봤는데, 모두 RIFF .. WAVE .. fmt 로 시작하고 있다.이 파일들이 WAVE 파일임을 알 수 있는 것이다. 사실 WAVE파

일에도 ADPCM 이니 PCM 이니 하는 식으로 다양한?포맷이 존재하는데 이

것은 쉽게 생각하면 압축방식의 차이다.  여기서 RIFF 파일 형식이라는

말이 나오는데, RIFF에 대해서 설명하자면..
          
------------------------------------------------------------------
[ RIFF 파일(Resource Interchange File Format) ]
------------------------------------------------------------------ 
음성이나 비디오 같은 유의 데이터들은 용량이 매우 크기 때문에  이를저장할 시에는 비트 단위보다는 블록 단위로 저장을 하게 된다.

이러한블록은 가변적인 크기를 가질 수 있는데 이를 위해서는 데이터 블록 앞에 헤더를 사용해 이를 정의해 주어야 한다. 일례로

10 MByte 의  음성

데이터를 파일에 저장 하려할 때 블록 단위로 하지 않으면 데이터를 불러오는데 10M의 메모리가 필요하게 된다. 이렇게 된다면 불러오기도 힘

들 뿐만 아니라 불러오는데 걸리는 시간이 많이 걸리는 단점이 생긴다.그러나 10M의 음성데이터를 0.5M 씩 블록으로 나누어 저장한다면 20 개

의 블록을 가질 것이다. 즉, 0.5M씩 메모리에 불러온 후 출력하고,  메모리를 해제한 후 다시 다음 블록을 불러오면 그만큼 메모리도 절약 할

수 있어 매우 편리하게 된다. 또한 데이터 저장 블록 앞에 블록의 데이터 크기를 넣어주는데, 이는 예를 들자면 어느 시간동안 모노로 듣다가

후에 스테레오로 들을 수 있는 상황 등에 대처하기 쉽다. 이럴 때 데이터 블록 앞에 데이터에 대한 정보를 만들어 준다. 각각의 부분 하나 하

나는 청크(Chunk)라고 하고 처음에 나오는 상자를 부모 청크,그 하단에위치하는 부분을 자식 청크, 데이터들은 데이터 청크라고 한다.이와 같

은 구성 데이터를 저장하는 방식을 RIFF라 하고 위와 같은 구성으로 저장된 데이터를 RIFF 파일이라 한다.  WAVE  파일이나 AVI  파일이 바로

RIFF 파일이다.



기타



다음으로 알아두면 앞으로 강좌를 이해하기에 좋을 압축방식들에 대한정보들을 소개한다.

[ PCM(Pulse Code Modulation) 방식 ]

이 방식은 가장 널리 사용되는 방식으로서 음성을 아날로그에서 디지털로 변환하여 양자화(작은 단위화)한 데이터를 그대로 저장한 후 재생할

때에는 그 데이터를 디지털에서 아날로그로 재변환하여 음성 파형을 만든다. 이 방식은 양자화를 할 때 생기는 오차가 존재하지만 재생 시 상

당히 우수한 품질을 가진다.이 방식의 특징은 제로 크로스의 방법에 비해 생성되는 데이터의 양이 많다는 점이다.예를 들어, 샘플링 주파수를

8Khz로 하고 양자화 시 정밀도를 8bit로 하면 8000 * 8 = 64000/sec = 64Kbit/sec로 초당 64KB가 생성된다. 그러나 최근에는 메모리의 가격이

많이 떨어지고 있어서 뛰어난 음성 품질을 보장할수 있는 PCM방식을 많이 사용하고 있다.


[ DM(Delta Modulation) 방식 ]

DM 방식은 제로 크로스 방식과 PCM 방식의 중간적인 형태로 볼 수 있다이 방식은 어느 시점n의 파고와 바로 전 시점 (n-1)의 파고를 비교하여

그 차이점을 1,0,-1로 표현한다. DM 방식의 단점은 원파형의 급격한 변화를 따라가지 못한다는 것이다. DM 방식의 하드웨어 구현은 바로 이전

값에 1 또는 -1을 더하기만 하면 되므로 아주 간단하다.


[ DPCM(Differencial PCM) 방식 ]

우리의 음성 파형을 실제로 보면, 서로 인접한 샘플링 시점의 비교에서파형이 크게 변하지 않는다. 이점에 착안하여 만든 방식이 DPCM 방식이

다. DPCM 방식은 개선된 PCM 방식이라 할 수 있다. 즉,  PCM 방식은 파고 값을 그대로 저장하지만 DPCM  방식은 이전의 값과의 차이만을 저장

하는 것이다.  음성의 파형이 크게 변하지 않으므로 차이값도 작아져서 bit-rate를 낮출 수 있다.

[ ADPCM(Adaptive Differencial PCM) 방식 ]

ADPCM 방식은 위의 여러 가지 방식의 단점을 보완한 것이다. DM 방식이나 DPCM 방식은 압축된 비트수로 표현 되는 최대의 변화량이 실제 파형

의 변화량보다 작기 때문에 실제로 구현하면 재생 파형이 원 파형의 급격한 변화를 나타내지 못한다. 이를 막기 위하여 양자화할때 시간 간격

을 작게 하면 bit-rate를 증가시키는 결과를 가져오게 된다.ADPCM 방식은 파형의 변화량이 급격히 변할 때는 양자화 할 때의 단위를 크게하여

차분값을 이용하는 것으로 파형의 진폭이 클경우 약간의 잡음이 있어도 사람이 잘 감지하지 못하는 점을 이용한 것이다.

(출처 : http://cbuilder.borlandforum.com/impboard/impboard.dll?action=read&db=bcb_tutorial&no=112)
반응형