저희도 덕분에 카페에 첨부된 음원 파일들과 함께 바쁜 연말을 보내고 있습니다.
저작권에 관련된 사회적 토론은 너무 범위가 크기에 여기에서는 기술에 대한 내용만 살짝 소개해 볼까 합니다. ^^
엔써즈(enswersinc.com)는 동영상 이미지 분석(Video Fingerprint)기술을 전문으로 하고 있지만 소리를 분석하는 기술(Audio Fingerprint)도 보유하고 있습니다. Audio DNA 또는 Audio Fingerprint라고도 하는 기술의 목표는 음악파일의 제목이나 태그에 상관없이, 압축포맷이 다르거나 음악의 일부를 자르는 등 변형이 있더라도 음악 자체가 같으면 정확히 해당하는 음악을 찾아내는 것입니다.
엔써즈가 Audio Fingerprint 기술도 보유하고 있는 것은 저를 포함한 멤버들이 음악, 음성 신호처리를 전공했고 엔써미(Enswer.me)가 시작되기 전 SL2라는 음성인식 회사에 6년여간 몸담고 있었기 때문입니다. 이 회사는 2000년 초반에 시작되어 6년 동안 열심히 했지만 결국 망했습니다. (--;) 음성인식 회사가 망한 이유는 인식이라는 주제가 멋있긴 하지만 너무나 어려운 기술이기 때문이었습니다.
일례로 자동차 안에서 "창문열어"는 인식이 되지만 "창문닫어"는 인식이 잘 안됩니다. 왜냐하면 창문을 열면 바람소리, 주변에서 빵빵거리는 경적소리, 차소리 등 잡음이 함께 섞여서 들어오기 때문입니다. 아직까지도 이러한 다양한 잡음 환경에서 90% 이상의 인식률을 보장하는 기술은 나오지 않고 있습니다. 회사는 망했지만 소리를 분석하고 비교하는 오디오 신호처리에 대한 노하우와 속도 최적화 대용량 처리 기술등의 기술적 배경은 남아있습니다.
음악을 비교하는 작업은 물론 어려운 작업이지만 음성인식에 비해서는 상대적으로 쉽습니다. 예전에 음성인식이 안된다고 해서 달려가서 녹음파일을 들어보면, 사람인 제가 들어도 무슨 소리인지 모르는 경우가 많았습니다. "쌀가게"라는 말이 대구에 가면 "살가게"가 되고 "사랑해!"라고 하면 짧게 끝나는 말인데 "사~랑~해~"라고 하면 2배 이상 길어지는 경우도 있습니다. --; 하지만 음악은 압축포맷이 다르거나 음질의 차이가 있을지언정 소리의 성분, 길이 자체가 변하거나 억양 등이 달라지지는 않기 때문에 음성인식 보다는 정확도가 높습니다.
그러나 음악을 비교하는 것도 쉬운 일은 아닙니다. 현재 음악 코덱 포맷은 10여가지가 넘습니다. (mp3, wma, ogg, ape, mp4, aac, rm, ram 등) 64kbps, 128kbps 등 음질이 확연히 다른 경우도 있고 22KHz, 44KHz 등 샘플링의 차이도 있습니다. 또한 정확히 찾아내는 것도 중요하지만 다른 곡을 같다고 오판하는 경우도 있을 수 있어 조심스럽습니다. 앞 30초 동안 간주는 동일한데 가수가 다른 경우는 같은 곡인가 다른곡인가? 노래방에서 내가 부른 "총맞은 것처럼" 과 백지영의 "총맞은 것처럼"도 같다고 생각해야하나? 등등 실연권의 이슈도 있습니다. 하지만 원본이 잘 확보된다는 가정하에 같은 음악을 찾는다고 하면 95~98% 이상의 신뢰도 보장이 가능해 집니다. 물론 이것은 실험 결과이고 사용자가 느끼는 체감 인식률은 좀 더 떨어질 수 있습니다.
FA=0.05, FR=0.036499 (EER=0.038, 96.2%)
이를 위해 엔써미(Enswer.me)는 음악을 100ms 단위(초당 10번)로 주파수 분석을 합니다. 주파수 분석을 하게되면 소프라노의 목소리는 500~2000Hz의 다소 고주파의 영역에, 바순과 같은 악기는 100Hz 정도 부터 시작하는 상대적으로 저주파수영역에 배치되어 음악의 분포 패턴을 알수 있습니다. 이것을 오디오의 스펙트럼이라고 부릅니다.
(출처 - http://eceserv0.ece.wisc.edu/~sethares/banuelos/banuelos.html)
이러한 주파수 분석된 결과에서 어떻게 성분을 추출하느냐에 따라 정확도가 달라지고 이를 작게 뽑을 수록 처리용량 및 속도가 달라집니다. Enswer.me의 핵심 기술은 정확도를 유지하면서 대용량 처리 및 속도를 보장하고 분석된 Fingerprint의 크기를 작게 유지하는데 있습니다. 현재 초당 40byte로 모델링이 가능하므로 3분짜리 곡이 7KB 정도로 표현됩니다.
실제 Google의 2008년 논문(Waveprint: Efficient Wavelet-Based Audio Fingerprinting)를 보면 2GB 메모리에서 31,000곡의 음악을 처리할 수 있다고 되어 있습니다. 하지만 Enswer.me는 동일한 2GB에서 30만곡의 음악을 처리할 수 있으며, 서버로 쓰이는 16GB 메모리를 가정하면 100만곡의 음원을 서버 한대에서 저장 및 처리할 수도 있습니다. 동시 처리량도 1초 이내 처리 기준으로 10TPS, 1일 80만회 이상의 처리가 가능합니다.
저작권법의 목적은 막고 삭제하는 것이 아니라 정당한 대가가 저작권자에게 공유가 되어 오히려 수많은 문화적 꽃들이 활짝 필수 있게 하는 것이라고 생각합니다. 기술의 발전이 사람들이 음악을 즐기는 것을 막는게 아니라 배고픈 뮤지션들에게도 수익이 돌아갈 수 있도록 해서 더 좋은 음악들이 많이 나올수 있는, 풍성한 창작의 계기가 되었으면 합니다.
Trackback : http://blog.enswer.net/trackback/87
-
Subject 엔써미의 생각
2008/12/24 13:38
[엔써미블로그] 음악 저작권에 엔써미(enswer.me)의 기술이? - 오디오 핑거프린트도 결코 쉬운길은 아니라는 Jack 의 글 .. '창문 열어'는 되는데 '창문 닫아'는 안 된다거나 .. :-)
-
Subject 엔써미의 생각
2008/12/30 16:38
인간은 정말 대단합니다. Machine Learning을 하면 할 수록 인간처럼 만드는 것은 불가능하지 않을까라고 좌절하게 되는 것 같아요. .. 하지만 잘 안되는게 있어야 해야할 당위성이 생기는 만큼 열심히 해야죠 - 불끈! 엔써미 정신
-
Subject 윌리엄의 생각
2010/02/22 09:15
MP3를 자동으로 태깅해주는 원리를 미루어 짐작하고 있었는데 이럴 서비스에 적용한 회사가 있었네. 흠
-
-
enswer 2008/12/30 15:21
인간은 정말 대단합니다! Machine Learning을 하면 할 수록 인간처럼 만드는 것은 불가능하지 않을까라고 좌절하게 되는 것 같아요 OTL :-) 말씀하신바와 같이 언어에도 Automatic Ctegorization이나 Spam Filtering과 같이 잘 안되는 문제들이 많은 것 같습니다. 하지만 잘 안되는게 있어야 해야할 당위성이 생기는 만큼 열심히 해야죠~
-
-
Jaeya 2008/12/28 21:23
스펙트럼 이미지를 보며 호수에 노을이 비쳤나보다하고 생각하는 저에게는 어려운 얘기지만, ^^;;
평소에는 인지하지 못했던 것을, 다른 관점에서 접할 수 있어서 좋네요. :D
힘내세요. ^^*
"창문 열어!" "창문 닫어!" -
SICS 2008/12/30 11:51
음원은 저작권 제재를 받지만 뮤직비디오는 현재 저작권 이슈가 되고 있지 않습니다.
[나중엔 또 어떻게 될지 모르겠지만...^^;;;] 하지만 뮤직비디오라고 하더라도 방송사 마크가
찍혀 있다면 이건 다시 저작권 이슈가 됩니다. ^^ 이렇게 기준도 애매하고 왔다갔다 하는
정책으로 인해 결국 일괄적으로 자동 검수가 되긴 사실 불가능할 것이고........
결국 사람의 기준을 적용한 사람을 통한 검수가 불가피할 것으로 생각되네요.....
그래서 사람이 곧 기술이다...ㅡㅡ;; 이런는걸까요?
별개로...기본적인 키워드 음성인식이 어느정도 가능하다면 이를 통한 보이스매칭AD도
가능하지 않을까요? ^^ 크크크-
enswer 2008/12/30 15:17
네. 하지만 최대한 자동화할 부분은 해야겠죠. 모든 뮤직비디오 예를 들면 해외영상까지 포함하면 너무나 많은 DB가 있으니까요. 저희 매칭알고리즘이 올 겨울에 다시한번 개선되면 보다 대용량 처리가 가능해지리라 생각하고, 예전 CDDB 처럼 MUSIC Fingerprint DB도 API화 가능하리라 생각됩니다. 새해 복 많이 받으세요!
-
-
장림 2008/12/30 14:29
혹시 아이폰용 음성언어번역기를 개발해주실 생각은 없으신지요?
충분히 기술력은 있으실텐데 기존일도 바쁘시고 사업 영역과는 좀 거리가 있는것 같기는 합니다만...
http://photohistory.tistory.com/4487-
enswer 2008/12/30 15:15
네. 블로그 글의 행간을 보면 이게 상용제품으로 팔긴하지만 1500단어 수준, 여행영역으로 한정되어 있습니다. 실제로 저희도 예전에 대화체 인식기를 만들었지만 '피자주문'과 같이 도메인을 한정짓게 됩니다. 올해 ETRI에서도 자동통역시스템의 연구는 하고 있지만 아직 상용화 수준은 아니구요.
특히 한국어는 짧은 조사들이 많아서 연속음성인식이 쉽지 않습니다. 영어에 비해서요.
결국 저희도 비지니스를 하는 회사이기 때문에 시장규모를 생각하지 않을 수는 없고 위와 같이 도메인을 한정하고 아이폰에 들어간다고 생각하면 현실적으로 개발하기에는 조금 RISK가 있는것 같네요. :-)
-

Prev
Rss Feed