2009/06/16 14:33

엔써미(Enswer.Me)는 어떻게 같은 동영상을 하나의 클러스터로 묶을까?

안녕하세요.  저는 동영상 검색 엔써미(Enswer.Me)에서 '크롤링'과 '클러스터링'을 담당하고 있는 이호성입니다. 저와 제가 주로 담당하고 있는 '크롤링'에 대해서는 '세상의 모든 동영상을 보는 사나이'라는 포스트에서 좀 더 자세히 보실 수 있으니 참고해 주세요.  :-)

오늘은 엔써미(Enswer.Me)가 최근에 개선한 클러스터링 방식인 트랙 클러스터링에 대해서 소개하려고 합니다.

클러스터링?

우선 트랙 클러스터링(Track Clustering)에 대해서 설명하기 전에, 클러스터링에 대해서 간략히 설명을 드려야 할 것 같습니다.

클러스터링은 동영상을 분석해 같은 동영상 끼리 모으는 것으로 엔써즈가 보유한 2가지 서비스인 동영상 검색 엔써미(Enswer.Me)와 온라인 동영상 유통 관리 플랫폼 애드뷰(Adview)서비스의 근간이 됩니다.

클러스터링은 "사람이 봤을때 동일한 동영상을 모두 하나로 모으자"를 목표로 합니다. 그러나  다음과 같은 근본적인 어려움이 있습니다.

1. n^2 비교 : 현재 1억개의 비디오를 가지고 있다면 새로운 1개의 비디오가 어떤 비디오와 클러스터링 될지를 찾기 위해서 기존 1억개 비디오와 비교를 해야 합니다.
 2. 영상의 변이 : 하나의 영상이 자막삽입, 편집, 화질에 따른 차이가 있을 수 있는데 이 영상들을 모두 하나의 클러스터로 모아야 합니다.
 3. 광고 영상 : 관련없는 A,B 동영상이 있을 때 A의 끝에 광고 영상이 있고, B의 처음에 광고 영상이 있을 경우에 A,B에 공통된 영상이 있지만 분리해야 합니다.

위의 어려움 중 1번과 2번을 개선하기 위해서 사용되는 방법이 바로 이번에 새롭게 적용된 트랙 클러스터링(Track Clustering)입니다.


트랙 클러스터링(Track Clustering)?

트랙 클러스터링(Track Clustering)은 기존의 "비디오<->비디오"에서 "비디오<->클러스터"로 비교단위가 변경됩니다.

간단하게 예를 들면 "김연아 - 하우젠 CF" 클러스터에 김연아의 동영상이 243개가 포함되어 있습니다.(원본이 동일한 243개의 영상 입니다.)
 
이 때, 새로운 김연아의 하우젠 CF  동영상이 들어오면,  기존의 클러스터링 방법은 243개의 비디오와 비교를 해보게 됩니다.

그렇지만 트랙 클러스터링(Track Clustering)에서는 243개의 동영상에서 트랙 이라고 불리는 대표되는 동영상 셋들을 미리 구해 둡니다. 오른쪽의 그림에서는 3개의 트랙이 구해졌습니다.  이후  새로운 김연아의 하우젠 CF 동영상이 들어오게 미리 만들어져 있는 track들과 비교를 하게 됩니다. 각각의 트랙은 대표이기 때문에 전체의 동영상 수보다 훨씬 작아 보다 빠른 비교가 가능합니다.

그리고 트랙은 항상 클러스터의 전범위를 커버하기 때문에 "비디오<->비디오" 단위 보다 정확한 비교가 가능합니다.


어떤점이 바뀔까?

1. 엔써미의 검색 품질이 개선됩니다. 
2. 내부적으로 클러스터링 처리 속도가 개선됩니다.
3. 기존에 나누어졌던 클러스터들이 하나로 합쳐집니다.
4. 광고가 붙은 영상의 경우 광고 클러스터로 분리해 처리할 수 있게 됩니다.

개발팀에서는 엔써미(Enswer.Me)의 검색 품질을 개선하기 위한 연구 개발이 계속되고 있습니다. 하면 할 수록 더욱 연구할 일이 많아지는 것 같다는 생각도 듭니다. 하지만 '세상의 모든 동영상을 찾아내 같은 영상을 묶어 줄 세우는 그 날까지!' ..  열심히 달려 보겠습니다.  *^________^*V


저작자 표시
Trackback 0 Comment 0

Trackback : http://blog.enswer.net/trackback/114 관련글 쓰기