8월 5일에 Pre-Open Beta를 시작했으니 다음 주면 1달이 다되어 가네요. ENSWER 개발팀은 무엇을 하고 있을까요. 사이트가 달라진게 전혀 없어서 궁금하실 것 같네요. 다들 Open Beta 앞의 pre자를 떼기위해 열심히 노력중입니다만 그리 만만치는 않네요. 오늘은 ENSWER 개발팀 내부를 살짝 공개할까 합니다. ^^
1. 동영상 처리량 늘리기
아래 그림은 ENSWER 사이트에서 1일 처리하고 있는 동영상의 수입니다. all은 로봇이 동영상이 포함되어 있다고 생각하는 웹페이지의 수, crawl은 실제로 페이지 및 동영상 분석이 끝난 수, clustered는 겹치는 구간을 찾아내어 클러스터링까지 완료된 숫자입니다. 8월 27일 현재 로봇이 1일 30만개 정도의 동영상을 수집하고 있으며, 실제 동영상 동영상의 분석 및 클러스터링은 1일 평균 25만개를 처리하고 있습니다. 클러스터링을 위해서는 모든 동영상의 영상 자체를 분석해야 하기 때문에 컴퓨터들이 열심히 땀을 흘리고 있습니다만 아직 부족합니다. 다음주에 새로운 장비들이 추가되면 현재 1일 25만개 수준에서 50만개 수준으로 한단계 더 업그레이드 될 예정입니다. 하루가 86400초이니 초당 5개 이상의 동영상을 현재 저장된 동영상 약 2700만개와 비교하여 정확히 겹치는 시간을 찾아내야 합니다. 그게 쌓이면 20일이면 1000만개씩의 동영상이 분석되는 셈이죠.
2. 해외 동영상 추가하기
해외동영상이 조금씩 수집되고 있습니다. 아직 너무나 많이 부족하지만, 정식 Open 때에는 전세계 대부분의 동영상이 검색될 수 있도록 할 예정입니다. 아래는 해외 동영상이 국내 동영상과 함께 클러스터링 된 예입니다.
http://www.enswer.net/player/CDy5cakIVM8/?q=before%3A7&mode=shared&vindex=2&a=5
http://www.enswer.net/player/w3YLKTNkd-c/?q=before%3A7&mode=shared&vindex=3&a=5
3. 검색 만족도 향상하기
검색엔진에 있어 만족도는 대단히 어려운 문제입니다. 사람마다 기대하는 검색결과가 다르기 때문이죠. 최신동영상이 중요한 경우가 있는 반면 뮤직비디오의 경우에는 공유도가 중요할 수도 있습니다. 애니메이션이나 드라마는 재생시간도 중요합니다. 현재 동영상 검색결과 랭킹을 결정하는데 사용되는 factor는 약 20가지 입니다. 이러한 다양한 factor를 하나의 수식으로 정리하여 첫페이지에 나올 결과와 페이지 내에서도 1번째로 나올 결과를 정하는 작업이 랭킹입니다. 랭킹팀에서는 매일 이슈검색어와 이용자들의 최다 검색어를 분석하여 자동화된 랭킹 알고리즘을 개선하고 있습니다. 데이터가 쌓이면 쌓일 수록 RANKING은 보다 중요해집니다. SPAM이 더욱 많이 생기고 기존 텍스트 검색에서는 예상하지 못했던 문제들이 발생하기 때문이죠. 아직 랭킹에 대한 내부 만족도는 C+ 정도 수준이라고 판단되며, Open Beta 때까지 지속적으로 개선할 예정입니다. 랭킹은 아주 재미있고 다양한 예들이 있기게 추후에 다시 한번 블로그로 소개드리겠습니다.
4. 서비스 개편 하기
이번 Pre Open Beta 때에 많은 분들이 사용자들이 원하는 서비스 기능에 대해 아쉬움을 얘기해 주셨습니다. 저희도 빨리 여러가지 사용자 중심의 기능을 추가시키고 싶은 마음은 굴뚝같습니다만, ENSWER가 아직 개발자들 위주로만 구성되어 있어서 한계가 있었습니다. 하지만 드디어 디자이너분이 9월부터 합류하시게 됩니다. 한달 정도 후면 여러분들이 지적해 주셨던 문제점들이 실제 모습으로 구현될 것 같네요. 열심히 노력해서 최대한 빨리 부족한 서비스 기능들을 보강해 나가도록 하겠습니다.
여러모로 검색은 하면 할수록 더 할일이 많아지는 것 같습니다. 하지만 전세계의 모든 동영상을 수집, 영상 분석하여 검색결과로 제공되는 꿈을 생각하면 신이 나는 것도 사실입니다. 전세계 어떤 동영상이든 어느 나라에서든 검색해서 볼 수 있는 그날까지 화이팅입니다!

