인사말

CEO photo

보다 쉽게, 보다 빠르게 계속 증가하는 수백억 건 이상의 웹페이지들,그 속에서 내가 원하는 정보를 어떻게

1990년대 초에는 전세계의 웹페이지를 다 합하여도 1억
페이지에 불과하였습니다.
당시에는 정보가 다중(multiple) 반복(repeated)되어
사용되기보다는 개별적인 웹사이트에서 서로 다른 정보를
가지고 있었기에 인터넷 사용자(Internet user)는 단지
취득하고자 하는 정보를 주로 가지고 있는 웹사이트의 주소를
알고 있기만 하면 되었습니다. 이러한 필요는 사용자의
메모(memo)만으로도 충족될 수 있었습니다. 하지만 시간이
흘러 사용자가 기억하고 싶은 웹사이트의 주소가 많아지자
다른 필요가 발생하였고, 그 필요는 검색엔진 서비스를
태어나게 하였습니다.
초기의 검색엔진은 디렉터리(directory) 검색엔진으로서, 잘
정리된 최상위의 대분류, 중분류, 소분류, 그리고 더 깊이
들어가는 하단의 여러 분류들과 그 분류들 하위에 잘 정리된
사이트의 정보들로 이루어져 있었습니다. 이러한 구조화된
디렉터리 방식의 검색엔진은 정보를 매우 효율적으로 찾아낼
수 있게 해주었는데, 이 기술은 마치 알렉산드리아와 같은
대규모 도서관 관리방법을 모방한 기술로서, 오래 전부터
학자들이 사용해 온 분류기법이었습니다.

당대에 세계에서 가장 위대한 지성인들의 메카였던 알렉산드리아 도서관에서 사용된 “문헌정보관리학”은 수천년간 유지되어 왔다

고대 이집트의 거대한 알렉산드리아 도서관은 당대에 세계에서
가장 위대한 지성인들의 메카(Mecca)로서, 그 출입자 명단을
보게 된다면 고대 천재들의 출석부를 보는 느낌을 받으실
것입니다. 이 알렉산드리아 도서관은 종이도 없었을 때인
당시에 무려 70만 롤(roll)의 파피루스를 보관하고
있었습니다. 종이시대로 와서, 오늘날에는 세계적인
도서관들이 약 2천만 권을 소장하고 있습니다. 이 어마어마한
규모의 정보를 검색하기 위해 도서관은 어떠한 방법을 사용해
왔습니까?
바로 "문헌정보관리학"입니다. 이 학문은 고대로부터 지금까지
도서관 관리자들에 의해 꾸준히 발전되어 왔습니다. 하지만,
수천 년간 그 근간이 되는 방법은 변하지 않고 유지되어
왔는데, 그것은 바로 초기 인터넷 검색엔진이 채택하여
사용하였던, 구조화된 분류체계입니다. 찾고자 하는 책이
정치분야인지, 경제분야인지를 알고, 정치분야를
선택하였다면, 국내정치와 국제정치를 선택하고, 또 그 하부를
선택하고, 또 그 하부를 선택해 나가는 방법입니다. 하나의
세부분야를 선택할 때 마다, 전체 2천만 권의 책이 100
만권으로 좁혀지고, 10만권으로 좁혀지고, 수천 권, 수백 권,
수십 권으로 좁혀져 내려갈 것입니다.
결국 어마어마한 규모의 2천만 권에 담긴 내용이 무언지
몰라도, 그 내용을 다 찾아보고 나서 필요한 책을 선택하는
것과 유사한 효과를 가져다 줍니다.

수천년간 가장 체계적이고 효율적임이 분명히 증명되어 온 디렉터리 검색방식은 왜 기억속에서 사라지고, 키워드 검색방식은 왜 분주히 움직이는가

그러나, 이렇게 효율적이고 구조화된 분류체계를 가졌던
디렉터리 검색엔진은 이제 더 이상 사용되고 있지 않습니다.
90년대 야후에 접속하면 첫 페이지 전체를 뒤덮고 있었던,
구조화된 디렉터리는 이제 모퉁이에 매우 작은 공간을
차지하고 있을 뿐이며, 처음에는 사용자 참여를 유도하며
만들어 가던 구글의 디렉터리 서비스는 업데이트가 되지 않아,
현재는 사용할 가치를 느끼지 못합니다.
이유는 무엇입니까?

하나의 이유는, 이전처럼 하나의 사이트가 한가지 분류의
정보를 가지고 있는 것은 비효율적이라는 점입니다.
이를테면, '뉴욕 타임즈'는 디렉터리 검색엔진에 의해
'미디어'의 '뉴스페이퍼'에 속하지만, '뉴욕 타임즈'의
'MUSIC' 카테고리 하단의 페이지들은 따로 '엔터테인먼트'의
음악'에 들어가야 정확한 것입니다. 하지만, 어떠한
검색엔진도 이와 유사한 시도를 할 수 없었습니다. 왜냐하면,
이렇게 한다는 것은 도서관으로 생각해 볼 때, 약 100억
페이지(2,000만권을 1권에 500페이지라고 가정) 분량의
정보입니다. 오늘날 세계 인터넷 웹페이지를 검색하는 상황은
마치 세계 최대규모 도서관의 책을 권별로 분류하는 것이
아니라, 100억장의 페이지 별로 분류하는 것과 마찬가지로,
사람으로서는 불가능한 작업입니다.

또 하나의 이유는, 매일같이 수정되고, 삭제되고, 생성되는
새로운 정보들을 매번 관리자가 확인하여 분류체계를
바꾸거나, 만들거나, 삭제하는 것 역시 사람의 작업으로서는
불가능한 작업이 되고 있기 때문입니다. 인터넷 사이트 웹
주소가 고작 수만 개였을 때에는 가능하였겠지만, 이미 세계
최대의 장서를 자랑하는 도서관의 책들보다 더 많은 정보를
담고 있는 지금의 웹페이지들은 그렇게 관리하는 것이
불가능합니다.

그러나, 분명한 것은 디렉터리 검색방식은 가장 체계적이고
효율적인 방식이라는 점입니다. 오늘날 수백억 건의
웹페이지를 넘어서는, 매일같이 기하급수적으로 증가하는
웹페이지들의 검색을 위해 사용하고 있는 키워드 검색방식은
매우 많은 허점들을 가지고 있기 때문입니다. 다음글 읽기

키워드 검색 방식은 마치 예상치 못하게 갑자기 불어난 정보의
양을 감당해내기 위해 급조된, 임시방편처럼 보여지는 부분이
많습니다. 이 키워드 검색방식은 문자가 컴퓨터에 저장되어
있기 때문에 가능해진 첨단 검색 방식이지만, 과거의
알렉산드리아 도서관과 같이 구조화된 시스템을 가지고 있지는
못합니다. 키워드 검색방식은 모체가 없이 얽혀 있는 네트워크에,
특별히 어디 한 곳에 소속되지 않고 여기 저기 다 관계되는 정보의
복잡성에 맞게 성향이나 그룹별로 정리되지 않은 상태에서 단지 똑같은 키워드를 찾아 검색한다는 이론으로서, 정리되지 않아 보이는 것을 정리되지 않은 방법으로 검색하는 것과 같습니다.
키워드 방식의 검색엔진은 종이를 전자기기로 대체한지 100년도
안 되는 짧은 역사를 가진 기술 가운데 만들어진 논리로서
근본적인 허점을 많이 가지고 있습니다. 그 가장 큰 허점은 정보의
구조화된 분류가 없어서 검색어를 입력하지 않고는 찾을 수
없으며, 검색어를 입력하여도 원하는 정보를 찾을 가능성이
그때그때 다르며 어떤 때는 검색결과가 너무 많다는 점입니다.

이를 테면, 키워드 검색에서 '유비'를 검색하면, 단지 똑같은
철자를 찾는 이 키워드 검색엔진은 삼국지의 '유비'에 대해서는
위키피디아(Wikipedia)에 나오는 해설 한 건만을 첫 페이지에서
보여줄 뿐, 유비쿼터스(Ubiquitous)와 같은 단어들의 앞 두
글자가 '유비'라는 이유만으로 '유비'로 시작하는 단어들에 대한
정보를 끊임없이 나열합니다. 한편, '바이러스'를 검색하면, 생체
바이러스의 정보는 찾기 어렵고, 대부분 컴퓨터 바이러스의
정보를 끝없이 출력해 줍니다. 이러한 검색결과는 프로그래머
입장에서는 좋겠지만, 의학도(醫學徒) 입장에서는 몇 페이지나
뒤로 넘어가야 자신이 원하는 바이러스에 대한 정보를 얻을 수
있을 지 알 수 없으므로 좋지 않은 검색결과가 됩니다. 물론
"삼국지 유비"나 "생체 바이러스"와 같은 2개의 키워드의 AND
검색으로 검색한다면 검색결과를 근접시킬 수 있지 않은가 생각할
수도 있겠지만, 문서에 "삼국지"나 "생체"라는 단어가 나오지 않는
경우에 그 문서를 검색결과에 포함시키지 않게 될 것이기 때문에
찾고자 하는 정보가 누락됩니다.

매일 뿜어져 나오는 오늘날의 거대한 정보소용돌이 속에서 수백억 건 이상의 웹페이지들 각각에 성향을 부여하고 다중적인 의미를 부여하는 것 -

하지만 어떤 단어를 검색하든, 특정한 분류 내에서 검색할 수
있다면 어떠한 것이 가능해 지겠습니까? 예를 들어 '장비'라는
단어를 검색한다면, 사실 단어의 생김새는 같아도, 여러 가지
뜻(이를 테면, 삼국지의 '장비', 반도체 '장비', 건설 '장비'
등)으로 사용되기 때문에 의미론의 입장에서는 '장비'라는 모양을
가진 각 단어들이 마치 '장비-1', '장비-1', '장비-2', '장비-3', … ,
'장비-n'처럼 서로 다른 단어로 여겨집니다. 만약 의학도가
'바이러스'를 검색한다면, 생체 바이러스로 쓰여지는 '바이러스'
정보 내에서 검색하면 됩니다. 이러한 의미 데이터베이스를
구축하려면, 그것은 과거 알렉산드리아 도서관을 만들던 일과도
같이 어마어마한 대규모 프로젝트가 될 것입니다. 똑같이 생긴
단어라 해도 그 쓰여지는 용도에 따라 서로 다른 단어로 파악하여 상상하기 어려운 규모의 단어사전을 구축하게 될 것이며, 계속
증가하는 수백억 건 이상의 웹페이지들 각각에 성향이 부여되고
다중적인 의미가 부여되는 것을 의미합니다. 더욱이, 이 모든
의미가 살아있는 유기체처럼 새로운 정보에 발생함에 따라 검색
로봇 에이전트가 자동적으로 그 의미를 변경해 간다는 것을
뜻합니다. 도대체 이것이 어떻게 가능하겠습니까?

(주)시맨틱스는, 이러한 것을 가능하게 하는 일을 하고 있습니다

㈜시맨틱스는, 이러한 것을 가능하게 하는 일을 합니다.
우리는 과거 알렉산드리아 도서관이 세계적인 지성인들의
메카(Mecca)가 되었던 것처럼, 우리의 의미 검색기술이 방대한
정보 가운데 더 정확한 정보를 찾고 분석하고자 하는 욕구를 가진
오늘날의 지성인들이 사용하는 가장 효율적인 검색엔진이 되기를
바랍니다.

또한 검색의 기본 원리가 되는 도서관 문헌정보관리학에서 수천
년간 이어온 구조화된 분류 방법을 최대한 적용하여 발전시켜
가고자 합니다.

이러한 개발을 위해 우리는 시맨틱 웹의 개념을 활용하여,
독자적인 시맨틱 데이타 및 온톨로지 데이타를 로봇으로 구축하는
작업을 하고 있습니다. 우리는 우리의 이러한 엔진이 구글이나,
MS의 빙닷컴과 같은 키워드 검색엔진을 넘어서 다음 세대
시맨틱 검색 엔진의 표준이 될 것이라고 확신하며, 이 기술을 각
전문분야에까지 활용하여 의학계의 희귀병 치료 엔진이나,
교육계의 수준별 차등교육 엔진이나, 기업의 분석적인 CRM이나
ERP 등에도 적용하는 시도를 하고 있습니다.

정보에 의미를 부여하는 이 프로젝트는, 의학계의 줄기세포나,
우주과학의 우주기지건설과 같이, IT의 초대형 프로젝트이며
앞으로 100년 이상을 이어갈 근간이 되는 기술이 될 것입니다.
우리는 이러한 기술의 근간이 되는 기반기술을 끊임없이 연구,
개발해 나갈 것입니다.

(주)시맨틱스는, 정보에 의미를 부여하는 이 프로젝트를 끊임없이 연구, 개발해 나갈 것입니다.

시맨틱스 CEO 조광현