TAR은 사람이 눈으로 직접 검토하던 ESI의 검토 방식과 각종 필터링이나 키워드 검색 등 컴퓨터를 이용한 분석 과정에서 시간과 비용의 문제를 야기시키는 문제점 등을 연관성 분석등 수학적인 알고리즘으로 분석함으로써 검토과정에서 소송의 전략수립과 직결된 문서를 좀더 빠른 시점에서 더 많이 찾아낼 수 있도록 고안되었다.
e-Discovery도 정보통신 기술의 발달과 함께 비약적으로 성장하였고, e-Discovery에 활용되는 새로운 기술들도 많이 등장하였다. 2007년의 Near DeDuplication, 2009년의 ECA(Early Case Assessment) 기능처럼 당시에는 획기적인 기능으로 제안되었으나, 현재는 검토 소프트웨어에서의 표준기능으로 자리잡을 정도로 e-Discovery분야도 상당히 급속한 발전을 거듭하고 있다.
기존의 e-Discovery 관련 소송에서 방대한 양의 ESI 중 필요한 문서를 선별하는 작업은 일반적인 키워드 검색과 같은 기계적인 방법에 의존할 수밖에 없었다. 그러나 이러한 방법은 소수의 법무전문가와 해당 안건을 담당하는 담당자의 기억에 의존하여 소송에 필요한 정보를 충분히 반영하지 못하는 경우가 많았고, 이로 인해 필요한 결과를 도출하는 작업에 어려움이 많았다.
TAR은 해당 과정에 숙련된 법무전문가가 표본(혹은 Seed로 불리우는)을 검토하는 과정에서 검토 솔루션의 TAR 기계 학습 재료에 그 표본을 반영하여 검토된 결과를 기준으로 전체 문서에 대한 관련성를 기준으로 서열을 정리한다. TAR을 이용하면 서열화된 문서 중 순위가 높은 상위의 문서를 우선 검토함으로써 안건에 연관성이 높은 문서를 조기에 다량으로 찾아낼 수 있어 현실적인 소송 전력수립이 용이해진다.
TAR에서 가장 핵심이 되는 ‘기계 학습’은 우리가 온라인 쇼핑몰에서 추천 상품이 나오는 것과 같은 원리이다. 온라인 쇼핑몰에서 특정 장르의 음악을 자주 구매하는 사용자에게 관련성이 높은 음반을 제안하는 것은 사용자 개개의 구매 이력 등을 분석하여 이를 참고하는 경우가 많다. 예전에는 일방적으로 쇼핑몰이 팔고 싶은 제품을 제안하는 일방적인 구조가 많았지만 최근에는 고객의 구매 이력을 통해서 충분히 관심을 가지고 있을 법한 제품을 제안하면서 제품의 구매로 이어지는 확률이 높아지게 되었다.
그러한 기술들은 제작사별로 다양한 수학적인 알고리즘을 통해서 기계에게 Seed를 분석하게 하도록 하고 있는데, 이러한 기술들은 대개 언어의 고유한 특성을 기반으로 하고 있으므로, 제품의 선택에 중요한 검토 요소라고 할수 있다.
◇TAR가 등장하기 이전의 e-Discovery 대응 절차
기존의 e-Discovery 대응절차는 변호사가 제시한 키워드를 솔루션에서 요구하는 Syntax에 맞춰 각 Keyword별로 어느 정도의 문서가 검출되는지를 확인한 후 키워드의 조합을 결정하여 검출된 문서로 리뷰를 진행한다.
TAR가 등장하기 전까지 Conceptual Search나 Manual Review등의 방법이 제시되었지만 대부분은 재래식 키워드 검색을 그대로 사용하는 경우가 많아 근본적인 해결책을 제시하지는 못했다. 파일의 암호화나 네트워크의 고도화가 이루어지기 전에는 데이터의 양이 많지 않았고, 파일을 처리하는데 검토해야 할 요소들이 상대적으로 적었으므로 윈도우의 검색(인덱싱된)이나 dtSearch 등의 기술들이 자주 사용되었다.
그러나 훈민정음, 아래하한글, MS오피스 2010버전에 이르러 인덱싱된 파일이 등장하고, 검색해야할 분량들이 늘어남에 따라 검색에 앞서 데이터를 잘 분류해야하는 기능에 대한 검토가 생겨나고 있는 추세이다.
초기의 검색은 인덱싱된 데이터 속에서 키워드를 'OR'로 나열하는 방식이 일반적이었기에 검색 결과가 불필요하게 많거나 관련성이 낮은 데이터가 검출되는 경우가 많았다. 이때는 자료들을 검토자들이 나누어서 보는 형태의 일반적인 문서 검토 공정이 진행되어 분석 과정이 다소 노동 집약적이었으며, 인건비로 인해 비용이 상당히 가중되는 경향이 있었다.
설문조사에 따르면 " 사내 변호사중 응답자의 92%가 소송의 규모가 작년과 비슷하거나 증가될 것으로 보고 있으며, 응답자중 31%는 적어도 한 개 이상의 소송은 2천만불 정도의 비교적 큰 소송에 직면하고 있다고 답변했는데 이는 과거보다 소송의 양상이 점점 Discovery 비용의 관리 또한 중요하게 봐야 할 부분으로 인식되어진다고 볼 수 있다.
◇TAR이후 나타나는 새로운 소송대응 전략은 어떠한가?
컴퓨터가 검토자의 할 일을 완전히 대체한 것은 아니지만, 상대적으로 예전의 소송 대응과 비교하면 상당 부분에서 인력의 투입이 감소되었다. 또한 지금까지 드러나지 않고 있는(하지만 상당히 높은 빈도로 발생하던) 엔지니어에 의한 문제를 대부분 극복할 수 있게 되었다.
EDBP(Electronic Discovery Best Practice)에서는 TAR을 기본 절차의 하나로 제시하고 있으며, 그에 따라 법무법인의 형태가 다수의 계층적 문서 열람팀 형태에서 소규모의 인력으로도 운용이 가능한 형태로 변모하는 양상을 볼 수 있다.
이러한 추세를 반영하듯 안전한 사내 Discovery 관리를 위해 Merit Counsel이라는 기업의 소송을 관리하기 위해 '횡적인 소통방식'에서 '종적인 소통방식'으로 소송의 전반적인 과정을 설계하는 역할의 외부 변호사가 등장하게 되었다.
기존의 방식처럼 소송이 발생하면 외부 법무전문가를 선정하고 이후 안건의 검토를 시작하게 되면 고객사의 모든 환경을 이해하기 위한 '착수(着手)'만으로도 상당 시간이 소요되는 점을 감안했을 때, Merit Counsel은 소송 이전부터 이미 고객과 관계를 유지하며 소송이 발생하기 전에 벤더 등의 선정하여 소송과 동시에 즉각적으로 보전 절차 등 대응할 수 있어 소송에서 가장 중요시되는 '비용과 시간'에서 우위를 제공할 수 있게 된다.
TAR을 분석 과정에서 적용하면 가능한 소송 비용을 최소화시키고, e-Discovery에서 특정, 수집, 프로세스, 분석, 저비용의 열람과 생산 공정이 가능한 벤더를 확보하는 등 소송 비용을 절감할 수 있다. 기업의 측면에서도 이러한 기능은 단지 소송 대응뿐만 아니라 상시적인 문서 보안의 형태로 활용할 수 있고, 기업의 방화벽 내에서 실시간으로 발생되는 문서의 중요 정도와 위험 정도를 판단하여 해당 부서에 전달하는 형태로 활용할 수 있다.
◇맺음말
TAR는 다양한 측면에서 기존의 업계의 흐름을 바꿀 만큼 충분한 효과를 가진 기술임에는 분명하다. 물론 아시아의 2바이트 언어 체계에 온전히 적용되기 위해 벤더마다 다소 시행착오를 겪고 있으나 아마도 적용은 머지않은 것으로 보인다.
검토(Review)의 과정을 컴퓨터에게 전담시킬 수는 없지만, 기본적인 분류와 우선 순위를 TAR을 통해 선정함으로써 시간과 비용을 단축시킬 수 있다는 것은 다수의 소송을 동시에 진행해야 하는 기업들에게는 반가운 소식이 될 것이라고 생각한다.
[필자. 박영수 ypark@catalystsecure.com]
Catalyst Repository System 한국 대표. 한국 Catalyst의 대표자이자 각종 E-Discovery의 안건들에 대한 전반적인 영역의 컨설팅 및 실무를 담당하고 있다. 2009년부터 현재까지 다년간에 한국과 일본등 아시아 를 기반으로한 글로벌기업의 각종소송/미법무부조사/공정거래위원회/M&A/국제중재 등의 프로젝트에 대해 실무에서부터 전반적인 프로젝트 관리에 이르는 그의 경험을 토대로, 그는 현재 Catalyst의 한국 시장 진출에 있어 가장 큰 역할을 수행하고 있다.