[e-Discovery ⑤] 처리와 분석(Processing & Analysis) |
등록 : 14-01-27 07:17 , 데일리시큐 길민권기자 , mkgil@dailysecu.com |
처리와 분석 과정에서 이루어지는 작업은 문서의 검토 과정에 앞서 합리적이고, 설명할 수 있는 방법을 통해 방대한 자료 중에서 소송과 잠재적으로 관련된 문서가 다수 존재할 것으로 여겨지는 부분을 걸러내는 작업이고, 법무대리인에 의해 실제 문서의 내용을 검토하는 과정과는 달리 법무대리인의 안건에 대한 이해를 목적으로 이루어지는 작업이다.
수집되어진 데이터는 파일 단위로 복제를 하기도 하지만, 훼손을 방지하기 위해 소송 관련자(Custodian)의 모든 데이터(때로는 삭제영역, 비할당영역 등을 아우르는 전체 데이터)가 저장된 저장장치를 보존하는 것이 일반적인데, 이러한 경우 용량이 방대하여 주어진 시간 내에 모든 문서를 검토할 수 없는 상황에 직면할 수 있으므로 안건에 맞추어 특정 조건의 데이터만을 따로 선별해서 검토할 필요가 있다.
선별 조건의 대부분은 법무대리인에 의해서 결정되는데 이러한 조건을 모든 데이터에 적용하여 열람 가능한 최소한의 데이터로 선별하는(Culling)작업이 처리와 분석 단계에서 이루어진다. 선별 조건은 다양한 것이 있지만 필자는 아래와 같은 방식을 제안한다. (순차적이나 병행 또는 순환하면서 아래와 같은 과정을 거치게 된다.) 아래 열거된 작업들은 업계에서 일반적으로 사용되는 기법인데 e-Discovery 기술 지원 업체마다 자신들만의 기술을 이용한 방법을 추가하기도 한다.
◇De-NISTing
미국 국립표준 연구소(NIST)에서 정의된 NSRL RDS(Reference Data Set)에 의해 사용자가 작성하지 않은 시스템이 자동적으로 생성한 파일이나 각종 어플리케이션에서 참조하는 파일등 불필요한 파일을 hash값을 기준으로 제외하는 과정이며, 통상 운영체제를 담고 있는 영역에서 적용하면 약 2GB정도의 데이터가 제거되는 효과가 있다. 다만 RDS가 미국 기준으로 작성되어 한국에서 사용되는 어플리케이션의 해쉬값이 포함되어 있지 않아서 큰 효과를 기대하기는 어렵다.
◇DeDuplication (Global, Custodian, Near)
한 개 부서의 다수의 대상자의 자료는 필연적으로 동일한 Hash Set을 가진 파일이 다수 발견되는데 이것을 우선순위를 지정하여 우선순위가 가장 높은 대상자의 파일을 제외한 나머지의 중복 파일을 제외한다. 통상 Global과 Custodian으로 적용범위에 따라 구분하며, Near처럼 부분적으로 중복된 것을 분석하는 기법도 사용되기도 한다.
Near DeDuplication의 경우는 한 개의 주제로 여러 번 주고받는 이메일 Thread처럼 중복 부분의 열람을 최소화 하는데 그 목적이 있다. 또한 Family Coding(주석1) 등의 Review과정에서 이뤄지는 반복되는 작업을 감소시켜주는 효과를 기대할 수 있다.
◇File Extension
문서 Review는 대개 인간의 눈으로 읽을 수 있는 문서를 대상으로 하는 경우가 일반적이다. 도면이나 영상파일등을 Review해야 할 필요가 있는 경우도 소송에 따라서는 추가적으로 필요로 하는 경우가 발생하는데 확장자를 기준으로 Review의 필요와 불필요를 사전에 결정하는 것이 일반적이다.
◇Date Filtering
각종 문서와 이메일 – ESI는 Meta Data중 TimeStamp라 하여 생성일시, 최종수정일시, 최근열람일시 등을 기준으로 파일의 속성을 이용해 제외 대상을 선정하기도 한다. 다만 Acquisition의 공정에서 Meta Data에 대한 충분한 보존절차가 수반되지 않은 경우나, DRM등의 복호화 과정을 거친경우에는 본 작업이 적절하지 않을 수도 있으며, 메일 아카이브의 경우는 아카이브 내부의 메시지는 대해서 적용되도록 주의를 기울여야한다.
◇Keyword Search
키워드는 주로 법무대리인에 의해서 주어지는 단어들을 이용해서 전체문서에 대해서 검색을 실시한다. 연관성이 높은(Responsive) 키워드들의 묶음과 공개대상이 아닌 비닉특권(Privilege)등의 이유로 인해 제외되어야할 키워드들의 묶음등 다양한 목적으로 키워드 검색을 실시하며 OR나 AND등으로 이뤄지는 단어의 조합의 검색이 이뤄진다. 좀더 정확한 검색결과를 위해서 아래의 방법들도 함께 사용되는 추세이다.
-Proximity Search(Neighborhood, 근방 검색)
Within Sentence 나 Within Word등으로 설명되어지는 근방검색은 A와 B라는 단어간의 거리가 지정된 기준(단어 혹은 간격)에 부합되는 경우만을 결과로 보는 검색방법이다. 기존의 키워드 검색에서 의도하지 않았던 검색의 오류를 개선시킨 방법이다. 다만 아시아의 2 Byte의 언어와 달리 영미권의 알파벳과의 기호학적 차이로 인해 키워드 선정시에 언어별로 거리기준을 다르게 적용해야 한다. 문법은 아래와 같은 형식으로 이용된다.
DocText near/2 (cable modem, wireless)
-Conceptual Search
실제로 키워드를 선정할 때에는 시행착오를 거치게 된다. 기본적으로 키워드의 선정은 변호사와 사내의 해당 안건의 실무자가 참여하게 되지만, 수십 수백여 개의 키워드를 준비하다보면 종종 놓치기도 한다. Concept Search라 불리우는 이 검색은 본 검색에 앞서 어떠한 키워드들이 존재하는가에 대해 특정 단위내의 문서군(群)에서 단어간의 거리나 출현 빈도 등의 분석으로 단어들의 조합이나 연관성이 있는 키워드를 제안해주는 역할을 하기도 한다.
◇Set Operation (집합 연산)
집합연산은 엄밀히 말하면 분석의 범주에 해당된다고 보기엔 다소 어려움이 있다. 교집합, 합집합 등을 이용해서 Review공정의 우선순위나 절차 등을 정하는데 이용하기도 한다. 이러한 작업을 통해 검토(Review)에 앞서서 제출(Production)되어야 할 대상과 그렇지 않은 대상을 분류하기 위한 사전 검토작업으로써 이용되기도 한다.
위의 과정들을 통해서 전제 데이터(보존된 전체 볼륨)중에서 일반적으로 약 10~20% 수준의 데이터가 최종 검토 대상으로 선별되고, TAR(Tech Assist Review)의 기능이 이 과정에서 활용되기도 한다. (일정 부분 법률 대리인에 의한 학습이 필요하므로 분석의 범주에 넣기에는 다소 애매한 부분이다.)
처리와 분석 과정에서 소송과 무관한 자료를 최대한 제외할 수 있으면 검토 과정에서의 비용을 절감할 수 있지만, 충분한 확인 작업이 이루어지지 않는다면 검토의 대상이 되는 소송과 관련된 자료까지 제외될 수 있으므로 않도록 이에 유의해야 한다. 따라서 본 과정의 기준은 가능한 e-Discovery의 경험이 많은 법무법인 변호사와 e-Discovery 기술 지원 업체, 소송 대상 기업의 관계자들의 긴밀한 협조와 논의 후에 진행되어야 한다.
[용어해설]
1. Family Coding: 메일은 통상 [본문, 첨부문서]의 구성으로 이뤄진 경우가 많고, Embeded 문서는 문서안에 문서가 존재하기도 한다. 이러한 경우 문서와 문서간의 연관관계는 다른 평행적인 관계와 달리 부자관계(Parent-Child Relationship)의 상하관계로 보고 리뷰할 필요가 있다. 대개의 리뷰 솔루션은 이러한 문서의 묶음을 모아서 코딩 할 수 있도록 제공되는 경우가 일반적이다.
1.2. Hash: 데이터의 무결성 및 메시지 인증 등에서 사용되는 함수로써 정보보호의 여러 메커니즘에 사용되는 기술이다. 해시 알고리즘은 임의의 길이의 비트열을 고정된 길이의 출력값인 Hash Code로 압축시키는 함수이며, 암호학적 측면에서 사용되는 대부분의 해시 함수는 강한 충돌 저항성을 필요로 한다. 일치할 확률이 상당히 낮기 때문에 악성코드의 검출 등에 사용되기도 한다.
[필자. 박영수 (goodsped76@outlook.com)]
Catalyst Repository System 한국 지사장. 한국 Catalyst의 대표자이자 각종 E-Discovery의 안건들에 대한 전반적인 영역의 컨설팅 및 실무를 담당하고 있다. 2009년부터 현재까지 다년간에 수많은 프로젝트에 대해 실무에서부터 전반적인 프로젝트 관리에 이르는 그의 경험을 토대로, 그는 현재 Catalyst의 한국 시장 진출에 있어 가장 큰 역할을 수행하고 있다.
댓글 없음:
댓글 쓰기