Relativity 없이 e-Discovery 시스템을 직접 구축한 이야기
- SG Kim
- 4 days ago
- 3 min read
연간 $80,000짜리 소프트웨어를 $30/월로 대체한 법률 IT 엔지니어의 실전 설계기
카테고리: Legal Tech · AI Engineering · e-Discovery
날짜: 2025년 3월
---
■ 대형 로펌 전산실장도 못 산 Relativity
e-Discovery 시장을 20년 가까이 지배해온 Relativity. 연간 라이선스 $80,000 이상, 중소 로펌은 엄두도 못 내는 가격이다. 대형 로펌 전산실장으로 25년을 있던 시절에도 결국 못 샀다. 대신 "이상한 회사가 만든 이상한 툴"로 PST를 파싱하고, DMG·EML로 떨어뜨리고, 첨부파일을 수작업으로 발라냈다.
당시의 현실은 이랬다.
Privilege Review 10만 건. 변호사 10명 투입, 33~50일 소요, 비용 $500,000~1,000,000. 그래서 인도·필리핀에 e-Discovery Center가 생겼다. 저임금 변호사들한테 Privilege Review를 맡기는 구조였다. Relativity가 그 시장에서 나온 제품이다.
2025년, 판이 완전히 바뀌었다. NLP와 LLM이 있으면 Relativity보다 나은 결과물을 직접 만들 수 있다. 머리만 굴리면 된다.
---
■ 숫자로 보는 격차
Relativity 연간 라이선스: $80,000 이상
우리 시스템 월 비용: $20~30 (Claude Opus 집중 사용 기준)
비용 절감 배율: 3,000배
Privilege Review 시간 절감: 99%
[ 작업 유형별 비용 비교 ]
Privilege Review 10만 건
- 기존 (Relativity + LPO): $500,000~750,000 / 변호사 팀 33~50일
- 우리 시스템: $150 내외 / Claude Opus 몇 시간
PST 이메일 파싱
- 기존: $30,000~50,000 / 전문 툴 + 인력
- 우리 시스템: $0 / libpff Python 자동화
타임라인 재구성
- 기존: $50,000~80,000 / 분석 변호사 수십 일
- 우리 시스템: $30~50 / Opus 자동 분석
증거 태깅/분류
- 기존: $80,000~120,000
- 우리 시스템: $50~80
문서 Q&A
- 기존: 변호사 시간당 $300~500
- 우리 시스템: $0.001~0.002/회 (Claude Haiku)
---
■ 선택의 이유가 있는 기술 스택
[ Vector DB ] PostgreSQL + pgvector
ChromaDB 대신 선택했다. Vector 검색 + 풀텍스트 검색 + 메타데이터 필터링을 SQL 한 줄로 처리할 수 있다. ChromaDB와 BM25를 따로 관리하던 복잡성을 완전히 제거했다. 커리어 관점에서도 PostgreSQL은 필수 스킬이다.
[ 임베딩 ] Ollama + nomic-embed-text
M4 Pro Metal GPU를 직접 사용한다. 임베딩 생성은 무제한 무료. API 비용 없음. Ubuntu VM에서 돌리면 GPU 접근이 안 돼 CPU로만 처리되는데, 맥북 네이티브로 올리면 6배 이상 빠르다.
[ Q&A 답변 ] Claude Haiku API
1회 $0.002 수준. 번역 + 답변 합쳐서 하루 100번 = $0.2. Ollama llama3를 CPU로 돌릴 때와 품질이 완전히 다르다.
[ 증거 분석 ] Claude Opus
복잡한 법률 추론, 타임라인 종합, Privilege 분류에 사용한다. 판단이 필요한 작업만 Opus에게 맡기고, 나머지는 Haiku로 처리해 비용을 최소화한다.
[ 문서 파싱 ] PyMuPDF + easyocr
네이티브 텍스트 PDF와 스캔 이미지 PDF를 모두 처리한다. OCR은 한국어/영어 동시 지원.
[ 실행 환경 ] MacBook M4 Pro 42GB 네이티브
VM 없이 네이티브로 돌린다. Ubuntu VM에서 9분 8초 걸리던 418개 PDF 인덱싱이 맥북 네이티브 Metal GPU로 1분 3초. 6.6배 차이다.
---
■ Phase 1 구축 실전기
Step 01. PostgreSQL + pgvector 설치
Homebrew로 PostgreSQL 16을 설치하고, pgvector는 소스 빌드가 필요하다. brew install pgvector만으로는 extension이 PostgreSQL 경로에 잡히지 않는다. GitHub에서 소스를 받아서 PG_CONFIG를 지정한 후 make install. 첫 번째 삽질 포인트다.
맥북 로컬 환경은 peer 인증이라 비밀번호 없이 Unix 소켓으로 바로 접속된다. SSH로 원격 서버에 접속할 때는 bash가 특수문자($, !, #)를 가로채는 문제가 생긴다. .pgpass 파일로 해결한다.
Step 02. 하이브리드 검색 설계
pgvector의 코사인 유사도(60%)와 PostgreSQL tsvector 풀텍스트 검색(40%)을 단일 SQL로 결합했다. ChromaDB + BM25를 따로 관리하고 RRF Fusion 코드를 별도로 짜던 복잡성이 SQL 한 줄로 정리됐다.
Step 03. 418개 PDF 인덱싱 — 1분 3초
Cyberhaven 매뉴얼 418개 PDF. Ubuntu VM에서 9분 8초 걸리던 것이 맥북 네이티브 Metal GPU로 1분 3초. CLI의 tqdm 진행바가 다 찼을 때의 쾌감은 GUI에서는 절대 못 느낀다.
Step 04. 한국어 지원 — 번역 레이어 추가
PDF가 영어라 한국어로 질문하면 벡터 거리가 멀어져 검색 품질이 떨어진다. 해결책: 질문을 먼저 Haiku로 영어 번역한 후 검색에 사용한다. Haiku 호출 1회가 추가되지만 검색 정확도가 영어 질문과 동일해진다.
Step 05. 비용 검증 — $0.03
하루 종일 개발과 테스트를 합쳐서 $0.03. Haiku 기준 하루 100번 질문 = $0.2. $5 충전으로 2,500번 질문이 가능하다. 변호사 시간당 $300~500과 비교하면 논할 가치도 없다.
---
■ 향후 로드맵 — Phase 2~4
[완료] Phase 1
Cyberhaven 매뉴얼 Q&A — PostgreSQL + pgvector + Claude Haiku 구축 완료. 비용 $0.03.
[진행 예정] Phase 2
소송 증거 PDF 인덱싱. 민사/형사/행정 케이스별 DB 분리, 포렌식 원칙 적용, SHA-256 원본 무결성 보존.
[설계 중] Phase 3
PST 파싱. 이메일 헤더 추출(From/To/CC/BCC/Date), 첨부파일 분리, Thread 재구성, 삭제 이메일 복구 가능 여부 확인. 잘못 건드리면 증거 훼손이다.
[목표] Phase 4
e-Discovery 완성. Privilege 자동 분류, 타임라인 재구성, 증거 태깅, 법원 제출용 출력.
PST 발라내기 — 핵심 설계 원칙
단순 파싱이 아니다. 소송에서 이메일 증거는 원본 무결성(SHA-256), Chain of Custody, Thread 재구성, Privilege 분류까지 포렌식 원칙을 지켜야 증거 능력이 살아있다. 이 부분은 IT 보안과 법률 도메인이 동시에 필요한 영역이다.
Relativity가 못하는 것이 있다. Claude Opus로 증거 간 모순을 자동 탐지하고, 타임라인 공백을 flagging하고, 한국 법원 양식에 맞춰 출력하는 것. 30년 경력의 도메인 판단이 프롬프트 설계에 들어가면 아무도 못 따라온다.
---
Legal Tech · IT Security Engineering
Phase 1 완료 보고 · 2025년 3월



Comments