top of page

Relativity 없이 e-Discovery 시스템을 직접 구축한 이야기

  • Writer: SG Kim
    SG Kim
  • 4 days ago
  • 3 min read


연간 $80,000짜리 소프트웨어를 $30/월로 대체한 법률 IT 엔지니어의 실전 설계기


카테고리: Legal Tech · AI Engineering · e-Discovery

날짜: 2025년 3월



---



■ 대형 로펌 전산실장도 못 산 Relativity


e-Discovery 시장을 20년 가까이 지배해온 Relativity. 연간 라이선스 $80,000 이상, 중소 로펌은 엄두도 못 내는 가격이다. 대형 로펌 전산실장으로 25년을 있던 시절에도 결국 못 샀다. 대신 "이상한 회사가 만든 이상한 툴"로 PST를 파싱하고, DMG·EML로 떨어뜨리고, 첨부파일을 수작업으로 발라냈다.


당시의 현실은 이랬다.


Privilege Review 10만 건. 변호사 10명 투입, 33~50일 소요, 비용 $500,000~1,000,000. 그래서 인도·필리핀에 e-Discovery Center가 생겼다. 저임금 변호사들한테 Privilege Review를 맡기는 구조였다. Relativity가 그 시장에서 나온 제품이다.


2025년, 판이 완전히 바뀌었다. NLP와 LLM이 있으면 Relativity보다 나은 결과물을 직접 만들 수 있다. 머리만 굴리면 된다.



---



■ 숫자로 보는 격차


Relativity 연간 라이선스: $80,000 이상

우리 시스템 월 비용: $20~30 (Claude Opus 집중 사용 기준)

비용 절감 배율: 3,000배

Privilege Review 시간 절감: 99%



[ 작업 유형별 비용 비교 ]


Privilege Review 10만 건

- 기존 (Relativity + LPO): $500,000~750,000 / 변호사 팀 33~50일

- 우리 시스템: $150 내외 / Claude Opus 몇 시간


PST 이메일 파싱

- 기존: $30,000~50,000 / 전문 툴 + 인력

- 우리 시스템: $0 / libpff Python 자동화


타임라인 재구성

- 기존: $50,000~80,000 / 분석 변호사 수십 일

- 우리 시스템: $30~50 / Opus 자동 분석


증거 태깅/분류

- 기존: $80,000~120,000

- 우리 시스템: $50~80


문서 Q&A

- 기존: 변호사 시간당 $300~500

- 우리 시스템: $0.001~0.002/회 (Claude Haiku)



---



■ 선택의 이유가 있는 기술 스택


[ Vector DB ] PostgreSQL + pgvector

ChromaDB 대신 선택했다. Vector 검색 + 풀텍스트 검색 + 메타데이터 필터링을 SQL 한 줄로 처리할 수 있다. ChromaDB와 BM25를 따로 관리하던 복잡성을 완전히 제거했다. 커리어 관점에서도 PostgreSQL은 필수 스킬이다.


[ 임베딩 ] Ollama + nomic-embed-text

M4 Pro Metal GPU를 직접 사용한다. 임베딩 생성은 무제한 무료. API 비용 없음. Ubuntu VM에서 돌리면 GPU 접근이 안 돼 CPU로만 처리되는데, 맥북 네이티브로 올리면 6배 이상 빠르다.


[ Q&A 답변 ] Claude Haiku API

1회 $0.002 수준. 번역 + 답변 합쳐서 하루 100번 = $0.2. Ollama llama3를 CPU로 돌릴 때와 품질이 완전히 다르다.


[ 증거 분석 ] Claude Opus

복잡한 법률 추론, 타임라인 종합, Privilege 분류에 사용한다. 판단이 필요한 작업만 Opus에게 맡기고, 나머지는 Haiku로 처리해 비용을 최소화한다.


[ 문서 파싱 ] PyMuPDF + easyocr

네이티브 텍스트 PDF와 스캔 이미지 PDF를 모두 처리한다. OCR은 한국어/영어 동시 지원.


[ 실행 환경 ] MacBook M4 Pro 42GB 네이티브

VM 없이 네이티브로 돌린다. Ubuntu VM에서 9분 8초 걸리던 418개 PDF 인덱싱이 맥북 네이티브 Metal GPU로 1분 3초. 6.6배 차이다.



---



■ Phase 1 구축 실전기


Step 01. PostgreSQL + pgvector 설치


Homebrew로 PostgreSQL 16을 설치하고, pgvector는 소스 빌드가 필요하다. brew install pgvector만으로는 extension이 PostgreSQL 경로에 잡히지 않는다. GitHub에서 소스를 받아서 PG_CONFIG를 지정한 후 make install. 첫 번째 삽질 포인트다.


맥북 로컬 환경은 peer 인증이라 비밀번호 없이 Unix 소켓으로 바로 접속된다. SSH로 원격 서버에 접속할 때는 bash가 특수문자($, !, #)를 가로채는 문제가 생긴다. .pgpass 파일로 해결한다.



Step 02. 하이브리드 검색 설계


pgvector의 코사인 유사도(60%)와 PostgreSQL tsvector 풀텍스트 검색(40%)을 단일 SQL로 결합했다. ChromaDB + BM25를 따로 관리하고 RRF Fusion 코드를 별도로 짜던 복잡성이 SQL 한 줄로 정리됐다.



Step 03. 418개 PDF 인덱싱 — 1분 3초


Cyberhaven 매뉴얼 418개 PDF. Ubuntu VM에서 9분 8초 걸리던 것이 맥북 네이티브 Metal GPU로 1분 3초. CLI의 tqdm 진행바가 다 찼을 때의 쾌감은 GUI에서는 절대 못 느낀다.



Step 04. 한국어 지원 — 번역 레이어 추가


PDF가 영어라 한국어로 질문하면 벡터 거리가 멀어져 검색 품질이 떨어진다. 해결책: 질문을 먼저 Haiku로 영어 번역한 후 검색에 사용한다. Haiku 호출 1회가 추가되지만 검색 정확도가 영어 질문과 동일해진다.



Step 05. 비용 검증 — $0.03


하루 종일 개발과 테스트를 합쳐서 $0.03. Haiku 기준 하루 100번 질문 = $0.2. $5 충전으로 2,500번 질문이 가능하다. 변호사 시간당 $300~500과 비교하면 논할 가치도 없다.



---



■ 향후 로드맵 — Phase 2~4


[완료] Phase 1

Cyberhaven 매뉴얼 Q&A — PostgreSQL + pgvector + Claude Haiku 구축 완료. 비용 $0.03.


[진행 예정] Phase 2

소송 증거 PDF 인덱싱. 민사/형사/행정 케이스별 DB 분리, 포렌식 원칙 적용, SHA-256 원본 무결성 보존.


[설계 중] Phase 3

PST 파싱. 이메일 헤더 추출(From/To/CC/BCC/Date), 첨부파일 분리, Thread 재구성, 삭제 이메일 복구 가능 여부 확인. 잘못 건드리면 증거 훼손이다.


[목표] Phase 4

e-Discovery 완성. Privilege 자동 분류, 타임라인 재구성, 증거 태깅, 법원 제출용 출력.



PST 발라내기 — 핵심 설계 원칙


단순 파싱이 아니다. 소송에서 이메일 증거는 원본 무결성(SHA-256), Chain of Custody, Thread 재구성, Privilege 분류까지 포렌식 원칙을 지켜야 증거 능력이 살아있다. 이 부분은 IT 보안과 법률 도메인이 동시에 필요한 영역이다.


Relativity가 못하는 것이 있다. Claude Opus로 증거 간 모순을 자동 탐지하고, 타임라인 공백을 flagging하고, 한국 법원 양식에 맞춰 출력하는 것. 30년 경력의 도메인 판단이 프롬프트 설계에 들어가면 아무도 못 따라온다.



---


Legal Tech · IT Security Engineering

Phase 1 완료 보고 · 2025년 3월




Recent Posts

See All
생성형 인공지능 시대의 사법 신뢰 위기와 법조계 대응 전략: AI 환각 오류에 따른 제재 방안 및 '법관 AI 활용 지침서' 심층 분석

1. 서론: 사법 체계의 기술적 패러다임 전환과 인공지능 환각의 인식론적 위협 거대언어모델(Large Language Model, LLM)을 필두로 한 생성형 인공지능(AI) 기술의 비약적인 발전은 전통적인 법률 생태계와 재판 실무에 근본적이고 불가역적인 변화를 촉발하고 있다. 법률 검색의 고도화, 방대한 소송 기록의 요약, 나아가 준비서면 및 판결문 초안

 
 
 
차세대 사이버 보안 패러다임: 애플리케이션 보안(AppSec), DevSecOps, 인공지능 보안(AISec)의 다차원 상관분석 및 융합 거버넌스 모델

사이버 보안 생태계의 구조적 진화와 융합적 접근의 당위성 현대의 소프트웨어 개발 및 운영 환경은 클라우드 네이티브 아키텍처, 마이크로서비스, 서버리스 기술의 전면적인 도입으로 인해 과거와는 비교할 수 없는 전례 없는 복잡성을 띠고 있다. 과거 단방향으로 흐르던 선형적인 소프트웨어 개발 생명주기(SDLC)는 지속적 통합 및 지속적 배포(CI/CD) 파이프라인

 
 
 
AI로 이루어 낸 첫 진정사건의 승리?!

gyunai가 Chroma+Ollam를 이용하여 codex와 함께 브레이스토밍 한 내용들과 기존의 법령 자료를 가지고 PostgreSQL을 연동 시켜 만들어 낸 원자력 법에 대한 진정 사건이 human을 이겼다. 그런데 어떻게 보면 이 구성도 인간이 하기에 인간 vs. human이지만 시간의 절약 및 중복제거, 그리고 ollama가 추론하는 능력이 놀랍다는

 
 
 

Comments


bottom of page