리걸테크의 한 주 — Mike OSS, 그리고 그 너머의 layer – 박세희 변호사

지난 2주 동안 글로벌 리걸테크 커뮤니티가 시끄러웠다. 출발점은 GitHub에 올라온 한 오픈소스 프로젝트였고, 그게 LinkedIn·Hacker News·업계 매체로 번지는 동안 두 가지 다른 논쟁이 동시에 일어났다.

첫 번째 논쟁은 Mike OSS라는 도구 자체에 대한 것이었고, 두 번째 논쟁은 “그래서 진짜 가치는 어디에 있는가”라는 질문이었다. 그런데 이 두 논쟁의 댓글 스레드를 깊이 따라가보면, 사람들이 일반적으로 가정하는 Harvey/Legora의 가치 제안 자체가 실제 사실관계와 다르다는 게 드러난다. 이 글은 두 논쟁을 한국 변호사 관점에서 정리하면서, 댓글 스레드에서만 명확히 보이는 더 정확한 그림까지 포함하려 한다.

1. 사건의 시작 — Mike OSS

전직 Latham & Watkins 어소시에이트 Will Chen이 2주 동안 만든 웹 애플리케이션을 GitHub에 오픈소스로 공개했다. 이름은 Mike. 데모 사이트는 mikeoss.com. LinkedIn 출시 글에 그가 쓴 표현이 분위기를 결정지었다 — Harvey($11B 가치)와 Legora($5.5B 가치)의 웹 애플리케이션을 본인이 2주 만에 빌드해서 무료로 풀었다는 것.

72시간 안에 GitHub 스타 1,000개를 넘겼고, Legal IT Insider는 리걸테크 사상 최고 채택 속도라고 보도했다. 일주일 뒤에는 별 2.3천, 포크 600개를 넘겼고, Korea, Netherlands, Switzerland, Austria 버전 fork가 줄줄이 등장했다.

Mike가 정확히 무엇인가

여기서 첫 번째 demystification이 필요하다. Hacker News 댓글에 깔끔하게 정리한 사람이 있었다 — 사람들이 처음에는 “오픈소스 법률 LLM”이라고 오해했는데, 실제로는 메이저 LLM 제공자(Claude, Gemini)를 감싸고 법률 워크플로우를 정리한 웹 앱이라는 것.

이게 중요한 이유는, “Harvey를 2주 만에 만들었다”는 표현이 만드는 인상과 실제 기술 구조가 다르기 때문이다. Mike가 한 일은:

LLM API를 호출하는 프론트엔드·백엔드 (Next.js + Express)
문서 업로드·관리 (Supabase + S3 호환 스토리지)
표 형태로 수십~수백 문서를 일괄 추출하는 tabular review
DOC/DOCX↔PDF 변환 (LibreOffice)
이 위에 얹은 법률 워크플로우 프리셋

LLM 자체는 사용자가 자기 Anthropic 또는 Google API 키를 입력해서 쓴다 (BYOK 방식). 즉 Mike가 한 건 “법률 도메인 LLM 학습”이 아니라 “기존 LLM을 법률 업무 흐름에 맞게 정리한 인터페이스”다. 이건 결코 나쁘다는 뜻이 아니다 — 잘 만든 인터페이스도 가치가 있다. 다만 정확히 이게 무엇인지 분리해서 봐야 다음 논의들이 의미 있어진다.

변호사 입장에서 가장 중요한 부분 — AGPL-3.0

기술 얘기보다 한국 변호사 입장에서 더 중요한 건 라이선스다. Mike는 일반 GPL이 아니라 AGPL v3를 채택했다. 둘의 차이는 §13 “network use” 조항에 있다.

GPL은 소프트웨어를 “배포(distribute)”하는 시점에 소스코드 공개 의무가 발동한다. 즉 GPL 소프트웨어를 고쳐서 내부에서만 쓰면 의무가 없다. AGPL은 한 단계 더 나간다 — 소프트웨어를 네트워크 너머의 사용자에게 제공하는 것 자체를 “배포”로 간주한다.

이걸 Mike에 적용하면:

로펌이 자체 인트라넷에 호스팅하고 자기 변호사들만 쓴다 → 수정 사항 비공개 가능
로펌이 클라이언트 포털을 만들어서 클라이언트가 Mike에 접속하게 한다 → AGPL §13 발동, 그 클라이언트에게 수정한 소스코드 공개 의무 발생

Will Chen 본인이 인터뷰에서 이걸 명확히 정리했고, 이게 의도된 설계라고 밝혔다 — 큰 벤더가 Mike를 가져다가 살짝 고쳐서 SaaS로 클라이언트에 되파는 시나리오를 막는 장치라는 것.

한국 변호사들이 흔히 가지는 잘못된 가정이 “오픈소스 = 자유롭게 변형해서 사용 가능”인데, AGPL은 그 가정을 부분적으로 깬다. 인하우스 변호사가 자기 회사 클라이언트 포털에 Mike 기반 도구를 통합하려고 한다면, 라이선스 의무가 자동으로 따라온다는 점을 알아야 한다. (Will Chen은 더 permissive한 라이선스로 변경 검토 중이라고도 했으니, 이건 모니터링 포인트다.)

Mike의 객관적 한계

화제성 너머에 한계도 분명하다.

첫째, case law 데이터베이스가 없다. Hacker News에서 한 변호사 댓글이 핵심을 짚었다 — 변호사가 비싼 돈을 내는 진짜 이유는 AI가 검증된 case law DB에 접근할 수 있게 해주는 거라고. Westlaw, Lexis, Thomson Reuters는 law reporting 회사들과의 독점 계약으로 entrenched된 위치에 있다. Mike는 공개된 판례만 쓸 수 있고, 정확한 legal research가 필요한 업무에는 부적합하다.

한국에선 이게 더 까다롭다. 한국은 미국·영국과 달리 판례 공개 자체가 제한적이다. 대법원 판결도 일부만 공개되고, 하급심은 매우 제한적이다. 케이스노트·로앤비 같은 사기업이 commercial DB를 운영한다. Mike-KR (박경호 / pkh31337)이 한국 국가법령정보센터 통합을 시도했는데, 이건 좋은 시도지만 commercial DB 통합 없이는 실용성에 한계가 분명하다.

둘째, 성숙도 격차가 크다. Mike는 출시 일주일 된 prototype이고, Harvey는 2022년부터, Legora는 2023년부터 production이다. Harvey는 2026년 3월 기준 100,000+ 변호사·1,300+ 조직이 사용 중이라고 공식 발표했다. 다만 이 격차의 정확한 본질은 따로 분석할 필요가 있다 — Harvey와 Legora가 실제로 가진 게 무엇인지는 다음 섹션에서 다시 본다.

셋째, “documents never leave your perimeter” 주장의 미묘한 약점. 핵심 LLM 호출은 어차피 Anthropic 또는 Google API로 나간다 (BYOK라서 사용자 본인 약관이지만, 외부 API 호출 자체는 사실). Supabase 의존성도 있다 — Supabase Cloud를 쓰면 데이터가 거기로 가고, 자체 호스팅 Supabase를 쓰면 운영 부담이 늘어난다.

여기까지가 Mike에 대한 1차적 사실관계다. 이제 진짜 흥미로운 두 번째 단계로 넘어가자.

2. 첫 번째 논쟁 — 인터페이스가 아니라 “안전한 버퍼”였다

Mike 출시 직후의 첫 번째 비판은 익숙한 형태였다. Mike는 demo고 Harvey/Legora의 가격은 인터페이스가 아니라 그 위에 얹힌 모든 것에 대한 비용이라는 것 — case law DB 접근권, document management system 통합, practice별 configure된 workflow agent, 내부 embedded engineering team. 이 framing은 일리가 있다.

그런데 Hacker News의 한 댓글이 한 단계 더 들어간 분석을 내놓았다. 이게 Mike 사태의 진짜 동학을 가장 정확히 설명한다고 본다.

“95% 명분론” — 대형 펌이 실제로 돈을 내는 이유

이 분석을 풀어쓰면 이렇다.

(1) LLM은 legal research에 abysmal하다. 매주 어딘가의 변호사가 hallucinated citation으로 법원에서 망신당하는 뉴스가 나온다. Big law firm 변호사들도 예외가 아니다. 기본적인 법 원리는 LLM이 그럭저럭 답하지만, 뉘앙스나 specialization이 필요한 순간 plausible하게 들리지만 틀린 답을 뱉는다.

(2) 법률 시장은 LLM 제공자에게 너무 작은 niche다. 도메인 specific fine-tuning이나 high-quality legal training data 큐레이션에 진지한 투자가 없다. 법은 error tolerance가 매우 낮은 분야이고, 작은 실수가 큰 결과를 낳는다. 충분한 payoff 없이 거기에 큰 투자를 할 동기가 약하다.

(3) 그렇다면 대형 펌이 Harvey/Legora를 사는 진짜 이유는 무엇인가? Client confidential·privileged 정보를 ChatGPT나 Claude에 직접 보낼 수 없기 때문이다. 이 회사들은 subpoena에 응답해 client data를 넘겨야 할 수 있고, 계정 종류에 따라 prompt가 future model 학습에 쓰일 수 있어 privilege waiver 위험이 있다.

(4) Harvey와 Legora가 푸는 문제는 정확히 이거다. API를 자기 서버를 거쳐서 호출하고, prompt와 response를 고객 keys로 암호화해서 저장. 많은 펌에게 이게 95%다.

이 framing이 옳다면, Mike OSS는 Harvey의 인터페이스가 아니라 이 95%의 가치 명분을 직접 공격한다. Mike는 self-hosted로 같은 보안 이점을 거의 $0에 제공한다 (BYOK라서 LLM 호출 자체는 외부로 나가지만, 그건 Harvey/Legora도 동일한 데이터 흐름이다). 즉 Mike는 “Harvey/Legora가 실제로 파는 게 뭐였나”라는 질문을 노출시킨다.

여기서 한국 변호사가 떠올릴 평행 질문이 있다 — 우리가 Harvey 같은 서비스 도입을 검토할 때 진짜 비교하고 있는 게 “더 좋은 AI”인가, 아니면 **”변호사법 §26-2 비밀유지의무를 충족할 수 있는 안전한 LLM 사용 경로”**인가? 둘은 다른 카테고리의 가치 제안이고, 다른 가격 정당성을 가진다.

그 95%마저도 위에서 압박받고 있다

같은 HN 스레드의 follow-up 댓글이 결정타다.

Foundation model 제공자들 — Anthropic, OpenAI 등 — 이 이미 zero-retention enterprise tier와 configurable data-residency 옵션을 제공하기 시작했다. 즉 펌이 직접 foundation model 제공자와 계약해서 privileged material을 model 제공자에게 노출시키지 않고도 처리할 수 있다면, Harvey/Legora의 “안전한 API 버퍼”라는 가치 명분 자체가 무너진다.

이게 Mike 사태의 진짜 그림이다:

위에서 내려오는 압박: Foundation model 제공자가 zero-retention enterprise tier를 직접 제공
아래에서 올라오는 압박: Mike 같은 self-hosted 오픈소스가 같은 보안 이점을 무료로 제공
중간의 Harvey/Legora: 두 압박 사이에 끼어 있음

Mike가 한 일은 단순히 “오픈소스 클론을 만들었다”가 아니라, 이 위·아래 양쪽 압박이 동시에 진행 중이라는 사실을 가시화한 것이다.

그리고 fine-tuning은 사실 거기 없었다

또 하나 짚을 게 있다. Reddit 원글 작성자가 댓글에서 명확히 했고, 다른 HN 댓글도 동일하게 확인하는 사실 — Harvey와 Legora는 fine-tuning 모델을 안 쓴다. Harvey가 한동안 ChatGPT 모델 fine-tune을 시도했지만, 새 모델 배포 속도를 따라가지 못해서 그만뒀다고 한다.

즉 한국·영미권에서 흔히 들리는 논리 — “Harvey/Legora의 thick wrapper 가치 = legal RLHF·fine-tuning 자산” — 은 사실관계 자체가 약하다. 실제로 그들이 가진 건 다른 layer다. Reddit의 한 댓글은 한 발 더 나가서 Harvey가 광고하는 “수백 개 에이전트”도 진짜 에이전트인지 단순 프롬프트 라이브러리인지 의문을 제기한다.

그렇다면 진짜 thick wrapper의 layer는 어디인가

위 분석을 모두 합치면, Harvey/Legora의 실제 moat 후보는 이렇게 정리된다.

Liability transfer: 검증된 enterprise 공급업체를 썼다는 사실 자체가 변호사 주의의무·과실 방어에 유리. “Westlaw 내장 legal AI를 썼다”가 “ChatGPT를 썼다”보다 보험사·법원에 훨씬 쉬운 대화. 미국은 일부 전문가 배상책임 보험사가 이미 AI 도구 사용을 약관에서 묻기 시작했다.
Document management system 통합: iManage·NetDocuments 등과의 native 통합. 자체 빌드는 IT 팀의 ongoing 부담.
SOC 2·DPA·SLA·legal hold: 조달·보안·컴플라이언스 단계 통과를 위한 인증 패키지. 무료 오픈소스로는 거의 불가능.
Practice별 customization: 거래법·소송·M&A·노동 등 각 영역의 playbook과 워크플로우 (단, Reddit 거래법 변호사 코멘트에 따르면 이 customization이 본인 실무 방식에 맞지 않을 수 있다는 반론도 있다).
고객 베이스와 firm-wide 채택 노하우: 100,000+ 변호사·1,300+ 조직이 실제로 쓰면서 누적된 워크플로우 패턴과 제품 개선 피드백.

Will Chen 본인이 인터뷰에서 한 분석이 이걸 가장 정확하게 압축한다 — Mike 같은 단순 래퍼는 결국 distribution 이점을 가진 거대 플레이어가 직접 흡수하고, 고유한 가치 제안과 firm-wide 채택을 만든 thick wrapper만 살아남는다는 것. 단, 그 “고유한 가치 제안”이 fine-tuning이 아니라 위 5가지 layer라는 게 추가 데이터로 명확해진다.

3. 두 번째 발화 — “그 아래에 더 큰 layer가 있다”

Cisco·Spotify·Netflix에서 12년간 Legal Ops를 한 사람이 LinkedIn에 글을 올렸다. 요지는 이렇다.

Mike·Harvey·Legora를 둘러싼 논쟁 — interface가 비싼지, integration이 비싼지 — 둘 다 같은 layer를 두고 다투고 있다는 것. 그 layer는 pre-signature 작업이다. 즉 계약 초안 작성, 리서치, 문서 검토. 투자금이 가장 시끄럽게 흐르고 있는 영역이지만, 변호사 업무 전체로 보면 narrow slice라는 것.

저자의 핵심 주장: 정작 institutional risk와 value는 체결된 이후의 계약에 있다는 것이다. 자기가 12년간 인하우스에서 받은 질문은 거의 한 번도 “어떤 drafting tool을 쓸까”가 아니었다고 했다. 거의 항상 “우리가 이미 무엇을 약정했나, 언제 갱신되나, 어디에 익스포저가 있나, 3년 전 계약에 묻혀있는 조항이 무엇인가”였다는 것.

Cisco에서는 수백만 건의 계약이 repository에 쌓여있고, 거기엔 의무이행, 갱신, indemnity, 가격 에스컬레이터, counterparty에 대한 약정이 들어있는데, 이걸 실용적으로 다룰 수 있는 소프트웨어가 거의 없었다고 했다.

저자의 결론: 리걸 AI의 진짜 defensibility는 인터페이스도, 벤더가 템플릿으로 제공하는 configuration playbook이나 clause library도 아니다. 체결 이후에 쌓이는, 가장 크고, 가장 지저분하고, 가장 손대지 않은 구조화된 계약 데이터를 소유하는 것에서 나온다는 것. 어플리케이션 layer는 commoditize되는 중이지만, 그 아래의 데이터 layer는 여전히 “wide open”이라는 것.

4. 검증 — “Wide open”이 정말 사실인가

이 글은 LinkedIn에서 광범위하게 공유됐다. 인하우스 출신의 12년 경력, 구체적인 회사 이름(Cisco·Spotify·Netflix), 명료한 framing — credibility 신호가 강하다.

그런데 마지막 한 줄, “data layer is still wide open”은 시장 실태와 충돌한다.

체결 이후 계약을 다루는 영역은 CLM(Contract Lifecycle Management)이라는 이름으로 이미 성숙한 카테고리다. 시장 규모는 2025년 기준 $1.24 billion, 2026~2034 CAGR 13% 전망이다. Forrester Wave CLM Q1 2025 Leaders로 Icertis, Ironclad, Sirion, Agiloft가 지정됐다. Gartner Magic Quadrant for CLM 2024에는 여기에 DocuSign이 추가됐다.

저자가 말하는 “구조화된 계약 데이터 소유 = 진짜 moat” 영역에 정확히 빌드된 회사들이 이미 존재한다. 예를 들어:

Sirion은 Store/Create/Manage 3단계 agentic 아키텍처로 구성되어 있고, Manage 단계에서 의무이행 추적, 컴플라이언스 모니터링, 인보이스를 계약 조항과 reconcile해서 value leakage를 방지하는 게 핵심 가치 제안이다.
Pramata는 clean data repository에 특화됐다.
LinkSquares와 Evisort는 대용량 legacy 계약 인제스트와 의무·리스크 추출을 강점으로 한다.

M&A 활동도 활발하다. Evisort는 2024년 1월 Workday에 약 $385M로 인수됐고, 현재 Workday Contract Intelligence와 Workday CLM의 핵심 엔진이다. Conga는 2026년 2월 PROS Holdings의 B2B 사업부를 인수해서 AI 기반 가격 인텔리전스를 자기 CLM·문서 자동화 플랫폼에 통합했다. Lexion은 2024년 DocuSign에, Kira Systems는 2021년 Litera에 인수됐다.

성숙한 카테고리에서 일어나는 통합 M&A 패턴이다. “wide open”이 아니라 “consolidating”이라고 표현하는 게 더 정확하다.

5. 그렇다면 정확한 framing은 무엇인가

저자의 직관 자체는 흥미로운 면이 있다. 단지 표현이 과했을 뿐이다. 더 정확한 framing은 “wide open”이 아니라 “LLM이 기존 moat를 reset하는 중”이다.

Old moat (2015~2023): Kira Systems, Eigen Technologies, Evisort 같은 회사들이 7~10년에 걸쳐 도메인 specific NLP·clause extraction 모델을 트레이닝해서 만든 자산. 변호사들이 라벨링한 학습 데이터, 도메인 ontology, 정확도 검증 절차.

LLM disruption (2023~): GPT-4·Claude 같은 일반 LLM이 zero-shot 또는 few-shot으로 그 추출 정확도에 근접하거나 추월. 즉 “추출 자체”의 진입장벽이 낮아짐.

New moat candidates:

고객 contract repository에 대한 종합 인덱싱·메타데이터·관계 그래프 (depth와 신뢰성)
ERP/CRM(Salesforce, SAP, Workday) 깊은 양방향 통합
인보이스·결제·갱신 워크플로우와의 연결 (revenue leakage 방지)
산업별 playbook과 의무이행 규칙

Legal Ops 저자가 가리키는 방향이 이쪽이다. 다만 “wide open”이 아니라, 기존 incumbent의 moat가 LLM 등장으로 부분적으로 약해진 상태에서 새로운 진입자에게 일시적 윈도우가 열린 것이라고 표현하는 게 정확하다. 그 윈도우도 빠르게 닫히는 중이다 — Workday/Evisort 통합, Ironclad의 2026년 1월 Conversational AI 인터페이스와 갱신 추적용 AI 대시보드 출시 등이 그 신호다.

여기서 한 가지 더 짚을 게 있다. 저자가 말하는 “구조화된 계약 데이터 소유”의 모호함이다. 고객의 계약은 고객 자산이지 벤더의 자산이 아니다. 벤더가 “소유”하는 건 추출 도구·구조·시스템이지 데이터 그 자체가 아니다. Cross-customer 학습은 confidentiality 때문에 제약된다. “data ownership”이라는 표현이 vendor의 cross-customer 인사이트 누적을 의미하는지, 고객별 silo의 분석 능력을 의미하는지 — 이 모호함이 글의 가장 큰 약점이다.

두 layer의 관계

여기서 흥미로운 패턴이 보인다. Section 2에서 정리한 Harvey/Legora의 moat 후보(liability transfer, DMS 통합, 컴플라이언스 인증, practice playbook, firm-wide 채택)와 CLM의 new moat 후보(repository depth, ERP/CRM 통합, 워크플로우 연결, 산업 playbook)가 놀랍도록 닮아 있다.

즉 LLM 시대에 Legal AI든 CLM이든, 진짜 moat의 layer는 인터페이스·모델 자체가 아니라 그 위·아래의 통합·운영·신뢰 layer라는 같은 결론에 수렴한다. Mike OSS 사태와 post-signature 논쟁이 사실 같은 이야기를 다른 segment에서 하고 있는 것이다.

6. 한국 변호사 관점에서

여기서부터 글로벌 분석을 한국 시장에 가져오는 단계다.

한국 시장은 글로벌과 비대칭적으로 미성숙

글로벌 CLM은 성숙·통합 단계에 있지만, 한국 시장은 다르다. 한국 인하우스 법무팀의 실제 페인포인트를 떠올려보면:

표준계약서·NDA·SLA가 분산 관리된다 (이메일, 공유드라이브, 개별 PC)
갱신·만료 관리는 수동, 엑셀 시트로 한다
인수합병이나 실사 시 contract repository가 빈약해서 due diligence 비용이 폭증한다
대기업조차 Ironclad·Icertis 같은 글로벌 솔루션 도입이 본격적이지 않다

이건 글로벌 CLM 카테고리가 “wide open”이라는 뜻은 아니다 — 한국 시장의 SaaS 도입 자체가 늦은 결과다. 그렇지만 한국 인하우스 입장에서 보면, 글로벌 솔루션은 한국어와 한국 법률 문서 구조에 적합하지 않고, 로컬 솔루션은 아직 미성숙하다는 사이의 공백이 분명히 존재한다.

망분리와 self-hosted 옵션

한국 금융권·공공기관·일부 대기업이 망분리 환경이라 SaaS CLM 도입에 구조적 제약이 있다. 이 맥락에서 Mike 같은 self-hosted 옵션은 미국보다 한국에서 더 매력적일 수 있다. 다만 self-hosted CLM이 곧장 Mike OSS로 풀린다는 뜻은 아니다 — Mike는 pre-signature 도구지 CLM이 아니다. 둘은 다른 카테고리다.

변호사법과 AI 도구 사용 — 4가지 frame

한국 변호사가 AI 도구를 쓸 때 고려해야 할 법적 framework이 적어도 네 가지 있다.

첫째, 변호사법 §26-2 (비밀유지의무). 클라이언트 confidential 정보를 외부 AI 서비스에 보내는 것이 비밀유지의무 위반이 되는지에 대한 명확한 판례는 아직 없다. 미국에선 최근 United States v. Heppner 사건에서 AI 챗봇이 attorney-client privilege나 work product doctrine을 깰 수 있다는 판시가 있었다고 보고된다. 다만 Heppner는 client가 public chatbot을 쓴 사건이라는 nuance가 있다 — 변호사가 self-hosted LLM이나 enterprise tier를 쓰는 경우엔 다르게 판단될 가능성이 높다. 한국에선 별도 분석이 필요하지만, 일반론으로 self-hosted + local LLM 조합이 SaaS 형태보다 비밀유지 측면에서 안전한 쪽이라는 건 말할 수 있다.

둘째, AI 기본법 (2026.1.22 시행). 외국 AI 사업자에 대한 국내 대리인 지정 의무, 안전성 보고 의무, 이용자 통지 의무 등이 적용된다. 로펌이 외부 AI 서비스를 자기 제품·서비스에 내장해서 클라이언트에게 제공한다면, 자기가 단순 사용자인지 AI 사업자에 가까운 위치인지 검토해야 한다.

넷째, 변호사 주의의무와 도구 선택의 관계. 영미권에서 이미 시작된 흐름인데, 변호사 배상책임 보험사가 AI 도구 사용을 약관에서 묻기 시작했다. “검증된 enterprise 솔루션을 썼다”가 “공개 챗봇을 썼다”보다 보험사·법원·소비자에게 훨씬 쉬운 대화가 된다는 것. 한국에선 변호사 배상책임보험 시장이 미국만큼 크지 않지만, 변호사법상 주의의무·과실 책임에서 동일한 논리가 작동할 가능성이 있다. 도구 선택 자체가 법적 방어력의 일부라는 frame이다.

“Mike vs Harvey/Legora”의 이분법을 넘어 — 세 번째 옵션

Reddit에서 한 거래법 변호사가 흥미로운 길을 보여줬다. Legora나 Harvey가 아니라 직접 Claude로 가서, Claude Code로 통합을 만들고, 본인 워크플로우에 맞춘 에이전트와 플레이북·판례 라이브러리·초안 표준을 추가한다는 것. 좌석 라이선스 비용의 극히 일부로. “Legora나 Harvey가 거래법 실무 방식을 정의하는 게 아니다”라는 코멘트가 핵심이다.

이건 한국 변호사에게도 의미 있는 옵션이다. 함의는 다층적이다:

장점: 본인 실무에 맞춘 customization, 비용 절감, 외부 vendor 의존 최소화, foundation model 발전 속도를 직접 활용
단점: liability transfer 효과가 약해진다. 사고 시 “검증된 enterprise 공급업체를 썼다”가 아니라 “내가 빌드한 워크플로우를 썼다”가 된다. 입증 책임이 변호사 본인에게 더 무거워진다
한국 특이성: 변호사법상 주의의무 충족 입증, AI 기본법상 사업자 지위 검토, 약관규제법상 본인 사용약관 검토 등이 변호사 본인 책임으로 들어옴

기술 리터러시가 있는 변호사·인하우스에는 매력적인 길이지만, 일반화하기엔 무리가 있다. 현실은 “Mike vs Harvey/Legora”의 이분법이 아니라, “오픈소스 self-host vs 검증된 enterprise vs 직접 foundation model 빌드”의 삼분법으로 보는 게 정확하다.

옵션	비용	Liability transfer	Customization	한국 적합성
오픈소스 self-host (Mike 류)	낮음 (LLM 비용만)	약함	중간	망분리 환경에 매력적
검증된 enterprise (Harvey/Legora)	높음 ($200K+/년)	강함	낮음 (벤더 정의)	한국 case law 통합 부재
직접 foundation model 빌드	낮음 (LLM 비용만)	매우 약함	매우 높음	변호사 본인 기술 리터러시 필요

한국에서 실제로 의미 있는 sub-카테고리

종합하면, 한국 변호사가 실무로 활용 가능성이 높은 sub-카테고리는 이렇게 정리된다.

카테고리	글로벌	한국	비고
Pre-signature drafting/review	성숙 (Harvey, Legora, Mike 등)	도입 초기	한국어 적합성, case law DB 통합이 변수
Post-signature CLM	성숙·통합 단계	미성숙	self-hosted·on-prem 옵션이 한국에서 매력적
Korean case law / 법령 자동화	n/a	LBox, 케이스노트, 로앤비	한국어·한국 법률 도메인 특화
특허·상표·등기 자동화	산재	한국 특화 도구들 존재	별도 분석 필요

한국에서 “data layer가 wide open”이라고 말할 수 있는 영역은 글로벌과 비대칭적으로 더 크지만, 그것도 LBox 같은 회사가 한국어 legal 벤치마크(KBL)를 만들면서 도메인 특화로 채워나가는 중이다.

7. 정리 — 변호사로서 가져갈 5가지 질문

이 2주의 논쟁에서 변호사이자 운영자로서 내가 챙겨가는 질문은 다섯 가지다.

첫째, 실제로 무엇이 어디에 있는 도구인가. “Mike가 Harvey를 죽인다”는 헤드라인은 기술 구조를 흐린다. Mike는 LLM 래퍼다. Harvey/Legora는 fine-tuning이 아니라 안전한 API 버퍼 + integration + 컴플라이언스 인증 + liability transfer 패키지다. CLM은 또 다른 카테고리다. 헤드라인을 disambiguate하지 않으면 잘못된 비교가 의사결정으로 이어진다.

둘째, “내가 사는 게 정확히 무엇인가”를 명시하라. Harvey 도입 검토 시 진짜 비교 대상이 “더 좋은 AI”인지, “비밀유지의무 충족 경로”인지, “liability transfer 메커니즘”인지를 명확히 해야 한다. 셋이 서로 다른 카테고리고, 다른 가격 정당성을 가진다. Foundation model 제공자의 zero-retention enterprise tier가 진화하면서, 적어도 한 카테고리(보안 버퍼)는 외부에서도 충족 가능해지고 있다는 것도 같이 본다.

셋째, 라이선스를 읽고 시작하라. AGPL-3.0의 §13 network use 조항은 한국 변호사가 흔히 모르고 지나가는 함정이다. 인하우스 법무가 자기 회사 클라이언트 포털에 오픈소스 도구를 통합하기 전에, 그 라이선스가 무엇인지 정확히 확인해야 한다. “오픈소스 = 자유”라는 가정은 부분적으로 틀렸다.

넷째, “wide open”은 다음 단계 검증이 필요한 표현이다. 어떤 시장이 “wide open”이라는 주장을 들으면, 그게 실제로 미점유인지, 아니면 화자가 incumbent를 무시하거나 자기 카테고리를 띄우는 중인지 분리해서 검증해야 한다. CLM은 wide open이 아니다. 한국 CLM은 글로벌보다는 더 열려있지만, 그것도 빠르게 채워지는 중이다.

다섯째, 한국 시장은 항상 별도 lens가 필요하다. 글로벌 분석을 그대로 한국에 적용하면 거의 항상 어긋난다. 망분리, 변호사법, AI 기본법, 한국어·한국 법률 도메인 특이성, 판례 공개 체계의 차이, 변호사 배상책임 시장의 미성숙 — 이 변수들이 모이면 한국 시장은 글로벌과 다른 구조를 만든다. 변호사로서, 그리고 SaaS 운영자로서 가장 중요한 분석 layer는 결국 여기다.

Mike OSS 사태가 가르쳐준 가장 중요한 교훈은, 어떤 한 도구가 파이프라인 한 지점에 등장했다는 사실 자체가 아니라, 그게 우리에게 시장 전체 구조를 다시 그릴 기회를 줬다는 것이다. 그리고 댓글 스레드를 깊이 따라가서 얻은 추가 교훈은, 사람들이 일반적으로 가정하는 vendor 가치 제안 자체가 실제 사실관계와 다를 수 있다는 것이다 (Harvey/Legora가 fine-tune한다는 흔한 가정처럼). 다음 발화점이 또 어디서 나올지 모르지만, 그때도 같은 질문을 다시 던지면 된다 — 정확히 무엇이 어디에 있는 도구인가, 우리가 사는 게 무엇인가, 라이선스는 무엇인가, “wide open”의 실체는 무엇인가, 한국에서는 어떻게 다른가.

recent posts

search

댓글 남기기 응답 취소

recent posts

search