리걸테크의 한 주 — Mike OSS, 그리고 그 너머의 layer

지난 2주 동안 글로벌 리걸테크 커뮤니티가 시끄러웠다. 출발점은 GitHub에 올라온 한 오픈소스 프로젝트였고, 그게 LinkedIn, Hacker News, 업계 매체로 번지는 동안 두 가지 다른 논쟁이 동시에 일어났다.

첫 번째 논쟁은 Mike OSS라는 도구 자체에 대한 것이었고, 두 번째 논쟁은 “그래서 진짜 가치는 어디에 있는가”라는 질문이었다. 이 글은 두 논쟁을 한국 변호사 관점에서 정리하면서, 두 논쟁이 모두 놓친 것까지 짚어보려 한다.


1. 사건의 시작 — Mike OSS

전직 Latham & Watkins 어소시에이트 Will Chen이 2주 동안 만든 웹 애플리케이션을 GitHub에 오픈소스로 공개했다. 이름은 Mike. 데모 사이트는 mikeoss.com. LinkedIn 출시 글에 그가 쓴 표현이 분위기를 결정지었다 — Harvey($11B 가치)와 Legora($5.5B 가치)의 웹 애플리케이션을 본인이 2주 만에 빌드해서 무료로 풀었다는 것.

72시간 안에 GitHub 스타 1,000개를 넘겼고, Legal IT Insider는 리걸테크 사상 최고 채택 속도라고 보도했다. 일주일 뒤에는 별 2.3천, 포크 600개를 넘겼고, Korea, Netherlands, Switzerland, Austria 버전 fork가 줄줄이 등장했다.

Mike가 정확히 무엇인가

여기서 첫 번째 demystification이 필요하다. Hacker News 댓글에 깔끔하게 정리한 사람이 있었다 — 사람들이 처음에는 “오픈소스 법률 LLM”이라고 오해했는데, 실제로는 메이저 LLM 제공자(Claude, Gemini)를 감싸고 법률 워크플로우를 정리한 웹 앱이라는 것.

이게 중요한 이유는, “Harvey를 2주 만에 만들었다”는 표현이 만드는 인상과 실제 기술 구조가 다르기 때문이다. Mike가 한 일은:

  • LLM API를 호출하는 프론트엔드·백엔드 (Next.js + Express)
  • 문서 업로드·관리 (Supabase + S3 호환 스토리지)
  • 표 형태로 수십~수백 문서를 일괄 추출하는 tabular review
  • DOC/DOCX↔PDF 변환 (LibreOffice)
  • 이 위에 얹은 법률 워크플로우 프리셋

LLM 자체는 사용자가 자기 Anthropic 또는 Google API 키를 입력해서 쓴다 (BYOK 방식). 즉 Mike가 한 건 “법률 도메인 LLM 학습”이 아니라 “기존 LLM을 법률 업무 흐름에 맞게 정리한 인터페이스”다. 이건 결코 나쁘다는 뜻이 아니다 — 잘 만든 인터페이스도 가치가 있다. 다만 정확히 이게 무엇인지 분리해서 봐야 다음 논의들이 의미 있어진다.

변호사 입장에서 가장 중요한 부분 — AGPL-3.0

기술 얘기보다 한국 변호사 입장에서 더 중요한 건 라이선스다. Mike는 일반 GPL이 아니라 AGPL v3를 채택했다. 둘의 차이는 §13 “network use” 조항에 있다.

GPL은 소프트웨어를 “배포(distribute)”하는 시점에 소스코드 공개 의무가 발동한다. 즉 GPL 소프트웨어를 고쳐서 내부에서만 쓰면 의무가 없다. AGPL은 한 단계 더 나간다 — 소프트웨어를 네트워크 너머의 사용자에게 제공하는 것 자체를 “배포”로 간주한다.

이걸 Mike에 적용하면:

  • 로펌이 자체 인트라넷에 호스팅하고 자기 변호사들만 쓴다 → 수정 사항 비공개 가능
  • 로펌이 클라이언트 포털을 만들어서 클라이언트가 Mike에 접속하게 한다 → AGPL §13 발동, 그 클라이언트에게 수정한 소스코드 공개 의무 발생

Will Chen 본인이 인터뷰에서 이걸 명확히 정리했고, 이게 의도된 설계라고 밝혔다 — 큰 벤더가 Mike를 가져다가 살짝 고쳐서 SaaS로 클라이언트에 되파는 시나리오를 막는 장치라는 것.

한국 변호사들이 흔히 가지는 잘못된 가정이 “오픈소스 = 자유롭게 변형해서 사용 가능”인데, AGPL은 그 가정을 부분적으로 깬다. 인하우스 변호사가 자기 회사 클라이언트 포털에 Mike 기반 도구를 통합하려고 한다면, 라이선스 의무가 자동으로 따라온다는 점을 알아야 한다. (Will Chen은 더 permissive한 라이선스로 변경 검토 중이라고도 했으니, 이건 모니터링 포인트다.)

Mike의 객관적 한계

화제성 너머에 한계도 분명하다.

첫째, case law 데이터베이스가 없다. Hacker News에서 한 변호사 댓글이 핵심을 짚었다 — 변호사가 비싼 돈을 내는 진짜 이유는 AI가 검증된 case law DB에 접근할 수 있게 해주는 거라고. Westlaw, Lexis, Thomson Reuters는 law reporting 회사들과의 독점 계약으로 entrenched된 위치에 있다. Mike는 공개된 판례만 쓸 수 있고, 정확한 legal research가 필요한 업무에는 부적합하다.

한국에선 이게 더 까다롭다. 한국은 미국·영국과 달리 판례 공개 자체가 제한적이다. 대법원 판결도 일부만 공개되고, 하급심은 매우 제한적이다. 케이스노트·로앤비 같은 사기업이 commercial DB를 운영한다. Mike-KR (박경호 / pkh31337)이 한국 국가법령정보센터 통합을 시도했는데, 이건 좋은 시도지만 commercial DB 통합 없이는 실용성에 한계가 분명하다.

둘째, 성숙도 격차가 크다. Mike는 출시 일주일 된 prototype이고, Harvey는 2022년부터, Legora는 2023년부터 production이다. Harvey는 2026년 3월 기준 100,000+ 변호사·1,300+ 조직이 사용 중이라고 공식 발표했다. 이 격차는 단순히 시간이 지나면 좁혀지는 게 아니라, RLHF·도메인 튜닝·고객 피드백 누적 같은 내재된 자산을 의미한다.

셋째, “documents never leave your perimeter” 주장의 미묘한 약점. 핵심 LLM 호출은 어차피 Anthropic 또는 Google API로 나간다 (BYOK라서 사용자 본인 약관이지만, 외부 API 호출 자체는 사실). Supabase 의존성도 있다 — Supabase Cloud를 쓰면 데이터가 거기로 가고, 자체 호스팅 Supabase를 쓰면 운영 부담이 늘어난다.

여기까지가 Mike에 대한 1차적 사실관계다. 이제 진짜 흥미로운 두 번째 논쟁으로 넘어가자.


2. 첫 번째 논쟁 — Interface vs. Integration

Mike 출시 직후 업계 매체와 LinkedIn에서 가장 많이 인용된 평가는 Legal IT Insider의 한 줄이었다. Mike는 Harvey나 Legora를 죽이는 제품이 아니라, 갱신 협상의 프레이밍을 바꾸는 도구라는 것. 즉 “이게 마법인가”라는 질문이 “정확히 무엇에 대해 enterprise 가격을 내고 있는가”로 바뀐다는 것.

이 흐름에서 두 가지 입장이 갈렸다.

입장 A: Mike가 보여준 건 인터페이스 자체는 commodity라는 사실이다. Harvey와 Legora의 enterprise 가격은 인터페이스가 아니라 그 위에 얹힌 모든 것에 대한 비용이다 — case law DB 접근권, document management system과의 deep integration, 특정 practice에 맞춰 configure된 workflow agent, 로펌 내부에서 실제로 작동하게 만드는 embedded engineering team. 이 논리에 따르면 오픈소스 클론은 demo에 불과하고 실제 경쟁자가 아니다.

입장 B: 그래도 Mike의 등장은 이미 시장 가격에 압력을 주기 시작했다. 갱신 미팅의 톤이 바뀐다는 것 자체가 협상 비용을 변화시킨다. SMB 펌이나 중견 인하우스에는 실제 도구로 쓸 수 있다.

두 입장 다 일리가 있고 사실 충돌하지 않는다. Harvey의 가격이 “단지 인터페이스 값”이 아닌 것도 사실이고, Mike가 시장 가격 정당성에 압력을 준 것도 사실이다.

여기서 Will Chen 본인이 인터뷰에서 한 분석이 가장 정확한 framing에 가깝다 — Mike 같은 단순 래퍼는 결국 distribution 이점을 가진 거대 플레이어들이 직접 흡수하게 되고, 고유한 가치 제안과 firm-wide 채택을 만든 thick wrapper만 장기적으로 살아남는다는 것. Microsoft, Anthropic, OpenAI 등이 같은 카테고리에 직접 진입하는 흐름과 정확히 맞물리는 분석이다.

이 논쟁이 내가 본 첫 번째 논쟁이었다. 그런데 며칠 뒤, 다른 발화점이 나타났다.


3. 두 번째 발화 — “그 아래에 더 큰 layer가 있다”

Cisco·Spotify·Netflix에서 12년간 Legal Ops를 한 사람이 LinkedIn에 글을 올렸다. 요지는 이렇다.

Mike·Harvey·Legora를 둘러싼 논쟁 — interface가 비싼지, integration이 비싼지 — 둘 다 같은 layer를 두고 다투고 있다는 것. 그 layer는 pre-signature 작업이다. 즉 계약 초안 작성, 리서치, 문서 검토. 투자금이 가장 시끄럽게 흐르고 있는 영역이지만, 변호사 업무 전체로 보면 narrow slice라는 것.

저자의 핵심 주장: 정작 institutional risk와 value는 체결된 이후의 계약에 있다는 것이다. 자기가 12년간 인하우스에서 받은 질문은 거의 한 번도 “어떤 drafting tool을 쓸까”가 아니었다고 했다. 거의 항상 “우리가 이미 무엇을 약정했나, 언제 갱신되나, 어디에 익스포저가 있나, 3년 전 계약에 묻혀있는 조항이 무엇인가”였다는 것.

Cisco에서는 수백만 건의 계약이 repository에 쌓여있고, 거기엔 의무이행, 갱신, indemnity, 가격 에스컬레이터, counterparty에 대한 약정이 들어있는데, 이걸 실용적으로 다룰 수 있는 소프트웨어가 거의 없었다고 했다.

저자의 결론: 리걸 AI의 진짜 defensibility는 인터페이스도, 벤더가 템플릿으로 제공하는 configuration playbook이나 clause library도 아니다. 체결 이후에 쌓이는, 가장 크고, 가장 지저분하고, 가장 손대지 않은 구조화된 계약 데이터를 소유하는 것에서 나온다는 것. 어플리케이션 layer는 commoditize되는 중이지만, 그 아래의 데이터 layer는 여전히 “wide open”이라는 것.


4. 검증 — “Wide open”이 정말 사실인가

이 글은 LinkedIn에서 광범위하게 공유됐다. 인하우스 출신의 12년 경력, 구체적인 회사 이름(Cisco·Spotify·Netflix), 명료한 framing — credibility 신호가 강하다.

그런데 마지막 한 줄, “data layer is still wide open”은 시장 실태와 충돌한다.

체결 이후 계약을 다루는 영역은 CLM(Contract Lifecycle Management)이라는 이름으로 이미 성숙한 카테고리다. 시장 규모는 2025년 기준 $1.24 billion, 2026~2034 CAGR 13% 전망이다. Forrester Wave CLM Q1 2025 Leaders로 Icertis, Ironclad, Sirion, Agiloft가 지정됐다. Gartner Magic Quadrant for CLM 2024에는 여기에 DocuSign이 추가됐다.

저자가 말하는 “구조화된 계약 데이터 소유 = 진짜 moat” 영역에 정확히 빌드된 회사들이 이미 존재한다. 예를 들어:

  • Sirion은 Store/Create/Manage 3단계 agentic 아키텍처로 구성되어 있고, Manage 단계에서 의무이행 추적, 컴플라이언스 모니터링, 인보이스를 계약 조항과 reconcile해서 value leakage를 방지하는 게 핵심 가치 제안이다.
  • Pramata는 clean data repository에 특화됐다.
  • LinkSquaresEvisort는 대용량 legacy 계약 인제스트와 의무·리스크 추출을 강점으로 한다.

M&A 활동도 활발하다. Evisort는 2024년 1월 Workday에 약 $385M로 인수됐고, 현재 Workday Contract Intelligence와 Workday CLM의 핵심 엔진이다. Conga는 2026년 2월 PROS Holdings의 B2B 사업부를 인수해서 AI 기반 가격 인텔리전스를 자기 CLM·문서 자동화 플랫폼에 통합했다. Lexion은 2024년 DocuSign에, Kira Systems는 2021년 Litera에 인수됐다.

성숙한 카테고리에서 일어나는 통합 M&A 패턴이다. “wide open”이 아니라 “consolidating”이라고 표현하는 게 더 정확하다.


5. 그렇다면 정확한 framing은 무엇인가

저자의 직관 자체는 흥미로운 면이 있다. 단지 표현이 과했을 뿐이다. 더 정확한 framing은 “wide open”이 아니라 “LLM이 기존 moat를 reset하는 중”이다.

Old moat (2015~2023): Kira Systems, Eigen Technologies, Evisort 같은 회사들이 7~10년에 걸쳐 도메인 specific NLP·clause extraction 모델을 트레이닝해서 만든 자산. 변호사들이 라벨링한 학습 데이터, 도메인 ontology, 정확도 검증 절차.

LLM disruption (2023~): GPT-4·Claude 같은 일반 LLM이 zero-shot 또는 few-shot으로 그 추출 정확도에 근접하거나 추월. 즉 “추출 자체”의 진입장벽이 낮아짐.

New moat candidates:

  1. 고객 contract repository에 대한 종합 인덱싱·메타데이터·관계 그래프 (depth와 신뢰성)
  2. ERP/CRM(Salesforce, SAP, Workday) 깊은 양방향 통합
  3. 인보이스·결제·갱신 워크플로우와의 연결 (revenue leakage 방지)
  4. 산업별 playbook과 의무이행 규칙

Legal Ops 저자가 가리키는 방향이 이쪽이다. 다만 “wide open”이 아니라, 기존 incumbent의 moat가 LLM 등장으로 부분적으로 약해진 상태에서 새로운 진입자에게 일시적 윈도우가 열린 것이라고 표현하는 게 정확하다. 그 윈도우도 빠르게 닫히는 중이다 — Workday/Evisort 통합, Ironclad의 2026년 1월 Conversational AI 인터페이스와 갱신 추적용 AI 대시보드 출시 등이 그 신호다.

여기서 한 가지 더 짚을 게 있다. 저자가 말하는 “구조화된 계약 데이터 소유”의 모호함이다. 고객의 계약은 고객 자산이지 벤더의 자산이 아니다. 벤더가 “소유”하는 건 추출 도구·구조·시스템이지 데이터 그 자체가 아니다. Cross-customer 학습은 confidentiality 때문에 제약된다. “data ownership”이라는 표현이 vendor의 cross-customer 인사이트 누적을 의미하는지, 고객별 silo의 분석 능력을 의미하는지 — 이 모호함이 글의 가장 큰 약점이다.


6. 한국 변호사 관점에서

여기서부터 글로벌 분석을 한국 시장에 가져오는 단계다.

한국 시장은 글로벌과 비대칭적으로 미성숙

글로벌 CLM은 성숙·통합 단계에 있지만, 한국 시장은 다르다. 한국 인하우스 법무팀의 실제 페인포인트를 떠올려보면:

  • 표준계약서·NDA·SLA가 분산 관리된다 (이메일, 공유드라이브, 개별 PC)
  • 갱신·만료 관리는 수동, 엑셀 시트로 한다
  • 인수합병이나 실사 시 contract repository가 빈약해서 due diligence 비용이 폭증한다
  • 대기업조차 Ironclad·Icertis 같은 글로벌 솔루션 도입이 본격적이지 않다

이건 글로벌 CLM 카테고리가 “wide open”이라는 뜻은 아니다 — 한국 시장의 SaaS 도입 자체가 늦은 결과다. 그렇지만 한국 인하우스 입장에서 보면, 글로벌 솔루션은 한국어와 한국 법률 문서 구조에 적합하지 않고, 로컬 솔루션은 아직 미성숙하다는 사이의 공백이 분명히 존재한다.

망분리와 self-hosted 옵션

한국 금융권·공공기관·일부 대기업이 망분리 환경이라 SaaS CLM 도입에 구조적 제약이 있다. 이 맥락에서 Mike 같은 self-hosted 옵션은 미국보다 한국에서 더 매력적일 수 있다. 다만 self-hosted CLM이 곧장 Mike OSS로 풀린다는 뜻은 아니다 — Mike는 pre-signature 도구지 CLM이 아니다. 둘은 다른 카테고리다.

변호사법과 AI 도구 사용

한국 변호사가 AI 도구를 쓸 때 고려해야 할 법적 framework이 적어도 세 가지 있다.

첫째, 변호사법 §26-2 (비밀유지의무). 클라이언트 confidential 정보를 외부 AI 서비스에 보내는 것이 비밀유지의무 위반이 되는지에 대한 명확한 판례는 아직 없다. 미국에선 최근 United States v. Heppner 사건에서 AI 챗봇이 attorney-client privilege나 work product doctrine을 깰 수 있다는 판시가 있었다고 보고된다. 한국에선 별도 분석이 필요하지만, 일단 self-hosted + local LLM 조합이 SaaS 형태보다 비밀유지 측면에서 안전한 쪽이라는 건 일반론으로 말할 수 있다.

둘째, AI 기본법 (2026.1.22 시행). 외국 AI 사업자에 대한 국내 대리인 지정 의무, 안전성 보고 의무, 이용자 통지 의무 등이 적용된다. 로펌이 외부 AI 서비스를 자기 제품·서비스에 내장해서 클라이언트에게 제공한다면, 자기가 단순 사용자인지 AI 사업자에 가까운 위치인지 검토해야 한다.

셋째, AGPL §13의 한국법 해석. 라이선스가 “계약”으로서 한국법상 어떻게 해석되는지, 약관규제법 적용 여부, 저작권법상 2차적저작물 작성권 침해 가능성 등이 별도 분석 영역이다. AGPL이 한국 법원에서 명시적으로 해석된 사례는 많지 않다.

한국에서 실제로 의미 있는 sub-카테고리

종합하면, 한국 변호사가 실무로 활용 가능성이 높은 sub-카테고리는 이렇게 정리된다:

카테고리글로벌한국비고
Pre-signature drafting/review성숙 (Harvey, Legora, Mike 등)도입 초기한국어 적합성, case law DB 통합이 변수
Post-signature CLM성숙·통합 단계미성숙self-hosted·on-prem 옵션이 한국에서 매력적
Korean case law / 법령 자동화n/aLBox, 케이스노트, 로앤비한국어·한국 법률 도메인 특화
특허·상표·등기 자동화산재한국 특화 도구들 존재별도 분석 필요

한국에서 “data layer가 wide open”이라고 말할 수 있는 영역은 글로벌과 비대칭적으로 더 크지만, 그것도 LBox 같은 회사가 한국어 legal 벤치마크(KBL)를 만들면서 도메인 특화로 채워나가는 중이다.


7. 정리 — 변호사로서 가져갈 4가지 질문

이 2주의 논쟁에서 변호사이자 운영자로서 내가 챙겨가는 질문은 네 가지다.

첫째, 실제로 무엇이 어디에 있는 도구인가. “Mike가 Harvey를 죽인다”는 헤드라인은 기술 구조를 흐린다. Mike는 LLM 래퍼(wrapper)다. Harvey/Legora는 LLM 래퍼 + 통합 + RLHF + 운영 + 영업 조직이다. CLM은 또 다른 카테고리다. 헤드라인을 disambiguate하지 않으면 잘못된 비교가 의사결정으로 이어진다.

둘째, 라이선스를 읽고 시작하라. AGPL-3.0의 §13 network use 조항은 한국 변호사가 흔히 모르고 지나가는 함정이다. 인하우스 법무가 자기 회사 클라이언트 포털에 오픈소스 도구를 통합하기 전에, 그 라이선스가 무엇인지 정확히 확인해야 한다. “오픈소스 = 자유”라는 가정은 부분적으로 틀렸다.

셋째, “wide open”은 다음 단계 검증이 필요한 표현이다. 어떤 시장이 “wide open”이라는 주장을 들으면, 그게 실제로 미점유인지, 아니면 화자가 incumbent를 무시하거나 자기 카테고리를 띄우는 중인지 분리해서 검증해야 한다. CLM은 wide open이 아니다. 한국 CLM은 글로벌보다는 더 열려있지만, 그것도 빠르게 채워지는 중이다.

넷째, 한국 시장은 항상 별도 lens가 필요하다. 글로벌 분석을 그대로 한국에 적용하면 거의 항상 어긋난다. 망분리, 변호사법, AI 기본법, 한국어·한국 법률 도메인 특이성, 판례 공개 체계의 차이 — 이 변수들이 모이면 한국 시장은 글로벌과 다른 구조를 만든다. 변호사로서, 그리고 SaaS 운영자로서 가장 중요한 분석 layer는 결국 여기다.

Mike OSS 사태가 가르쳐준 가장 중요한 교훈은, 어떤 한 도구가 파이프라인 한 지점에 등장했다는 사실 자체가 아니라, 그게 우리에게 시장 전체 구조를 다시 그릴 기회를 줬다는 것이다. 다음 발화점이 또 어디서 나올지 모르지만, 그때도 같은 질문을 다시 던지면 된다 — 정확히 무엇이 어디에 있는 도구인가, 라이선스는 무엇인가, “wide open”의 실체는 무엇인가, 한국에서는 어떻게 다른가.



Discover more from PARKSEHEE BLOG

Subscribe to get the latest posts sent to your email.

Posted in ,

댓글 남기기

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.