December 31, 2023

어수선한 데이터 속, '본질적 구조'를 파악하는 AI

Hyoeun Lee

Insight

300만 페이지 속에 숨겨둔 진실을 찾아

2026년 1월 300만 페이지의 엡스타인 파일이 추가로 공개되며, 엡스타인과 관련된 의혹은 더 뜨거워 지고 있습니다. 엡스타인 사건은 우리가 모두 아는 역사적 인물이 끝도 없이 등장한다는 점에서, 그리고 그렇게 이름이 언급되는 많은 사람들이 역사속의 인물이 아니라 아직도 살아있는 ‘living’ 전설들이라는 점에서, 많은 사람들의 관심을 끌기에 충분합니다. 하지만 어딘가 감질맛 나는 자료 공개 때문에 계속 관심이 더 커지고 의혹도 더 커지는 것 같습니다.

이 구린내 나는 사건은 수 많은 기사와 증언, 추측과 폭로 속에서 지난 몇 년간 전세계적으로 소비되어 왔습니다. ‘Epstein’이라는 키워드로 찾을 수 있는 YouTube 영상만 해도 대략 50만 개 이상이 된다고 하네요. 다만, 앞서 말한 것처럼 ‘유명인’들의 개별 사건을 중심으로 ‘누가 그랬다더라’ ‘어머 그 양반도?’ 같은 방식으로 소비 되어 왔는데요. 이것 또한 사건의 진실을 찾아 나아가는 훌륭한 과정이나 이 거대하고 구조적인 사건을 유명한 개인들의 ‘일탈’처럼 소비하기에는 좀 아쉽습니다. 사실은 더 큰 구조적인 착취와 진실이 있는 것처럼 보이거든요.

‍

엡스타인 사건을 다루는 공개 프로젝트들

의회에서 공개한 엡스타인 파일은 매우 방대한 양이지만, 조각나 있는 데이터 들입니다. 정제 되어 있지 않을 뿐만 아니라 의도적으로 가려져 있는데요. 이 ‘의도적인 훼방’을 제대로 파헤쳐 보려는 레딧인들의 공개 프로젝트를 공유합니다.

1. Epstein Visulizer

레딧(Reddit)의 한 개발자는 의회에서 공개한 엡스타인 관련 이메일 덤프를 기반으로 원문 텍스트에서 인물 간 관계를 추출해 내는 프로젝트를 진행하고 있습니다.

Anthropic의 Claude AI가 문서를 읽고 ‘누가-무엇을 했다-누구에게’와 같은 형태로 관계를 정리
뽑아낸 수만 개의 정보를 비슷한 것끼리 자동으로 묶어주는 알고리즘 적용(K-means)하여 군집화
뽑아낸 관계 지도를 시각화

epsteinvisulizer.com에서 시간, 인물, 키워, 태그로 필터링해서 특정 인물과 그 인물의 주변 관계를 찾아낼 수 있고, 인물을 클릭하면 원본 문서를 조회할 수 있습니다.

이 프로젝트는 현재 GitHub Epstein doc explorer에서 누구나 기여할 수 있는 오픈소스 프로젝트로 운영되고 있으며 코드도 모두 공개되어 있습니다. 개발자라면 현재 열려 있는 이슈를 확인해서 문제를 해결하는 방식으로 기여할 수 있고, 비개발자도 버그나 잘못된 내용에 대한 신고 등을 함으로써 기여할 수 있는 방법이 열려 있습니다.

‍

2. epsteingraph.com

레딧의 또 다른 개발자는 앞선 epsteinvisualizer.com 보다 더 큰 규모의 데이터를 가지고서 인물 관계도를 찾아볼 수 있는 프로젝트를 공개했습니다. 개발자는 이 프로젝트를 단 6일 만에, 약 400만원의 AI 비용으로 개발을 진행했다고 이야기 하는데요.

문서 132만건, 2,291개의 영상과 152개의 오디오로 AI로 텍스트로 변환해 분석
GPT-5로 인물, 기관, 장소 등 238,000개의 엔티티를 추출하고 요약을 생성
사용자는 인물, 장소 등을 검색하고 그들이 등장하는 문서 및 타임라인 등을 확인

자신은 ‘초대는 받았지만 가지 않았다’고 주장하는 ‘일론 머스크(Elon Musk)’를 한번 검색해 보았습니다. 흠. 1,188개의 문서가 튀어 나왔습니다.

‍

DOJ가 해야 할 일을 레딧인들이 해내었도다

크게 공감하는 바입니다.

‍

무엇이 달라졌는가? 기술 희망편

진실 보도와 탐사의 영역이 민간인에게도 열렸다

‍

물론 데이터가 제대로 공개가 된다는 전제 하에서 유효 하겠습니다만, LLM이라는 무겁고 비싼 도구를 누구나 사용할 수 있는 시대에 도래했기 때문에 그래도 ‘분노한 일반인’들이 이런 분석을 하고 기여를 할 수 있는 세상이 되지 않았나 싶습니다.

특히 두 번째 프로젝트는 첫 번째 프로젝트보다 군집화의 정교함에서는 약간 부족함이 있을 수 있지만, 더 많은 데이터를 가지고서 단 6일 만에 개발을 완료했다는 점에서, 기술의 쓰임에 대한 희망을 소소하게 품게 만듭니다.

방금 전에 살펴봤던 레딧인들의 대화를 좀 더 살펴보겠습니다.

‍

‍

→ DOJ가 해야 할 일을 레딧인들이 여기서 하고 있네..

→ 내 말이. 제일 먼저 했었어야 할 일이 바로 그거지. 모든 자료를 디지털화하고, 데이터 소스로 모아 넣은 다음에, “인류를 대체하고 모든 문제를 해결해 줄 것” 이라고 비싸게 팔던 그 장난감들(AI)이 실제로 가치 있는 일을 하게 했어야지. 어디엔가 아직도 검열되지 않은 원본 데이터가 있을거야. 나는 정의로운 누군가가 그 모든 데이터를 LLM 시스템에 집어넣어서 모든 것을 폭로해 주기를 기다리고 있을 뿐이야.

‍

하지만 데이터가 정의 구현을 해 주는 건 아니잖아?

시각화된 데이터가 사람들이 은폐하고자 애를 쓰는 범죄 증거를 찾고, 그들을 기소하진 못할 겁니다. 그냥 어수선한 문서들을 보기 좋게 만든거 아니야? 라고 말할 수 있지만 네트워크 시각화는 단순하게 예쁜 정보를 만들어 내는 기술이 아닙니다. 도파민을 자극하던 '유명인의 일탈에 대한 가십' 속의 진짜 문제를 모두가 동일하게 인식할 수 있게 합니다.

그 동안 보이지 않았던 권력들의 연결망
흩어진 범죄의 반복 패턴
개별 사건으로 축소되던 불평등과 착취의 시스템적 구조

‍

데이터 수집의 시대에서, 구조화의 시대로

LLM, 개인이 데이터의 구조화에도 기여할 수 있게 만든 핵심 열쇠

LLM 이전의 시빅 해킹 프로젝트에서 개인들은 데이터의 구조화 보다는 데이터를 모으고 정제하는데 기여도가 클 수 밖에 없었습니다. 물론, 흩어진 데이터를 모으고 이를 정제하는 일은 지금도 구조화 보다 먼저 선행되어야 하고 더 중요한 일이 되었습니다.

LLM(a.k.a. 인류를 구원하고 대체할 비싼 장난감)은 이제 이 데이터를 구조화하는 일에 개인의 차원에서도 유용하게 쓰일 수 있고, 데이터를 정제의 어려움도 많이 해결해 주고 있습니다.

데이터를 구조화하여 진짜 구조를 파악하는 것들이 탐사보도 그룹들만 해 낼 수 있는 일이었지만, 이제는 우리도 시도해 볼 수 있는 일이 되었습니다.

데이터는 이미 있습니다. 우리는 무엇을 밝혀내고 싶은가요?

‍

[News] AI for Good 2025 Summit

Insight