많은 조직이 데이터 문제를 이야기할 때 가장 먼저 연결부터 떠올린다. 광고 데이터와 CRM을 붙이고, 웹 행동 데이터와 구매 데이터를 합치고, 앱 이벤트와 오프라인 전환을 한 화면에서 보려고 한다. 물론 이런 연결은 중요하다. 하지만 실무에서는 연결 기술보다 더 먼저 정리해야 할 것이 있다. 바로 데이터 정의다. 더 정확히 말하면, 우리 조직이 동일 고객을 무엇으로 보고 어떻게 셀 것인지에 대한 기준이다.
이 기준이 없는 상태에서 데이터를 연결하면 숫자는 많아지지만 해석은 더 어려워진다. 예를 들어 어떤 고객이 광고를 클릭해 웹사이트를 방문하고, 며칠 뒤 다른 기기에서 회원가입을 하고, 이후 오프라인 매장에서 구매했다고 가정해 보자. 이 사람을 한 명의 고객으로 볼 것인가, 방문자 한 명과 회원 한 명, 구매자 한 명으로 나눠 볼 것인가에 따라 성과 해석은 완전히 달라진다. 연결은 되었는데 정의가 없으면, 같은 사람을 세 번 세는 일이 자연스럽게 벌어진다.
특히 마케팅, CRM, 영업, 데이터팀이 각자 다른 기준을 쓰면 문제가 커진다. 마케팅팀은 쿠키나 광고 식별자를 기준으로 사용자를 보고, CRM팀은 이메일이나 휴대전화 번호를 기준으로 고객을 본다. 영업팀은 계약 단위로 관리하고, 데이터팀은 내부 회원 ID를 기준으로 분석할 수 있다. 이때 모두가 ‘고객 수’를 말하고 있어도 사실은 서로 다른 대상을 세고 있는 셈이다. 같은 단어를 쓰지만 다른 숫자가 나오는 이유가 여기에 있다.
그래서 데이터 연결보다 먼저 해야 할 일은 고객 정의의 우선순위를 세우는 것이다. 익명 방문자, 리드, 회원, 구매 고객, 재구매 고객 중 어떤 단계에서 동일성을 인정할 것인지 정해야 한다. 또한 기준 키도 정해야 한다. 브라우저 쿠키를 기준으로 볼지, 로그인 ID를 기준으로 볼지, 해시된 이메일이나 내부 고객 ID를 기준으로 볼지에 따라 분석 결과는 크게 달라진다. 어느 기준이 더 맞느냐의 문제가 아니라, 어떤 의사결정을 위해 어떤 기준을 공식 정의로 채택할 것이냐의 문제다.
이 정의가 중요한 이유는 성과 지표 전체에 영향을 주기 때문이다. CAC, 리드당 비용, 재구매율, 전환율, LTV 같은 핵심 지표는 모두 ‘누구를 한 명으로 볼 것인가’ 위에 세워진다. 동일 고객 정의가 흔들리면 전환율은 과대 계산되거나 축소되고, 리텐션도 왜곡된다. 캠페인 효율 비교 역시 정확할 수 없다. 연결이 많을수록 정밀해질 것 같지만, 기준이 없으면 오히려 같은 고객을 중복 집계하는 구조가 된다.
실무에서는 기술 구현보다 합의 문서가 먼저다. 고객 식별 기준, 병합 규칙, 대표 ID, 예외 처리 원칙을 문서로 정하고 부서 간에 공유해야 한다. 예를 들어 비로그인 상태에서는 디바이스 기준으로 보되, 로그인 이후에는 회원 ID로 통합한다거나, 오프라인 구매는 해시된 연락처가 일치할 때만 기존 고객과 병합한다는 식의 원칙이 필요하다. 이 정의가 있어야 데이터 파이프라인도 흔들리지 않고, 리포트도 일관성을 가진다.
결국 데이터 연결은 기술의 문제지만, 동일 고객을 어떻게 볼 것인가는 비즈니스의 문제다. 그리고 비즈니스 문제를 먼저 정의하지 않으면 기술은 정답을 만들지 못한다. 데이터를 잘 연결하는 팀보다, 고객을 먼저 정확히 정의하는 팀이 더 좋은 분석과 더 나은 의사결정을 만든다. 데이터 연결보다 데이터 정의가 먼저인 이유는 바로 여기에 있다.