가설 검증에 유의미하게 사용할 수 있는 컬럼 요소들이 많아서 이 데이터셋을 선정하게 되었다.
해당 데이터에서는 회원 별 총 거래수, 총 거래액, 1회 거래 평균 거래액, 첫 구매일, 최근 구매일, 평균 구매일간 간격, 최근 구매 이후 지난 날짜, 요일별 거래 수, 요일별 거래 액, 주차별 주문 수, 주차별 거래 액 등을 제공하고있다.
📑가설 설정
이 데이터를 통해 입증하고자하는 세가지 가설은 다음과 같다.
💡평균 구매일간 간격이 작은 사람은 1회 거래 평균 거래액이 낮을 것이다. 💡수요일의 거래량이 많을 것이다. 💡첫 구매일과 최근 구매일의 차이가 큰 사람의 평균 구매일간 간격은 작을 것이다.
이 세가지 가설들을 통해 데이터를 통해 확인해보자
📑가설 검증.. 근데 이제 데이터 분석을 곁들인...
가설 1 ) 평균 구매일간 간격이 작은 사람은 1회 거래 평균 거래액이 낮을 것이다.
평균 구매일간 간격이 작다라는 것은 자주 물건을 구매한다는 뜻이다. 자주 물건을 구매하는 사람이라면 한번에 몰아서 구매를 하는 사람 혹은 비싼 물건을 마음 먹고 구매하는 사람보다는 1회 거래 평균 거래 액이 작을 것이라고 생각했다. 이를 비교하기 위해서 평균 구매일간 간격을 기준으로 1회 거래 평균 거래액 분포를 나타내 보았다.
이때 x축은 평균거래일간 간격(AVGDAYBETWEENORDERS)이고 Y축은 1회 거래 평균 거래액(AVERAGE_ORDER_VALUE)으로 설정하고 각 사용자간 분포를 정리하였다. 노란색 파티클은 각 사용자들의 분포를 의미하며 파란선은 파티클 분포의 추세선을 의미한다. 가장 상단부터 평균 거래 간격이 0일 ~30일, 30일~60일, 150일~300일을 나타내고 있다.
구글 데이터스튜디오에서 한번에 모든 데이터 양을 담아낼 수 없어서 그래프를 나누어 확인하였다.
거래 간격이 0일부터 300일까지 확인했을떄 별다른 추세에 변화가 없음을 알 수 있다.
이 데이터를 통해 평균거래 간격과 평균 거래 금액사이에 큰 연관이 없음을 확인할 수 있었다.
가설 2 ) 수요일의 거래량이 많을 것이다.
대부분의 사람들은 직장을 다니며 월요일부터 금요일까지 일을 하고 주말엔 휴식을 취한다. 그렇다면 이 일주일 중에 가장 소비가 많이 일어나는 요일은 언제일까? 직장인들의 소비는 가장 힘들고 가장 보상심리가 많이 드는날에 가장 많이 일어날것이라고 생각했다. 그래서 일주일에 꼭대기인 수요일에 거래량이 가장 많을 것으로 예상했다. 그리고 주말엔 택배가 쉬니까 이번주에 물건을 받으려면 수요일이 마지노선이라 생각하는데 그런 이유에서도 수요일에 거래양이 많지 않을까? 데이터를 통해 확인해보자
이를 비교하기 위해 x축엔 요일을 y축엔 요일별 거래 총량을 넣어 꺽은선 그래프로 데이터를 시각화하였다.
그래프를 보면 수요일이 아닌 목요일에 가장 거래량이 많음을 확인할 수 있었다.
가설 3 ) 첫 구매일과 최근 구매일의 차이가 큰 사람의 평균 구매일간 간격은 작을 것이다.
첫 구매일과 최근 구매일의 차이가 큰사람이라는 것은 무엇을 의미할까? 이 서비스를 오래 사용한 사람 이라고 생각할 수 있다. 이 서비스를 오래 사용한 사람이라면 다른 커머스 서비스보단 해당 서비스를 주 커머스 앱으로 사용하여 더 자주 사용할 것이라고 생각해 이와 같은 가설을 설정하였다.
이를 비교하기 위해서 최근 구매일 - 첫구매일 을 구해서 이를 x축으로 두고 평균 구매일간 간격 분포를 나타내 보았다. 노란색 파티클은 각 사용자들의 분포를 나타내며 파란색 실선은 파티클 분포의 추세를 나타낸다. 상단의 그래프는 첫 구매일과 최근구매일의 차이가 0일~300일인 즉 이 커머스 서비스를 처음 사용한지 1년이 안된 사용자들의 평균 거래 간격 분포를 나타내고있고, 하단의 그래프는 첫구매일과 최근 구매일의 차이가 1000일~2000일인 즉 이 커머스 서비스를 처음 사용한지 약 3년이 지난 사용자들의 평균 거래 간격 분포를 나타내고 있다.
평균 구매일이 0에서 멀어진다는 것은 이 서비스에서 물건을 자주 구매하지 않는것 즉 이탈하는 고객들을 의미한다고 생각했다. 그런데 상단의 그래프의 추세선은 분포가 0에서 가까워지는 것이 아니라 0에서 멀어지는 상승선이고, 하단 그래프의 추세선은 0에 가까운 일직선에 가깝다. 나는 이를 이 서비스를 오래 사용하지 않는 사람일 수록 이 서비스를 이탈할 가능성이 더 높다 라고 해석했다.
그러나 이 데이터만 보고 그런 결론을 내리기엔 부족함이 많다고 생각했다. 예를들어 이 데이터에서는 2013년 가입 후 2018년까지는 잘 사용하다가 지금은 사용하지 않는 사람은 이탈하지 않은 사람으로 해석된다. 따라서 가입일자와 서비스 이용 기간에 따른 상관관계를 파악하기 위해서는 더 다양한 지표를 종합적으로 판단해야한다고 생각한다. 결론적으로 이 데이터만으로는 가설 3을 입증하기에 어려움이 있다. 현재 사용한 데이터에 마지막 거래이후 지난 날짜 등을 대입해서 더 다양한 조건을 고려하면 좋을 것같다고 생각했다.
💭W6D4 짧은 회고💭
구글 데이터 스튜디오 첨보는 툴이라 너무 시간을 잡아먹었다...근데 또 욕심내서 하다보니 시간 왕창잡아먹었네. 흥. 그래도 재밌었따.
다양한 데이터를 이용해서 유의미한 인사이트를 얻기위해 가공하고 고민하는 건 참 어려운 일이구나...데이터도 풍부하고 검증하고싶은 가설은 확실한데 이걸 도대체 어떻게 검증하고 어떤 데이터를 사용하고 어떻게 표현할지 생각하는게 생각보다 너모너모 어려웠다. 근데 또 재미있었다. 이런 논리적 접근 좋음 굳. 그리고 그 인사이트를 한눈에 보기 쉽게 이해하기 쉽게 표현하고 그 표현 방식을 고민하는 방법을 배울수 있었다. 언제는 막대그래프가, 언제는 원그래프가, 언제는 분포그래프가 유용할지 대강은 감이 잡힌달까!
아모튼 오늘의 교훈 : 데이터 사이언스하는 사람들 정말 대단한 사람들. 많이 일하고 많이 버세요.