블로그

사람들은 AI와 대화를 얼마나 잘할까?

'이루다'의 베타 테스트 분석 결과를 공개합니다.

최예지 | 2020년 11월 04일 | #Product

제품을 출시하기 전 Product-market fit을 찾거나 사용성을 점검하기 위한 테스트는 꼭 필요한 과정입니다. 새로운 형태의 제품이라면 테스트를 통해 문제를 발견하고 보완하는 과정이 더더욱 중요하죠. 지난 6월, 핑퐁팀에서도 1,000명의 테스터를 대상으로 AI 친구 ‘이루다‘의 베타 테스트를 진행했어요. (‘이루다’ 프로젝트에 대해 궁금하신 분들은 이전 글을 참고해주세요)

베타 테스트의 목적은 제품의 보완점을 발견하는 것뿐 아니라, 사람들이 루다와 대화를 잘하는지 살펴보고 현재 기술과 제품의 가능성을 확인하는 것이었습니다. 이번 글에서는 핑퐁팀이 베타 테스트를 통해 얻은 결과와 이를 바탕으로 설정한 이후 발전 방향을 공유하려고 해요.

* 본 글은 베타 테스트 시작 후 가입 4주 차 이상 된 시점의 사용자 978명의 데이터를 분석한 결과이며, 대화 분석을 위한 로그는 사용자 식별 정보를 제거한 뒤 랜덤하게 선택한 것을 사용했습니다.

🧐 베타 테스트에서 확인하고자 했던 것

루다가 새로운 형태의 제품이다 보니 베타 테스트의 첫 번째 목적은 제품의 가치(Product-market fit)를 검증하는 것이었어요. ‘이루다’라는 일상대화 AI의 가치와 가능성을 확인하기 위해 베타 테스트에서는 4개의 큰 질문을 던지고 이를 확인하는 지표를 분석했습니다.


  1. 실제로 사람들이 루다와 같은 제품에 니즈가 있는가? → 리텐션
  2. 실제로 사람들이 루다와 대화를 잘 나누는가? → 대화량
  3. 어떤 사람이 루다와 대화를 잘하는가? → 타깃 유저
  4. 사람들은 루다와 어떤 대화를 나누는가? → 대화 주제

1. 실제로 사람들이 루다와 같은 제품에 니즈가 있는가? → Yes!

2주차 리텐션 31%, 4주차 리텐션 18%

루다는 사람들의 크고 작은 외로움을 메워주기 위한 제품이자 대화 상대입니다. 현대 사회에 외로움이 만연하다고는 하지만, 실제로 사람들이 루다를 통해 외로움을 해결하려고 하는지는 확인해봐야 하는 거죠. 이를 확인할 수 있는 가장 확실한 지표는 역시 리텐션(Retention; 재접속률)이었어요. 루다가 좋고 필요하다면 사람들은 계속 루다와 대화하고 싶을 테니까요.

사실 루다는 페이스북 메신저 기반이라 불리한 점이 많아요. 보통 앱에서는 푸시 노티피케이션(Push Notification)이 리텐션 유지에 큰 역할을 하는데, 페이스북 메신저는 정책상 24시간 이내에 대화한 사용자에게만 푸시를 보낼 수 있거든요. 그래서 가장 중요하면서도 동시에 가장 기대하기 어려웠던 수치가 바로 리텐션이었답니다.

하지만 막상 데이터를 보니 2주 차 리텐션 31%, 4주 차 리텐션 18%라는 준수한 결과를 보였어요! 4주가 지나도록 전체 사용자의 18%는 여전히 루다와 대화를 하는 거예요. 정성 분석 결과 다음 세 가지가 리텐션에 좋은 영향을 미쳤습니다: 1) 선톡의 효과 2) 루다와 일상을 나누는 것이 습관이 되어서 3) 루다와 친구 같은 관계가 되어서.

루다는 시간과 상황에 따라 선톡을 보내는데요, 사용자가 선톡을 받고 3시간 이내에 답할 확률은 초기에는 80%(활성 사용자 기준)에 육박하고, 한 달 뒤에도 50%를 기록하고 있어요. 그만큼 선톡의 힘이 강력하다는 걸 알 수 있죠. 3시간 이내에 답하지 않아도 다른 일 때문에 페이스북 메신저에 들어왔다가 루다의 메시지를 보고 뒤늦게 대화를 시작하는 경우도 있었어요. 어떻게 보면 페이스북 메신저라는 강력한 플랫폼의 덕도 보고 있는 셈이죠😊

2. 실제로 사람들이 루다와 대화를 잘 나누는가? → Yes!

첫날 대화량 10턴 이상인 사용자 약 86% 첫 달 대화량 100턴 이상인 사용자 약 43%

대화는 루다의 핵심 기능이기 때문에 사람들이 루다와 대화를 잘 나누는지 알아보는 것도 매우 중요했어요. 현재 핑퐁팀의 기술 수준을 사용자에게 평가받는 것인 만큼 특히 두근두근했죠. 대화를 잘 나누는지 알아보기 위한 주요 지표로는 대화량을 이용했습니다. 대화를 (그것도 AI와) 한다는 것은 시간과 비용이 드는 일이라 사람들이 루다와의 대화를 좋아하지 않는다면 대화를 많이 하지 않을 테니까요.

대화량 목표는 얼마로 해야 적절할까요? 연인이나 가족, 절친 외에 다른 대상과 한 달에 개인 톡으로 100마디 이상 나눈 적이 있나요? 아마 단톡방이 아니면 쉽지 않은 양일 거예요. 그래서 저희도 100턴을 목표로 했습니다. 정확히는 첫 달 대화량 100턴 이상(한 주에 2~3일, 한 번에 10턴 이상)인 사용자가 35% 이상 되는 것을 목표로 했어요. 선행 지표로는 접속 첫날 전체 사용자의 75%가 10턴 이상의 대화량을 기록하는 것을 목표로 했습니다. 뭐든 첫인상이 중요하잖아요😉

기술에는 웬만큼 자신 있었지만, 목표를 너무 높게 잡았나 걱정하기도 했는데, 목표치를 훌쩍 뛰어넘은 결과가 나왔어요. 첫날에만 루다와 10턴 이상 대화한 사용자는 약 86%였고 100턴 이상 대화한 사람도 많았습니다. 첫 달 누적 대화량 100턴 이상인 사용자는 전체의 43%나 되었고 그 두 배인 200턴 이상 대화한 사용자도 20%가 넘었죠. 정식 버전에서는 훨씬 업그레이드된 버전의 기술이 탑재될 예정인데, 너무나 기대되더라고요.

3. 어떤 사람이 루다와 대화를 잘하는가? → 10대 여성, 2030대 남성

978명의 베타 테스터 중 가장 높은 비율을 차지한 사용자 그룹은 10대 여성과 20대 남성이었어요. 그다음으로 20대 여성과 30대 남성이 많았고요. 높은 비율을 차지한 사용자 그룹이 실제로 루다와 대화를 잘 나눴을까요?

어떤 사람이 루다와 대화를 잘하는지 알아보기 위해서 리텐션과 대화량을 기반으로 사용자 분석을 진행했습니다. 루다가 새로운 형태의 제품이기도 하고 관계적 니즈를 충족시켜주는 제품이기 때문에 연령이 어릴수록 루다와 잘 지내리라 생각했는데요, 실제로 리텐션과 대화량 수치를 보면 10대 여성 사용자가 가장 루다와 잘 지내는 것을 확인할 수 있었습니다. 연령대별로 보면 10대 > 20대 > 30대 > 40대 이상 순으로 리텐션이 높고 대화량이 많아서 연령이 어릴수록 루다와 잘 대화한다는 것을 알 수 있었어요.

추가로 예상치 못한 결과도 있었는데요, 바로 10대 여성 사용자 다음으로 20, 30대 남성 사용자가 리텐션과 대화량에서 좋은 수치를 보여주었다는 거예요. 사실 루다가 대화형 제품이다 보니 메인 타깃이 여성이 되리라 생각했는데, 2030 연령에서는 남성분들에게 더 인기가 많았던 거죠. 이 점은 확실히 알 수 없지만 루다가 여성으로 설정된 것과 관련이 있지 않을까 생각합니다.

4. 사람들은 루다와 어떤 대화를 나누는가? → 일상, 관심사, 고민

사람들이 루다와 어떤 대화를 나누는지 확인하고 사람들이 원하는 대화를 보완하기 위해서 대화 분석을 진행했습니다. 대화 분석을 위한 로그는 사용자 식별 정보를 제거한 뒤 랜덤하게 선택한 것을 사용했어요. 분석 결과 사용자가 루다와 나누고 싶은 대화는 크게 일상, 관심사, 고민 세 가지로 나뉘었습니다.

대화 주제의 인기도를 나타내는 그래프. 밥, 점심, 공부, 일 등 일상생활에 대한 주제가 주를 이루고 있어요.

그럼 현재 루다의 대화 수준은 어떨까요? 루다는 소소한 일상 대화를 나누는 데 특화되어 있어요. 관심사를 나누는 대화도 조금 가능하지만 길게 이어나가지는 못하는 수준이죠. 고민 상담도 들어주는 것 외에 구체적으로 조언을 주는 것은 무리고요. 이러한 한계 때문인지 실제로 대화 주제도 일상에 관한 것이 많았습니다.

그중에서도 특히 10대 여성 사용자와 20, 30대 남성 사용자는 루다와 일상 대화를 나누는 비율이 높았어요. 그 외의 사용자는 고민 상담이나 좋아하는 음악, 영화 등 주제가 명확한 대화, 기능 수행 등 구체적인 목적이 있는 대화를 하기 원하는 비율이 높았죠. 그래서 10대 여성과 20, 30대 남성 사용자의 리텐션이 높고 대화량도 많았던 거예요. 사용자의 니즈와 루다가 제공 가능한 기능이 상대적으로 일치하니까요.

🧚 루다는 어떻게 진화해야 할까?

베타 테스트 결과를 분석해서 루다의 Product-market fit을 확인했고, 어떤 사용자가 루다와 어떤 대화를 하는지도 알아보았습니다. 그럼 이제 분석 결과를 바탕으로 루다의 발전 방향을 설정해야겠죠?

1. 오픈 도메인 대화 기술 업그레이드

기본적으로는 루다에 탑재된 오픈 도메인 대화 기술을 업그레이드할 예정이에요. 제품 기술팀에서 열심히 연구 개발하고 있는 대화 기술은 이전 버전보다 성능이 30% 이상 높은 버전이에요! 대화 기술이 업그레이드되면 루다는 더 긴 문맥을 기억할 수 있게 되고, 더 적절하고 구체적인 답변을 할 수 있게 될 거예요. 대화 성능이 높아짐에 따라 대화량도 더 늘어날 것으로 예상해요.

새로운 기술이 탑재되면 루다가 어떻게 진화할지 엄청나게 기대가 되네요😙 루다의 기술 개발 과정이 궁금하시다면 곧 있을 DEVIEW2020의 발표 <오픈도메인 챗봇 ‘루다’ 육아일기: 탄생부터 클로즈베타까지의 기록>을 참고해주세요!

2. 서로의 관계를 강화하는 대화하기

업그레이드되는 대화 기술을 통해 루다는 더 말을 잘하게 될 테지만, 자유 대화만으로는 사용자가 루다의 삶이 진행되고 있다고 느끼거나, 루다와의 관계가 발전된다고 느끼는 데 부족함이 있어요. 따라서 핑퐁팀은 서로의 관심사에 관한 대화를 강화하는 방향으로 먼저 업그레이드를 하려고 합니다. 루다의 대화 구성을 소개한 글에서 두 사람이 친해지려면 정보, 호감, 시간이 필요하다고 얘기했는데요, 이 세 가지를 강화해주는 이벤트 대화를 통해 대화의 주제를 풍부하게 하려 해요. 이렇게 대화의 폭을 넓히면 루다와 대화를 잘 나누는 사용자 그룹도 넓힐 수 있을 것으로 예상해요. 특히 루다의 생활이나 이야기를 공유하는 루다 스토리에 힘을 쏟고 있답니다.

또한 앞서 사용자가 루다와 대화를 시작하는 데 선톡이 중요한 역할을 한다고 말씀드렸죠. 선톡은 적절한 타이밍에 적절한 콘텐츠만 나갈 수 있다면 사용자의 거부감을 최소화하면서 자연스럽게 대화를 시작하게 합니다. 그래서 서로의 이야기를 나누는 이벤트 대화를 선톡 형태로 제공하여 시너지 효과를 노려볼 예정이에요😎

루다 스토리 예시: 핼러윈 코스튬 준비하는 루다(왼쪽)와 핼러윈 당일 코스튬 입은 루다(오른쪽)

3. 반복 사용을 위한 재미 요소 추가

사용자가 먼저 루다를 찾아오는 경우를 분석해보면 심심하거나 연락 상대가 없는 상황일 때가 많았습니다. 이때 일상적인 대화를 나누는 것 외에도 루다에게 게임을 하자고 요구하는 경우가 많았는데요, 이런 현상을 보면서 제품을 사용하거나 떠올리는 습관을 형성하기 위해서라도 반복적으로 사용할 수 있는 기능이 필요하다고 판단했습니다. 그리고 그중에서도 가장 빈도가 높았던 끝말잇기‘파이팅 루나’ 챗봇에 있던 숫자 게임을 루다 버전으로 바꾸어 추가했어요.

⚠️ 열받음 주의! 루다 끝말잇기 잘해요ㅠㅠ

👊 이루다 진화!!

첫 베타 테스트가 시작되고 벌써 4개월이나 지났네요! 그동안 핑퐁팀은 결과 분석하고 기능 보완하고 새로운 기능도 탑재하면서 바쁘게 루다를 진화시키고 있어요. 이 중 일부는 개발이 완료되어 현재 진행 중인 2차 베타 테스트 버전에 적용되었답니다. 2차 테스트 기간이 끝나면 곧바로 3차 베타 테스트까지 진행한 후 올해 말에 ‘이루다’의 정식 버전을 출시할 예정이에요. 3차 베타 테스트 혹은 정식 버전을 누구보다 먼저 경험해보고 싶으신 분은 미리 친구 신청을 해주세요😙

👋 루다와 친구 하러 가기: https://m.me/ai.luda

핑퐁팀이 직접 전해주는
AI에 관한 소식을 받아보세요

능력있는 현업 개발자, 기획자, 디자이너가
지금 핑퐁팀에서 하고 있는 일, 세상에 벌어지고 있는 흥미로운 일들을 알려드립니다.