데이터 관점에서 본 에듀테크 두번째 이야기

0
1222

지난번에 우리가 에듀테크 데이터를 다루는데 있어 몇가지 문제점이 있다는 것을 지적한 바 있다. 이번에는 그런 문제들의 원인과 해결책을 한번 이야기해보고자 한다. 하지만 문제점을 지적하는 것과는 달리 원인과 해결책을 이야기하는 것은 그리 쉬운 일이 아니다. 이런 문제들에 대한 해법은 특정 이론이 근거가 되는 자연과학적 접근이 불가능하므로 결국은 사회과학적이고 주관적인 주장으로서만 가능하기 때문이다. 그래서 해답이라기 보다는 하나의 의견을 제시하는 차원에서 정리해보려고 한다.

몇가지 사례를 먼저 살펴보자.

Archive.org

우선 이 사례는 에듀테크의 사례와는 직접적인 관계가 없다. 다만 이 사이트는 데이터 자산을 어떻게 다뤄야 하는지에 대한 나름의 모범답안을 제시하고 있는 것으로 보여서 소개를 하고자 하는 것이다. 이 사이트를 짧게 정의하면 디지털 기억 저장소라고 할 수 있다.

인터넷이 브라우저를 통해 본격적으로 출범되었던 그 시절부터 Web이라는 새로운 세상을 채웠던 수많은 웹사이트들에 대한 기억을 이 사이트는 빠짐없이 보관하고 있다. 단지 웹사이트뿐만 아니라 이미지, 오디오, 비디오, 이북 등 갖가지 디지털 콘텐츠도 함께 보관되어 있는 중이다.

지금까지 보관되어 있는 데이터들의 양을 한번 보자.

이 사이트가 지금까지 모아둔 데이터의 방대함을 통해 알 수 있는 것은 이 사이트가 인터넷과 관련된 대부분의 기억을 간직하고 있다는 것이다. 2000년도 4월 네이버가 어떤 모습이었는지 혹시 기억할런지 모르지만 이 사이트에서는 간단한 검색으로 그 기억을 되살릴 수 있다. 2001년도 한반도를 들끓게 만들었던 아이러브스쿨의 모습도 앨범처럼 꺼내볼 수 있는 것도 물론 가능하다.

8vXeV35iDR6nF8TXUmjYJexw0Qe73WQPHBi7gWb5opZmJgYFdnsm9G6QSX11McbEW1DL70iYgChnXGno5jAxS6PtbPMJZ5EuKv1eQOrvu8Mmjjlzef_5TXZ9m98V-6_pWvArtIqZFnkcrx_36Uol3-ZcMD7sdk5FQ9t_ltBattm4aiw7Q_r1EkPRWjb1icQ_6BuUBj7JHtMR28C5mS0O6oFi9NLquTIl9eTHI3sJSr4UR1j6HuGyUaeuRuqV-0gKqSTTBLHz6rel3Sp7

이런 데이터를 저장하는 것은 사실 큰 기술도 아니고 큰 비용이 드는 것도 아니다. 소위 말하는 웹크롤러(Web Crawler)만 이용하면 된다. 그럼에도 이들이 박수를 받아야하는 이유는 1996년 쓸만한 브라우저조차 없었던 시절부터 별 수익도 없이 이들  데이터들을 축적해왔던 사실 때문이다. 퍼블릭 아카이빙의 전형적인 사례를 이 서비스가 보여주고 있는 것이다.

무엇 때문이었을까? About 링크를 통해 본 내용으로 유추해보건데 모든 종이신문을 빠짐없이 보관하던 도서관의 역할을 인터넷에서도 누군가는 해야한다고 생각했었던 것 같다. 돌이켜보면 조선시대 조선왕조실록이 그러했고 2000년 전 중국의 사마천의 사기도 그러했다. 특별한 보상을 바라는 것이 아니라 아카이빙의 결과 자체를 가치있는 것이라고 생각했던 것이다.

우리의 현실을 돌이켜봤을 때 20년간 이러닝 산업을 통해 만들어졌고 사라졌던 그 수많은 콘텐츠들의 자취가 아쉬운 것은 바로 이 대목이다. 당장의 가치만을 바라본다면 그 유용성이 잘 보이지 않겠지만 그 시기를 거쳐갔던 결과물이 어딘가에 아카이빙되어 있지 않다는 사실만으로 무척 안타깝다는 것이다. 물론 저작권의 문제, 저장 비용 등 다양한 이슈들은 있었겠지만 그 비용과 문제를 상쇄할 정도의 가치는 충분했다고 본다.

지난번 우리가 데이터를 대하는 태도에 대해서 이야기했을때 지적하고 싶었던 가장 큰 부분이 바로 이 부분이다. 우리가 현재적 가치에만 지나치게 매몰되어 있기 때문에 잃어버리고 있는 자산들이 있다는 것이다.

Wistia.com

또 다른 예이다. 아래 화면은 Wistia라는 사이트에서 제공하는 비디오 시청 분석 기능에 대한 사례다. 비디오를 보는 사람들의 각종 반응(Reaction)을 데이터로 저장한 후 이를 분석한 데이터 결과를 보여주고 있다. 이 데이터를 통해 비디오가 시청자들에게 어떤 반응을 일으키고 있는지를 자세하게 확인할 수 있다.

fsFaEpmwc46Sv3CG00_sPRQywC5BLPGs4mZOsKdGVYJXPHqSSuTAPSDWaD5fwNLmrukLWcT-G-AmNwIPZlBt7fjamvWAQQeqjeCeMyJ4piq_eqjm2P-Oo2IHg1Bv0nXgRONe-qWosH68S6oh4jRmfH7MEqmKanWGxgbqRSXIfkYlDON4MsXMXkgUiiKRRy86K2EuAv17kMn9h7T1T4TGxdFF28mYdtPNVe4gThPkTAJ2-6gtGtkAakkQsJZ9kmBP8fLbKSU4VPQa-6kC

Heatmaps라는 화면에서 사용되고 있는 분석은 비디오라는 타임라인 기반을 가진 콘텐츠적 특징을 잘 살리고 있으면서도 매우 직관적이다. 어떤 부분을 중점적으로 들었는지 듣지 않았는지 쉽게 이해할 수 있도록 했고 데이터의 나열로는 절대 표현 불가능한 의미를 단순화한 이미지로 그대로 전달하고 있다.

데이터 분석은 꼼꼼함과 표현의 미학이 결집된 기술이다. 그런 의미에서 이 사이트는 비디오라는 다소 단순화된 인터페이스에서 발생하는 세밀한 데이터를 치밀하게 수집하고 이를 매우 직관적으로 표현하고 있다. 우리가 그동안 비디오를 통해 수집한 데이터가 수강률이라는 단순 숫자들의 나열로 정리된 것에 비하면 수집과 분석 그리고 표현면에서 매우 진화된 사례라고 할 수 있다.

데이터 분석은 의미를 찾는 과정이다. 이는 기계적인 표현에서 인간이 인지할 수 있는 표현의 수준으로 끌어올리고 필요하다면 의미해석과 예측 기능까지 포함해야 한다는 뜻이다. 그런 의미에서 교육 데이터를 가장 잘 분석할 수 있는 사람은 기술자가 아니라 교육 전문가여야 한다고 본다.  수집과 분석의 단계에서 필요한 요소는 다분히 Techy하지만 오롯이 Tech에만 의존하다는 뜻은 아니기 때문이다.

다음 사례를 보면 그 이유가 좀 더 확실해진다.

D2L(Desire2Learn)

최근들어 많은 LMS에 LA기능이 탑재되고 있어 새삼스러울 것은 없지만 D2L은 일찌감치 LA에 대해 많은 관심을 기울인 업체중 하나이다. 이들이 여기에 공을 들인 이유는 당연하게도 고등교육기관의 주요 관심사이기 때문이다.

알다시피 미주지역의 대학등록금은 만만하지 않다. 왠만한 재력가가 아니면 학자금 대출을 피해갈 수 없을 정도다. 반대로 이야기하면 대학의 재정에 대학등록금에 대한 의존도가 적지 않다는 뜻이다. 학생 한명만 잃더라도 대학의 재정에 꽤 많은 영향을 미치고 있어 학생들에 대한 제적률(Dropout Rate) 관리는 초미의 관심사일 수 밖에 없다. 학생들의 학습태도를 분석하고 이를 통해 중도탈락 가능성을 미리 예고할 수 있는 기능은 대학 LMS의 주요한 기능이 될 수 밖에 없는 것이다. LA에 미주 지역이 먼저 관심을 갖는 가장 큰 이유다.

그런면에서 D2L은 이러한 대학의 목표를 달성하는데 매우 충실히 복무하고 있다. 블랙보드나 무들, 캔버스가 동일하게 Analytics를 강조하고 있는 이유도 이러한 비즈니스 목적에 부합하기 위해서이다. 그만큼 LA는 대학에 있어 큰 역할을 하고 있다는 뜻이다.

42rTNh19740WP75CvGw7_l7njesVCd1Sc51KmRFxh1-UPt-B5yLPLDQpyk94VV2m5Psf_jM6wnok_QH8aJVGFo74dca8gBbDd4l1xilCNhzTe36p8tcOlyLwNEuaDmEG97wGNcdgj0hAsqsz8VQ0vk1qHVdQn6WD0H56PqRNdniK0GLoAmtvfHUNlb-Pr93TygpdRk3uwZYBJiuQAs993GInMkrOFFM_Mxy6jmRbI7srHMCUjAiSyfd27LZFhGZxPcWyB3NfdmazalBl

현실적 여건, 즉 비즈니스의 이해관계가 있을 경우 훨씬 명확한 데이터 분석의 목표가 정해질 수 있다. 반대로 보면 우리가 LA에 대해 큰 관심을 기울이지 않고 있고 그동안의 성과가 많지 않은 이유는 비즈니스와 연계되지 않고 있기 때문이라고 볼 수 있다는 것이다. 우리가 현재 필요한 건 기술이라기 보다는 데이터를 통해 얻고자 하는 가치가 무언지를 정의하고 이를 구체화하는 것이다.

빅데이터, 인공지능, DT 등 데이터와 관련된 많은 이야기들이 나오고 있지만 관련 기술보다는 비즈니스적인 이해관계를 이들 기술과 연결시키는 것이 선행되어야 한다는 것이다. 그리고 데이터의 수집 및 분석 대상은 이 비즈니스 목적에 맞게 결정되어야 한다. 모든 데이터가 이러한 분석에 유효한 것이 아니기 때문이다. 그동안 노동부환급과정에서 활용되었던 출석률과 관련된 데이터를 모아본들 충분한 인사이트를 얻기는 힘들다는 뜻이다.

정리

사설은 길었지만 말하고자 하는 바는 단순하다. 우리가 내버려두고 있는 일부 데이터는 시간이 지나면 그 가치가 사라지는 소비재라기 보다는 앞으로 영구적으로 보관되어져야할 사회적 자산일 수도 있다는 것과 데이터 분석은 비즈니스의 목적에 부합해야 하며 수집부터 분석까지 치밀함과 동시에 세련됨의 미학이 요구된다는 것이다.

WpjW9cXKDEvC4QexOgd-yxT6h-9C4Tw2HjBnfyKCJxlGDDFzHNZey5fIxzI2UAV07QIgAITWx3FHKmmCp_m9p4f6YVNkDJeKTO5iWYc2gj3V8UInKrnVT_hvTYY2XiyIxQV4R1Kr

OpenEdx는 Edx.org 서비스를 위해 만들어진 오픈소스 MOOC 플랫폼이다. 지금은 K-MOOC 뿐만 아니라 다양한 MOOC 서비스 기관에서 이를 채택해서 활용하고 있는 대표적인 서비스 플랫폼이 되었다. 위 그림은 OpenEdx 내에서 학습분석 기능을 맡고 있는 Insight라는 별도 서비스의 파이프라인 아키텍쳐다. Insight가 굳이 설치되어 있지 않아도 MOOC 서비스를 하는데는 아무런 문제가 없다. 데이터 분석만을 위한 별도의 독립적인 시스템이라는 뜻이다.

시스템이 분리되어 독립적이라는 것은 있어도 그만 없어도 그만이라는 뜻이 아니라 오히려 별도로 다뤄져야할 만큼 비중이 크다는 뜻이다. Analytics 부분이 시스템내에서 분리되어 별도로 존재한다는 것은 최근 LMS 분야에서 더이상 새삼스런 일이 아니지만 MOOC 시스템이 태동되던 시기에 이미 Analytics가 별도로 다뤄질 만큼 비중있는 테마였다는 것에 주목했으면 한다.

교육분야에서 데이터를 둘러싼 비즈니스 게임은 이제부터 본격적으로 시작되었다고 보면 될 것 같다.