빅데이터 세상을 이해하는 새로운 방법 독후감

이번 학기 독서경시대회에 빅데이터 관련 책이 나왔다.
최근에 기계학습 수업을 듣고 AI관련 프로젝트도 해서 그런지 양질의 데이터를 모으는 것에 대한 필요성을 많이 느꼈던 터라 독서경시대회를 냅다 신청하고 책을 읽어 보았다.

빅데이터 세상을 이해하는 새로운 방법 독후감

빅데이터와 인공지능, 머신러닝에 대한 이야기는 꽤 오래 전부터 들어왔지만 요즘들어 정말 빠지는 곳이 없이 등장하는 것 같다.

엄청난 양의 데이터가 빠른 속도로 만들어지고 있는 세상 속에서 우리가 취해야 할 자세는 무엇일까? 이에 대한 팁을 얻고싶다면 이 책을 읽어보는 것을 추천한다. 단순히 데이터를 분석하고 그 것을 이용해 가치를 창출해내는 직업을 가진 사람 뿐 아니라 데이터를 제공하고 있는 제공자로서의 마음가짐도 알려주기 때문에 현 시대를 살고 있는 사람이라면 누구에게나 도움이 될만한 내용을 담고있다.

책의 목차는 총 4장으로 이루어져있다.

  1. 미래를 여는 기술, 빅데이터란 무엇인가
  2. 더 나은 삶을 위한 빅데이터 사용법
  3. 빅데이터가 '가치'로 탄생하기까지
  4. 빅데이터, 거부할 수 없는 미래

첫번째 장에서는 빅데이터의 특징과 종류, 빅데이터로 가치를 창출하는 전반적인 방법에 대해 알려주고 있다.

여기에서 강조한 것은 기획의 중요성이었다. 빅데이터로 가치를 얻기 위해 데이터에서 어떤 인사이트를 만들어낼지 목표에 대해 뚜렷하게 알고 있는 상태에서 무언가를 시작해야 한다는 것이다. 최종 목표를 기획하지 않고 인사이트만 무분별하게 만들어낸다면 그 과정은 최종적으로 가치를 얻는데 실패할 확률이 높다.

아마존, 호텔스닷컴, 유튜브, 우버 등 데이터를 활용해 가치를 창출해 낸 기업의 성공사례를 보여준다. 사용자가 자신이 기업에 제공한 데이터로 그 기업에서 제공하는 서비스를 유용하게 이용하고 있다고 느끼게 하여 사용자를 유입시키고 유지한다.

기업의 의사결정자들은 데이터를 이용해 인사이트를 찾아내고 그것을 기반으로 어떤 액션을 취해야 할지 생각해보아야한다.

소비자는 제품을 그저 가지고 있는 것을 원하는게 아니고 그 제품을 통해 자신이 원하는 서비스를 제공받기를 원한다. 즉 소비자의 관심은 제품이 아닌 서비스인 것이다. 제품을 바라보는 소비자들의 생각(데이터)를 수집해 소비자가 바라는 것과 필요하는 것을 파악하여(인사이트) 그들이 원하는 '서비스'를 제공하는 것(액션)이 제품과 서비스를 제공하는 기업이 해야 하는 일이다.

2. 더 나은 삶을 위한 빅데이터 사용법

2장에서는 위에서 설명한 내용 외에도 생산에 있어 효율성을 높이기 위해 데이터를 이용하는 것과 품질 향상과 각 고객의 특성에 맞는 서비스를 제공하기 위한 고객 분류 등 여러 가치를 창출하기 위해 데이터를 이용하는 예시를 자세히 보여준다.

모든 예시가 흥미로웠지만 가장 인상깊었던 예시는 라스베가스의 카지노가 고객의 성향을 분석하여 고객을 분류하고 그 사람들을 유지하는 방식이었다. 고객이 카지노에 방문해서 취하는 행동과 돈을 쓰는 방식에 대한 데이터에 더불어 사람의 심리에 대한 높은 이해도를 적절히 이용하여 카지노에 왔던 고객이 다시 한번 방문하도록 고객 관리를 하고 있었다. 기업이 고객을 유지함에 있어 사람의 심리에 대한 이해가 큰 도움을 준다는 것을 보여주는 예시였다.

3. 빅데이터가 '가치'로 탄생하기 까지

이전까지 데이터로부터 어떻게 인사이트를 만들어내는지에 대해 중점적으로 다뤘다면 여기선 인사이트를 활용하는 방식에 대해 다룬다.

애널리틱스, 즉 데이터 분석을 통해 산출해 낸 인사이트를 또 협의의 인사이트와 포사이트로 나눈다. 협의의 인사이트는 대상에 대한 묘사와 원인 분석, 포사이트는 미래에 대한 예측을 뜻한다.

애널리틱스 각 단계를 4단계로 나누고 단계 별로 분석을 하는 방식인 테스크에 대해 설명한다. 이 장에서 빅데이터를 활용해 수행하는 머신러닝과 딥러닝에 쓰이는 여러 기법들을 설명해준다.

4. 빅데이터, 거부할 수 없는 미래

사실 이 장이 나에게 가장 많은 가르침을 주었다. 앞 장에서 데이터 수집의 중요성과 그것을 활용하여 가치를 창출하는 법에 대해 다뤘다면, 여기에서는 그것을 우리 삶에 적용시켜 각 위치에서 우리가 어떤 자세를 취해야 하는지 알려준다.

데이터 제공자, 데이터 분석가, 의사결정자, 리더가 각자 가져야 할 자세를 알려주고 리더의 역할이 가치 창출에 미치는 영향에 대해서도 설명한다.

현재 많은 서비스를 이용하며 데이터를 제공하는 데이터제공자의 위치에 있는 내가 어떤 방식으로 내 데이터를 지키고 제공해야 하는지, 또 데이터의 활용을 어떻게 해야하는지 생각해 보는 시간을 가질 수 있었다.


책의 저자가 우리에게 전달하고자 하는 바를 내가 온전히 받아들였는지 알 수 없지만 이 책을 통해 분명 많은 것을 배웠다. 배운 것들을 내 삶에 잘 녹여내어 데이터를 현명하게 이용하는 사람이 될 것이다.

6) 공공부분의 빅데이터 이용


(가) 범죄를 예측하는 빅데이터


* 저녁 8시 50분, 험상궂게 생긴 한 남성이 길모퉁이에 차를 세우고 슈퍼마켓을 향해 바쁜 걸음을 재촉한다. 슈퍼마켓 계산대에는 점원 혼자 손님을 기다리고 있다.


슈퍼마켓에 다다른 남성이 허리춤에 숨겨 둔 권총을 꺼내려는 찰나 미리 도착해 있던 경찰과 눈이 마주친다. 경찰은 이 남성에게 쓴웃음을 지어보인다. 슈퍼마켓을 털려고 왔던 권총 강도는 황급히 발길을 돌려서 왔던길로 되돌아간다.


- 도시 안에서 일어나는 각종 강력 범죄 데이터를 광범위하게 분석해 실시간으로 활용할 수 있다면 이처럼 범죄가 일어날 시간과 장소를 예측해 경찰을 해당 장소에 미리 배치하는 방법으로 범죄를 사전에 예방할 수 있을 것이다.


범죄가 자주 일어나는 시간과 장소, 요일, 특정 범죄가 자주 발생하는 거리나 건물의 특징, 심지어 날씨와의 상관관계까지 찾아낼 수 있다면 이런일이 가능한 날이 오지 않을까?


* 방대한 데이터를 분석해 범죄를 미리 예방하는 경찰의 모습이 먼 미래의 일일까? 그렇지 않다.


- 미국에서는 현재 이 같은 일이 벌어지고 있다. 로스앤젤레스 경찰(LAPD)은 LA 지역에서 실시간으로 업데이트되는 범죄 데이터를 분석해 범죄 발생 가능성이 높은 지역(Hot Spot)을 찾아내는 컴퓨터 분석 프로그램(Predictive Policing)을 활용, 범죄 발생을 획기적으로 줄이고 있다. 범죄 발생 가능성이 높은 시간대나 장소에 경찰을 배치해 순찰을 강화하는 방법으로 범죄 발생 가능성과 범죄 시도를 차단하는 것이다.


- 범죄 예측 프로그램(Predictive Policing)은 수많은 재난 정보를 분석해 LA 지역에서 발생하는 지진과 여진의 정확한 위치와 규모를 사전에 파악하기 위해 개발된 컴퓨터 프로그램을 활용하고 있다. 과거 지진 데이터와 실시간 업데이트되는 데이터를 바탕으로 지진이 일어날 지점을 예측하듯 범죄가 일어날 장소를 사전에 예측하는 것이다.


LA 지역에서 일어나는 범죄의 65%는 차량 등에서 물건을 훔치는 절도이다. LA 경찰은 차량 절도나 가정집 침입 도난 사건이 일어났던 시간이나 장소, 거리나 주택의 특징 등이 담긴 관련 데이터를 기반으로 특정 시간과 특정 장소의 범죄 가능성을 시시각각 분석하여 순찰차에 장착된 컴퓨터 모니터로 전송한다.


- 실시간으로 전해지는 범죄 예측 정보를 바탕으로 해당 지역의 경찰은 훨씬 효율적인 방법으로 범죄를 예방할 수 있다. 범죄가 발생한 후 몇 명의 범인을 검거하느냐보다는 범죄를 사전에 예측하고 차단하는 것이 훨씬 중요하고 가치 있는 일이다.


데이터의 힘 덕분에 LA 지역에서는 지난 한 해 동안 절도 사건이 33% 감소했다. 폭력 사건도 21% 줄었다. 9년 연속 범죄 발생이 줄어드는 보기드문 성과도 얻었다. 한정된 경찰 장비와 인력, 예산으로는 절대 거두기 어려운 성과였다.


(나) 관광 설계를 도와주는 빅데이터


* 세계적으로 수많은 도시와 지역들이 관광 산업을 활성화하기 위해 천문학적인 돈을 쓴다. 관광객을 유치하기 위해 갖가지 묘안들을 내놓으며 관광객들의 마음을 사로잡으려 노력하고 있다. 그러려면 관광객들의 마음이나 특성을 먼저 알아야 할 것이다.


나라별로 특성이 어떻게 다른지, 주로 어디를 가는지, 어떤 음식을 선호하는지와 같은 정보들이 바로 그것이다. 그렇다면 이 같은 정보들을 어떻게 얻을 수 있을까?


* 요즘에는 어떤 도시나 다른 나라를 여행하는 사람치고 카메라를 휴대하지 않는 사람이 거의 없다. 굳이 DSLR 카메라가 아니더라도 스마트폰에 장착된 카메라 앱(App)을 통해 특이한 볼거리나 풍경, 먹을거리, 기억하고 싶은 순간 등을 담는다.


이렇게 찍은 사진 가운데 상당수의 사진이 플리커나 페이스북, 트위터 등을 통해 공개되고 공유되고 있다. 사람들이 올린 사진의 양은 그야말로 엄청나다. 페이스북에만 하루 2억 5천만 장이 올라오고 있다. 플리커에도 1분에 1,000장이 넘는 사진이 올려 지고 있다.


* 현재 플리커는 50억 장의 사진을 보유하고 있다. 이제 우리는 이렇게 많은 사진에서 시간과 공간 정보를 추출하고 조합해 새로운 경험을 할 수있는 기술이 있다. 그렇다면 이 기술을 활용하면 관광을 오는 사람들의 움직임이나 특성을 더 잘 이해할 수 있지 않을까?


* 두 무리의 관광객들이 어떤 지역에 여행을 갔다고 해 보자. 한 팀은 미국에서 왔고 또 다른 팀은 이탈리아인 관광객들이다. 두 나라 관광객들이 각자 자기 나라 버스에 오르고 출발한다. 두 나라 관광객들은 해당 지역을 한 달간 돌아보며 즐겁게 지내고 돌아왔다.


우리가 가진 정보라고는 이들이 미국과 이탈리아에서 왔고 한 달 동안 여행을 했다는 사실 뿐이다. 그렇다면 두 나라 관광객들에 대해 어떻게 하면 좀 더 많은 정보를 알아낼 수 있을까? 이들이 여행 동안 남긴 흔적들을 분석해 보면 되지 않을까?


- 미국인과 이탈리아인 관광객들은 여행에 관한 취향이 확연히 다르다. 미국인 관광객들은 주로 도시 지역을 여행하는 데 반해 이탈리아인들은 시골 구석구석까지 찾아다닌다. 이들이 남긴 디지털 흔적들을 보면 이들이 어디서 왔고 어느 지역을 여행하고 또 얼마나 오래 머무르는지 알 수 있다.


이들이 여행하면서 사진을 찍을 때마다 시간과 위치 정보가 기록되기 때문이다. 시간에 따른 이동 경로는 물론 이들이 어느 장소를 방문했는지, 다음 이동 장소는 어디인지까지 구체적으로 알 수 있다. 시간의 흐름을 따라가 보면 한 달 동안 이들 관광객이 지나간 이동 경로와 취향, 좋아하는 음식이나 여행지 같은 정보들이 보인다는 것이다.


플리커에 올라온 사진만 가지고도 이 같은 정보들을 얻을 수 있다. 사람들이 일상적으로 하는 일 그리고 그것으로 인해 만들어지는 흔적들을 활용하면 의미 있는 정보들을 추출해낼 수 있다.


빅데이터 세상을 이해하는 새로운 방법 독후감


* 도시를 관광한 14%만이 인근 지역도 관광을 한다. 스페인과 프랑스 관광객들은 여러 도시를 여행하지만 영국과 덴마크 관광객들은 한 도시에서 오래 여행하길 좋아한다.


- 그렇다면 당일 여행을 몇 명이나 하는지와 같은 질문도 물을 수 있다. 혹은 도시 지역만 관광하는 사람들에게 중소 도시나 시골에 있는 관광지까지 가 보도록 자극할 방법은 없을까 같은 질문도 나올 수 있다.


도시 지역을 방문한 14%의 관광객들은 인근 지역을 함께 방문했다. 당일 여행으로 다녀온 것이다. 스페인 관광객들과 프랑스 관광객들은 도시뿐아니라 주변 지역도 함께 여행하기를 좋아한다. 하지만 영국인들과 덴마크인 관광객들은 그렇지 않다. 이들은 주로 여행을 하는 동안 도시 지역에 머물기 좋아한다.


* 이 같은 정보를 통해 우리는 사람들의 움직임과 생각을 관찰할 수 있다. 서로 다른 집단 간의 차이점도 발견할 수 있다. 이것은 데이터가 있기때문에 가능한 일이다. 데이터는 생각보다 쉽게 얻을 수 있다. 수많은 사람이 무의식중에 만들어서 공개하기 때문이다. 모두 자발적인 의지와 행동의 결과로 만들어지는 데이터들이다.


* 빅 데이터를 활용해 우리는 많은 일을 할 수 있다. 흥미로운 실험도 가능하다. 관광뿐 아니라 교통, 안전, 도시 계획을 세우는 일까지 데이터는 활용될 수 있다.


더 많은 정보를 가지고 보다 효율적이고 더 나은 결정을 내릴 수 있다. 빅 데이터가 없다면 인위적이고 이론적인 수준에 머무를 것이다. 빅 데이터가 있어서 점점 더 많은 일이 가능해지고 있다.


(다) 아이티 지도를 만드는 미션


* 2010년 1월 11일 4시 53분, 중앙아메리카 카리브 해의 섬나라 아이티의 수도 포르토프랭스 인근 지표면 아래 13km 지점에서 지진이 발생했다.


북쪽의 지각판인 북아메리카판과 남쪽의 카리브판이 충돌하면서 150년 동안 쌓였던 에너지가 한꺼번에 분출되면서 규모 7.0의 강진이 일어난 것이다.


이 지진으로 아이티 대통령궁과 국회 의사당 등 포르토프랭스의 주요 건물들이 대부분 붕괴했다. 병원과 감옥, 공항 같은 주요 시설들도 대부분 파괴됐다. 아이티 전체 인구의 1/3가량인 3백만 명이 피해를 입었다.


사망자는 22만 명을 넘었고 부상자만 30만 명에 달하는 대규모 지진이었다. 아이티는 초토화됐다. 전 세계에서 구조대와 NGO가 파견됐다. 건물에 깔린 사상자 구조 작업을 위해서였다.


- 하지만 포르토프랭스에는 변변한 지도가 없었다. 있는 거라곤 30~40년 전에 만들어진 것뿐이었다. 지도는 구조 작업에 필수적인 정보이다. 구조대는 당황했다. 도로와 건물이 처참하게 파괴돼 구조해야 할 사람들이 어디에 있는지 파악할 방법이 요원했기 때문이다.


* 운이 좋게도 지진이 일어난 직후 'GeoEye사'가 위성 사진을 공개했다.


오픈 소스 커뮤니티가 위성 사진을 활용할 수 있도록 허용하는 라이선스를 열어 주었다. 곧바로 세계 각지의 사람들이 위성 사진의 이미지들을 보고 지도를 만들기 시작했다. 세계 각지의 커뮤니티들이 포르토프랭스의 도로와 피난민들의 텐트가 있는 위치 등을 오픈 스트리트 맵에 빠르게 축적해 갔다.


- 오픈 스트리트 맵은 세계 각지에 있는 수많은 사람의 자발적인 참여로 이루어지는 글로벌 지도 만들기 프로젝트이다. 물리적인 시공간의 제약을 뛰어넘어 전 세계 이용자들이 언제든 접속해서 수정할 수 있기 때문에 빠르게 업데이트가 이루어진다.


초대형 지진으로 알아볼 수 없게 된 아이티의 지형뿐 아니라 병원, 구조대나 난민들의 위치를 파악하는 데 아주 중요한 역할을 했다. 세계인들은 이들을 크라이시스 매퍼(Crisis Mappers)라고 불렀다. 구조 작업에 난항을 겪고 있던 구조대에게 피난민 수용소의 위치뿐 아니라 구조 작업이 필요한 곳까지 갈 수 있도록 안내했던 지도는 이렇게 실시간으로 만들어졌다.


빅데이터 세상을 이해하는 새로운 방법 독후감


* 매우 급한 상황에서 전 세계 사람들이 공유한 데이터가 하나 둘 모여 무너진 건물 밑에 깔린 인명을 구조하고 난민들에게 구호품을 수송하는 데 유용한 지도로 활용됐다.


오픈 스트리트 맵을 통해 만들어진 아이티 지도는 GPS 전문 업체인 'Garmin사'의 내비게이션에서 구동됐다. 세계인들이 하나 둘 만들어 업데이트한 지도 데이터는 지금도 아이티 재건과 복구 작업에 활용되고 있다. 아이티 지진을 통해 수십, 수백만 개의 데이터가 모이면 불가능해 보였던 일도 가능하다는 사실과 빅 데이터의 가능성을 확인할 수 있었다.


(라) 이상적인 공공 서비스를 위하여 빅데이터를 활용하라


* 미국은 공공 서비스 영역에서 빅 데이터를 가장 잘 활용하는 나라로 꼽히고 있다. 탈세나 사기, 재정 낭비나 부당한 세금 지원 등을 막는데 빅데이터를 광범위하게 활용하고 있다.


- 2010년 미국의 탈세 규모는 3,300억 달러에 달했다. 저소득층을 위한 의료 보장 총액을 훨씬 넘어서는 금액이다. 미국 정부의 재정에도 심각한 위협으로 작용했다. 미국 국세청은 문제를 해결하기 위해 빅 데이터를 활용해 탈세와 사기 범죄를 예방할 수 있는 시스템을 구축했다.


이 시스템은 방대한 데이터로부터 이상 징후를 찾아내고 과거 데이터를 분석해 사기나 탈세 가능성이 있는 패턴을 예측해 내도록 설계됐다. 납세자의 계좌와 주소, 전화번호 등의 정보는 물론 페이스북이나 트위터로 범죄자 사이의 사회 관계망을 분석해 범죄 집단을 감시하는 데도 사용됐다.


미국 국세청은 이 같은 방법으로 3,450억 달러에 이르는 세금 누락과 불필요한 세금 환급을 막을 수 있었다.


* 미국 연방 수사국(FBI)도 'CODIS(Combined DNA Index System)'라는 유전자 정보은행을 구축해 미해결 사건 용의자와 실종자에 관한 12만 명의 DNA 정보를 저장해 놓고 있다.


매년 2,200만 명의 범죄자 DNA가 시스템에 추가되고 있다. FBI는 이들 정보를 범죄 수사에 활용해 빠르고 정확한 범인 검거에 나서고 있다. 2007년에는 45,000건에 달하는 범죄를 해결할 수 있었다.


* 가장 이상적인 공공 서비스는 국민 개개인의 요구에 맞는 공공 정책과 서비스를 국민들에게 효율적으로 제공하는 것이다. 미래의 공공 서비스 역시 이 같은 목표를 향해 앞으로 계속 발전해 나갈 것이다.


7) 徐評曰


* 웅성웅성 아우성이 모이면 거대한 여론이 되고, 또박또박 성금이 모이면 세상을 구하고, 차곡차곡 데이터가 모이면 완벽한 의사결정이 되는구나.


어쩌면 빅데이터가 크게 사람들의 프라이버시를 훼손할 수 있지만, 그렇다고 놓치고 좋은 전략과 정책 수립 기회를 버릴 수는 없는 것. 프라이버시를 보호할 수 있는 방법과 존중하는 마음을 먼저 가지고 새로운 세상으로 들어서길 바란다.


4. 경영에 필요한 한마디


* "우리가 던지는 말 한마디, 몸짓 하나까지 모든 것들이 데이터가 되는 세상이다." - 장영재(카이스트 교수)


* "미래는 이미 와 있다. 단지 널리 퍼져 있지 않을 뿐이다." - 윌리엄 깁슨(세계적인 공상 과학 작가)


* 데이터가 있으면 불합리한 결정이 내려지는 것을 막을 수 있다. 중요한 결정을 내려야 할 때마다 사람과 사물, 인터넷이 만들어 내는 데이터와 커뮤니케이션에 더 많이 의존하게 된다. 데이터를 통해 더 과학적인 방법으로 세상을 이해하고 변화시키는 방향으로 세상은 진화하고 있다.


5. 멋진 사례와 재미있는 통계


* 사람과 디바이스, 그리고 인터넷의 연결이 폭발적으로 증가하고 있다. 전 세계 인구의 90%에 해당하는 60억 대의 휴대 전화가 세계적으로 보급돼 있다. 인터넷 사용 인구 또한 20억 명을 돌파한 지 오래다.


2020년에는 인터넷 인구가 50억 명에 이를 것이란 전망도 나와 있다. 사람뿐 아니라 자동차와 건물, 도로, 모바일 디바이스 간의 연결 또한 기하급수적으로 늘고 있다. 점점 더 많은 디바이스들이 인터넷에 연결되고 데이터를 만들어 내고 있다. 바야흐로 데이터가 넘치는 시대에 우리는 살고 있다.


* 브레드 크럼(Bread Crumbs), 원래 빵부스러기란 뜻이지만 사람들이 만들어 내는 디지털 흔적 또는 조각으로 지칭한다.


* 요즘 한국의 자원 봉사자들이 아프리카에 가서 봉사 활동을 펼치는 사례가 많다. 그런데 그중 재미있는 사례가 있다. 아프리카 원주민 마을에 가서 보니까 젊은 여성이나 주부들이 생활하는 데 필요한 물을 얻기 위해 몇시간이나 되는 거리를 하루에도 몇 번씩 항아리를 매고 오가는 것을 봤다고 한다.


한국에서 간 자원 봉사자들은 이들의 수고를 덜어 주기 위해 우물을 파주겠다고 제안했다. 하지만 막상 우물을 파기로 결정했다는 사실이 알려지자 물을 길어 오는 아낙네들의 반대가 가장 심했다고 한다.


이유가 무엇이었을까? 그들에게는 항아리를 매고 3~4km를 오가는 그 순간이 시댁 식구들로부터 자유로워질 수 있는 유일한 시간이었다. 자신만의 여가였던 셈이다. 한국인들은 그걸 고생으로 파악했지만 그들에겐 먼 길을 떠나는 고된 노동이 유일한 레저였다.





서평전문 PDF파일빅데이터, 세상을 이해하는 새로운 방법
빅데이터 세상을 이해하는 새로운 방법 독후감
  • Copyright ⓒ 조선일보 & Chosun.com
  • · 제휴안내· 구독신청