본문 바로가기

분석이야기

(36)
2013, 도서구입 분석과 추천도서 한 가지 주제를 정하면 책은 몰아서 읽는 편입니다. 일하는 시간을 제외하면 보통 다른 활동은 다 차치하고 빠지는 편이죠. 올해 역시 몇가지 주제에 빠졌습니다. 빅데이터, 인포그래픽, 파이썬, R프로그래밍, 데이터베이스, 글쓰기 등입니다. 이제 올해도 이틀 밖에 남지 않았습니다. 2013년, 돌이킬 순 없지만 돌아볼 순 있습니다. '나의 2013년을 함께한 책들'을 돌아보겠습니다. 도서 구입목록과 분석상세내역은 첨부파일을 참고하세요. 104권, 40,536페이지, 읽은 책 수와 페이지 올해 104권을 읽었습니다. 총 40,536페이지 입니다. IT 분야의 책이 42권으로 가장 많았습니다. 가장 많이 구매한 출판사는 한빛미디어로 총 14권입니다. IT분야를 전문으로 출판하는 곳이라 당연한 결과입니다. 2권 ..
빅데이터 분석을 위한 필수 분석도구 OS를 XP에서 윈도우7로 새로 설치했습니다. 항상 느끼는 거지만 OS를 새로 설치하고 기존에 사용하던 프로그램을 새로 설치하는 것은 상당한 작업량입니다. 데이터 수집, 가공, 분석, 그리고 시각화를 위해서는 많은 프로그램들이 필요합니다. 데이터 분석을 위한 도구들을 정리해 보기로 마음 먹었습니다. 그 도구들을 소개합니다. Microsoft Office 프로그램 숫자를 다룬다면 Excel 너무나 유명한 스프레드시트 프로그램입니다. 회사에서든 집에서는 숫자를 다루는 대부분의 작업을 엑셀로 합니다. 엑셀을 워드프로세스로 사용하는 것도 좋습니다. 엑셀도 다양한 함수와 VBA라는 프로그래밍 언어를 제공하고 있어 왠만한 데이터 분석은 엑셀만 이용하면 충분합니다. 스프레드시트 프로그램은 셀에 데이터를 입력하는 데 ..
[인포그래픽] 빅테이터 시대의 분석방법론 "분석 어떻게 할 것인가?"라는 주제로 작성한 7개의 포스트로 인포그래픽을 한 번 만들어 보았습니다. 첨이라 쉽진 않네요 ^^ 각 항목에 대한 포스트는 아래 링크를 보시면 됩니다. 1. 문제 정의하기2. 배경지식 쌓기3. 가설 설정하기4. 추상화 하기5. 데이터 수집하기6. 데이터 분석하기7. 보고하기
분석, 어떻게 할 것인가? - (7) 보고하기 보고의 목적은 무엇일까요? 독자, 상사, 여자친구, 가족, 그게 누구던 보고의 목적은 내가 이야기하려는 바를 통해서 내가 원하는 행동을 이끌어 내는 것입니다. 그러기 위해서는 내가 전하려는 메시지가 정확히 상대방에게 전달되어야 합니다. 하고싶은 이야기가 뭐야? 가르 레이놀즈는 그의 책, 프레젠테이션 젠에서 두가지 질문을 던지라고 말합니다. "이야기의 핵심이 무엇인가?", "그 핵심이 왜 중요한가?". 보고의 핵심은 주장하고자 하는 메시지를 명확히 하는 것입니다. 중에서 저 역시 일을 할 때 자료를 굉장히 중요시 합니다. 자료의 양을 말이죠. 해가 거듭할 수록 하나씩 깨닫는게 있습니다. '사람들은 모두다 바쁘다'란 사실입니다. 내 이야기의 핵심을 30초 안에 말할 수 있어야 합니다. 그 안에 상대방을 설득..
분석, 어떻게 할 것인가? - (6) 데이터 분석하기 이제 어려운 단계는 대부분 지나왔습니다. 이제 수집된 자료를 가지고 실제 분석을 해 볼 때 입니다. 이보다 더 분석에 대해 잘 표현한 말이 있나 싶을 정도입니다. 분석의 사전적 의미는 '얽혀 있거나 복잡한 것을 풀어서 개별적인 요소나 성질로 나눔'입니다. 여기서 핵심은 바로 '나눔'입니다. '얼마나 잘 나누느냐'가 첫째고, 나눈 것들 속에서 어떤 의미를 찾아내느냐가 그 다음입니다. 나눌 때는 'MECE(Mutually Exclusively, Collectively Exhaustivel)'하게 나눈 후에는 적절한 도구를 통해 의미를 밝혀내면 됩니다. 이것이 분석할 어떤 것에 대해 우리가 해야 할 일입니다. 프레임웍(Framework)을 활용하기 : 로직트리, 프로세스, 매트릭스 프레임웍이란 문제를 발견하거..
분석, 어떻게 할 것인가? - (5) 데이터 수집하기 우리가 어떤 문제를 분석한다는 것은 대단히 어려운 분석방법을 사용해서 멋진 결과를 도출해야 한다는 것을 의미하는 것은 아닙니다. 단지 주어진 사실들을 면밀히 검토해서 그 속에 숨어있는 진실을 이해하면 되는 것입니다. 정확한 자료를 사실에 기반해서 찾기 여기에서 눈여겨 볼 것은 사실을 기반으로 자료를 수집해야 한다는 것입니다. 사실 요즘은 웹에서 찾을 수 없는 자료는 없는 자료라고해도 무방할 정도입니다. 그만큼 검증되지 않은 자료들도 많습니다. 자료수집은 될 수 있는 한 검증된 원천에 기반하는 것이 좋습니다. 국가 또는 지방자치단체, 민간 연구소, 언론사 등이 대표적인 예입니다. 그리고 인용한 자료들의 원천 데이터를 찾아보는 것 또한 새로운 사실을 확인할 수 있는 좋은 방법입니다. 1차자료와 2차자료 스티..
분석, 어떻게 할 것인가? - (4) 추상화하기 이제 추상화의 단계입니다. '시카고의 피아노 조율사는 몇 명일까?' 이런 문제에 대해 기초적인 지식과 논리적인 추론만으로 짧은 시간내에 답을 내는 방법을 '페르미 추정'이라고 합니다. 이탈리아계 미국인 물리학자인 엔리코 페르미(Enrico Fermi, 1901~1954) 가 물리량 추정에 뛰어났고 그가 학생들에게 이런 문제를 자주냈다고 해서 붙여진 이름입니다. 게스티메이션(Guestimation) 또는 브레인 티저(Brain Teaser)라고 불리기도 합니다. 정답이 없고 수없이 많은 다양한 형태로 문제를 낼 수 있으며 지원자의 사고력을 측정하는 데에 유용하여 마이크로 소프트, 구글 등에서 면접문제로 활용하기도 합니다. 우리나라의 전봇대는 모두 몇 개인가? 문제를 하나 내보겠습니다. "대한민국의 전봇대는..
분석, 어떻게 할 것인가? - (3) 가설 설정하기 "Diagram of the causes of mortality in the army in the East" by Florence Nightingale. -wikipedia 네이버에서 '데이터 과학자' 를 한 번 검색해 보세요. 어떤 사람이 떠오르시나요? 저는 구글의 수석이코노미스트이자 UC버클리의 교수인 할 배리언(Hal Varian, 1947~ )같은 사람이 나올거라고 생각했습니다. 그런데 놀랍게도 지식백과항목에 우리가 알고 있는 어느 간호사의 초상이 나옵니다. 바로 나이팅게일(Florence Nightingale, 1820 ~ 1910)입니다. 나이팅게일은 1854년 크림전쟁의 참상에 자극되어 자원봉사자 38명과 함께 터키로 갔습니다. 그해 겨울 환자의 사망률은 43%에 달했습니다. 당시는 질병의 ..