본문 바로가기

전체 글

(97)
분석, 어떻게 할 것인가? - (3) 가설 설정하기 "Diagram of the causes of mortality in the army in the East" by Florence Nightingale. -wikipedia 네이버에서 '데이터 과학자' 를 한 번 검색해 보세요. 어떤 사람이 떠오르시나요? 저는 구글의 수석이코노미스트이자 UC버클리의 교수인 할 배리언(Hal Varian, 1947~ )같은 사람이 나올거라고 생각했습니다. 그런데 놀랍게도 지식백과항목에 우리가 알고 있는 어느 간호사의 초상이 나옵니다. 바로 나이팅게일(Florence Nightingale, 1820 ~ 1910)입니다. 나이팅게일은 1854년 크림전쟁의 참상에 자극되어 자원봉사자 38명과 함께 터키로 갔습니다. 그해 겨울 환자의 사망률은 43%에 달했습니다. 당시는 질병의 ..
분석, 어떻게 할 것인가? - (2) 배경지식 쌓기 문제를 정의한 다음 우리가 해야 할 일은 문제와 관련한 배경지식을 쌓는 것입니다. 이 단계에서는 관련된 자료를 최대한 모아 정리하는 것이 매우 중요합니다. 우리가 해결해야 할 문제의 대부분은 이미 해결된 문제일 수도 있습니다. 이미 있는 정보를 활용해야 합니다. 배경지식을 쌓기 위해서는 올바른 정보의 원천을 찾아야 합니다. 사진 :Hash Milhan 키워드 검색을 통한 얼개 그리기 가장 쉬운 방법은 웹에 있는 정보를 활용하는 것입니다. 우선 구글과 네이버 검색엔진을 통해 키워드로 관련 정보를 찾아봅니다. 키워드를 검색 할 때 중요한 점은 찾고자 하는 키워드 뿐만 아니라 유사한 키워드까지 검색해 보는 것, 그리고 키워드를 포함하는 상위 키워드를 검색해 보는 것입니다. 분석과 관련한 검색을 한다고 하면, ..
분석, 어떻게 할 것인가? - (1) 문제 정의하기 매월 결산을 완료하면 이런 질문들이 쏟아집니다. "재료비가 왜 이렇게 높게 나와?", "고정비 10% 줄일려면 어떻게 할거야?" .... 그렇습니다. 사실 분석이란 어쩌면 '왜'라는 질문에서 시작해서 '어떻게'라는 답을 구해가는 과정일지도 모릅니다. 분석을 이렇게 정의 하겠습니다. 분석 : 우리가 해결하고자 하는 문제를 정의하고 효과적이고 의미있는 해결책을 제시하여 분석 정보이용자에게 우리가 의도하는 반응을 이끌어내는 일련의 활동 그리고 이 분석 프로세스를 문제 정의하기, 배경지식 쌓기, 가설 설정하기, 추상화하기, 자료 수집하기, 자료 분석하기, 보고하기의 7단계로 나누어 이야기하려고 합니다. 오늘은 그 첫번째인 문제 정의하기입니다. 발생형, 탐색형, 설정형 문제 분석을 잘하기 위한 첫 단추가 바로 문..
두 편의점 알바생의 이야기 집 앞에 편의점 두 곳이 나란히 붙어 있습니다. 편의상 B와 C라고 하겠습니다. 담배를 피우는 데 항상 두 갑씩 사는 버릇이 있습니다. 주머니에 뭔가 들어있는 게 싫어서 500원짜리 동전을 안 만들려해서 생긴 버릇입니다. B편의점에서 들어가면 일하는 알바생이,"어서오세요! 모히또 6mg 두 갑이시죠?" 라면서 바로 담배 두 갑을 꺼내줍니다.처음에는 그냥 편의점 알바생이 나를 알아보고 살갑게 대하는 것이 불편하고, 어색했습니다. 그래서 '그냥 오늘은 한 갑만 달라고 해볼까?'라고 생각하기도 했습니다. C편의점에도 B편의점과 비슷한 나이대의 알바생이 근무합니다.C편의점에 들어가면 꼭 모히또 담배 두 갑을 달라고 말합니다. 그럼 그 때부터 이런 대화가 오갑니다."몇 mg이요?""6mg이요."그러면 담배 진열대..
북마크 해두면 유용한 인포그래픽 사이트들 일반적으로 흑백보다 컬러가 들어간 것이, 손으로 쓴 것 보다 인쇄된 것이 정보의 신뢰성을 높인다고 합니다. 최근 들어 정보를 시각화해서 보여주는 것이 각광을 받고 있습니다. 삼성경제연구소에서 나온 '빅데이터 경영을 바꾸다'에 따르면, 2011년 인류가 쏟아낸 데이터의 양은 무려 1조 9,000억 기가바이트가 넘어섰다고 합니다. 2020년이면 35조 기가바이트에 이를 전망이라고 합니다. 말 그대로 '데이터의 무한질주 시대' 입니다. 이런 정보를 활자 매체로 소화한다는 것은 거의 불가능한 일입니다. 이런 정보의 홍수 속에서 우리가 전하고자 하는 메시지를 효과적으로 전달하기 위해서 정보를 시각화하는 것은 필수적인 선택입니다. 그 중요한 도구 중의 하나가 인포그래픽 입니다. 저 역시 제품의 원가를 계산하고 분석..
[파이썬] 시퀀스 자료형의 기초 문자열, 리스트, 튜플 같은 자료형을 시퀀스(Sequence) 자료형이라고 합니다. 시퀀스 자료형에 포함된 각 객체는 순서를 가지고, 인덱스(Index)를 사용하여 참조할 수 있습니다. 파이썬에서 문자열(String)은 작은 따옴표 ' '나 큰 따옴표 " "로 묶어 표시하고, 리스트(List)는 대괄호 [ ], 튜플(Tuple)은 소괄호 ( )로 묶어 표시합니다. 각 자료형은 고유한 특성들을 가지기도 하지만, 공통적으로 적용되는 특성들이 있습니다. 인덱싱(Indexing) 인덱싱이란 시퀀스 데이터에서 오프셋(Offset)으로 하나의 객체를 참조하는 것을 말합니다. 여기서 인덱스는 정수이며, 0에서 부터 시작합니다. 1이 아니라 0에서 부터라는 것을 잊지 마세요. 예를 들면 다음과 같습니다. >>> a =..
모건 프리먼 Finger Painting 이 그림(?)을 한 번 보시죠. 이 그림은 Kyle Lambert라는 사람이 IPad의 Procreate라는 앱으로 손으로 그린 모건 프리먼(Morgan Freeman)입니다. 드로잉에 대해 관심이 많아 조금씩 연습하고 있습니다. 하루에 30분 정도라도 꾸준하게 그리려고 합니다. 그런데, 이 작품은 무려 200시간 이상을 투자했고, 285,000번의 스트로크가 들어 갔다고 합니다. 생각을 한 번 해봤습니다. "하루에 10시간씩 그려도 20일 이상 여기에만 투자해야 하는 데, 과연 저 작품 하나가 얼마의 가치를 가질까?" "과연 작가는 저 정도의 시간을 투자해서 저 그림을 그릴만한 노력을 기울일 필요가 있었을까?" 현재 저 동영상은 유튜브에서 1,100만에 약간 못 미치는 조회수를 기록하고 있습니다. 저 ..
플리커(flickr)에서 블로그 적용할 이미지 구하기 "한 장의 그림이 천 마디 말보다 낫다." 이 말은 블로그에도 사실입니다. 누구나 자기 포스트에 멋진 이미지 하나 쯤은 남기고 싶어합니다. 그런데, 현실은 녹록지 않습니다. 사진 한 장 멋드러지게 찍으려면 많은 공부가 필요합니다. 장비도 만만하지 않습니다. 그래서 웹에 있는 이미지들을 검색해 보지만 포스트에 딱 맞는 고품질의 이미지를 찾기도 쉽지 않습니다. 이미지가 좋으면 품질이 떨어지고, 품질이 좋으면 꼭 워터마크가 붙어있습니다. 실제로 아이스탁포토, 게티이미지, 셔터스톡 같은 이미지 전문 사이트에서 품질 좋은 이미지 한 장을 다운 받으려면 한 장에 몇 만원씩을 지불해야 합니다. Creative Commons의 BY 라이센스 이미지 사용하기 그럼 방법이 없는 것일까요? 우리 같은 사람은 블로그에 이미지..