본문 바로가기

전체 글

(97)
넷플릭스, 영화추천의 비밀과 상관계수 넷플릭스의 최근 성장세가 무섭습니다. 넷플릭스는 지난해 4분기 4,840만달러(약 515억원)의 순이익을 기록했습니다. 이는 2013년 전체 순이익의 43%입니다. 북미시장에서의 비디오 스트리밍 서비스 역시 전년비 7%포인트 상승하며 압도적인 1위를 차지하고 있습니다. 주가역시 올해들어 고전하는 양상을 보이다 지난 1월 22일 실적발표 후 급반등했습니다. [넷플릭스의 2013년 분기별 순이익, 자료: 비즈니스위크] [북미시장의 비디오 스트리밍 서비스 점유율, 자료:statista] [넷플릭스의 최근 1년간 주가 현황, 자료: Yahoo Finance] 넷플릭스는 잘 알려진 바와 같이 영화추천기능을 가진 미국의 온라인 DVD서비스 업체입니다. 1997년 리드 헤이스팅스(Wilmot Reed Hastings..
[R프로그래밍] 한국인의 평균키와 몸무게로 회귀분석하기 키가 큰 부모를 둔 자녀들은 키가 클 확률이 높을 것입니다. 그렇다면 세대가 거듭될 수록 키는 무한히 커질까요? 그렇지는 않습니다. 19세기 영국의 화학자인 프랜스시 골턴(Francis Galton, 1822~1911)은 키가 큰 부모들이 낳은 자식들이 키가 점점 더 커지지 않고, 다시 평균으로 회귀한다는 경향을 보고 '회귀(regression)'라는 개념을 사용했습니다. 통계학에서는 '평균으로의 회귀(regression toward mean)'라고 부릅니다. 회귀분석의 개념과 유형 회귀분석은 하나 또는 그 이상의 독립변수(설명변수, 예측변수, 통제변수등으로 불리기도 함)가 한 단위 변할 때, 종속변수에 미치는 영향력을 예측할 때 주로 사용하는 통계분석 기법입니다. 독립변수는 입력 값이나 원인을 말하며,..
데이터베이스 즐겨찾기 본 페이지는 한국데이터베이스진흥원의 '데이터베이스 및 데이터베이스 기술분류 표준안'을 참고하여 분류 데이터베이스운영기관 주요정보 Weather Underground- - 전 세계의 날씨를 기상지도와 함께 제공 The World FactbookCIA - 세계의 역사, 인구, 정부, 경제, 교통 등의 정보 Creative CommonsFlickr - Flickr Creative Commons 라이센스 이미지 제공 Data.gov미국정부 - 미국연방정부에서 발행하는 데이터의 집합 UN data UN - 인구, 교육, 경제, 사회개발 등에 대한 데이터의 집합 데이터베이스 운영기관 주요정보 국가통계포털(KOSIS) 통계청 - 국내 인구, 가구, 환경, 교통, 금융, 고용, 교육 등 통계정보 언론재단(Kinds) ..
책 읽기의 즐거움 9월 2건, 10월 1건, 11월 3건, 12월 26건, 1월 34건. 블로그에 본격적으로 글을 올리기 시작한지 2개월 여가 지났습니다. 어제 처음으로 일방문자 500명을 돌파했습니다. 여느 파워블로거에 비하면 보잘 것 없을 지 모르나 저에게는 큰 기쁨입니다. 사진 : Abee5 블로그에 글을 쓰기 시작하면서 한 가지 다짐을 했습니다. "이제 글을 쓰기 위해 공부한다." 좋은 생각이었습니다. 하지만 문제가 생겼습니다. 평소에도 책을 상당히 빨리 읽는 편인데 그 속도가 점점 빨라지는 것입니다. 책 한 권을 접하면 목차, 페이지수, 판형을 훑어보고 대충 읽는 데 걸리는 시간을 계산합니다. 신국판(148X225mm) 300페이지 분량의 실용서면 '3시간 정도면 읽겠다'라고 생각하는 것입니다. 그리고 그 시간 ..
웹툰 작가의 라이프 스타일 만화 좋아 하시나요? 아이큐 점프에서 별책부록으로 연재되던 드래곤 볼이 제 기억 속의 첫번째 만화인데요. 그 이후로 참 많은 만화를 봐왔습니다. 한국 작가는 박인권, 이현세, 박봉성을 좋아하고, 일본은 미야자키 하야오, 이노우에 다케히코, 에가와 타츠야를 좋아합니다. 요즘은 만화방에 가서 만화를 볼 일이 거의 없습니다. 대신 컴퓨터와 스마트 폰으로 웹툰을 봅니다. 목욕의 신, 미생, 프리드로우 같은 웹툰을 재미있게 봤습니다. 요즘처럼 우리나라의 만화가 다양하게 제작되었던 적이 있나 싶습니다. 개인적으로 그림을 보는 것도 그리는 것도 좋아합니다. 블로그 포스팅을 본격적으로 하게 되면서 '나도 그림으로 포스팅을 해볼까?' 생각도 했지만 너무 많은 시간을 투입해야 하는 작업이라 뒤로 미뤘습니다. 하지만, 웹툰..
[R프로그래밍] 벡터의 의미와 벡터 관련 함수 물리학에서는 양을 스칼라와 벡터로 구분합니다. 스칼라가 크기만 가지고 있는 양인데 반해 벡터는 크기와 방향을 모두 가지고 있는 양을 의미합니다. R에서 벡터는 이와는 약간 다릅니다. R에서의 벡터의 의미, 특징, 그리고 벡터와 관련한 함수들에 대해 이야기해 보겠습니다. 벡터의 의의와 특징R에서의 벡터는 단순한 자료형이 아닙니다. R은 여러 값을 집합으로 처리하는데 막강한 기능을 발휘합니다. 여러 값을 하나로 처리하기 위해 벡터를 사용합니다. 벡터는 C에서 사용하는 배열과 유사합니다. 벡터는 '값들의 집합'이라고 생각하면 됩니다. 실제로 R에서는 스칼라인 하나의 숫자도 하나의 원소를 가진 벡터로 취급합니다. 어떤 벡터 안의 각 수치를 요소라고 부릅니다. R에서 벡터의 특징은 아래와 같습니다. 1. 벡터는 ..
[R프로그래밍] 서울의 기온데이터로 박스플롯 그리기 지난 포스팅에서 Beautiful Soup Library를 활용하여 작년 서울의 기온데이터를 수집했습니다. 오늘은 이 데이터를 가지고 월별로 기온이 어떻게 변했는지 그래프를 그려보겠습니다. 그래프를 그리는 방법은 다양합니다. 엑셀의 차트, 파이썬의 matplotlib 라이브러리, R의 ggplot2 패키지를 활용할 수 있습니다. 저는 R이 가장 쉽고, 편하고, 다양한 결과물을 만들어 낼 수 있어 즐겨 사용하는 편입니다. 오늘 그려볼 그래프는 R의 ggplot2를 이용해 월별 기온변화에 대한 박스플롯 그리기입니다. 데이터 정비하기 우리가 사용할 데이터는 Weather Underground에서 수집한 작년 한 해 서울의 일별 평균, 최고, 최저기온입니다. 그래프를 그리기 전에 먼저 데이터를 살펴보도록 하겠습..
분석이란 무엇인가? 분석은 호기심과 관찰에서 시작됩니다. 똑같은 일상을 살고, 똑같은 대상을 보더라도 사람마다 보는 방식이 다릅니다. 경험, 관심, 지식, 관점이 다르기 때문입니다. 한가지는 분명합니다. 삼라만상이 분석의 대상이라는 것입니다. 분석을 나름대로 정의하고 분석을 잘하기 위해 일반적으로 적용가능한 방법들을 정리해 봤습니다. 사진: morebyless 읽기 전에 추천 한 번! 블로거에겐 큰 힘입니다 'Divide and Conquer'. 좋아하는 말입니다. 분석은 대상을 쪼개는 것에서 시작합니다. 분석의 한자도 '나눌 분(分)'자와 '쪼갤 석(析)'자를 씁니다. 나누고 쪼개는 것. 분석 그 자체 입니다. 어떻게 나누느냐가 중요합니다. 나눌 때 지켜야할 몇 가지 원칙이 있습니다. 첫째, 중복이나 누락이 없어야 합니다..