본문 바로가기

파이썬

(5)
데이터 분석을 위한 파이썬 필수라이브러리 데이터 분석을 위해서는 분석할 문제를 정의하는 단계에서 분석결과를 보고하는 단계까지 여러단계가 이루어진다고 포스팅했습니다. 이 중 첫 4단계는 컴퓨터의 도움없이 연필과 종이로 충분히 할 수 있습니다. 하지만, 실제 데이터를 수집하고, 가공해서, 보여주는 단계에 이르면 수작업만으로는 한계가 있습니다. 파이썬은 데이터 분석을 위한 다양한 라이브러리를 제공합니다. 데이터를 수집하고, 가공하고, 시각화하는 데 필수적인 파이썬 라이브러리를 소개하도록 하겠습니다. 데이터 수집 - Beautiful Soup Beautiful Soup 라이브러리는 강력한 HTML 파싱 라이브러리입니다. 우리가 분석을 위해 수집하는 데이터의 대부분은 웹 상에 존재합니다. 웹페이지는 태그가 포함된 HTML파일을 브라우저가 해석해 우리에게..
Beautiful Soup 라이브러리로 기온데이터 수집하기 작년 한 해 서울의 기온은 어떻게 변했을까요? 이런 작업을 하려면 날씨정보가 어디있는지 알아야 하고, 그 정보를 활용해서 우리가 보고싶은 모습으로 표현할 수 있어야 합니다. Weather Underground에서는 전세계의 날씨 데이터를 일자별, 주별, 월별, 기간별로 제공하고 있습니다. 한 가지 문제가 있습니다. 우리가 원하는 것은 일별 데이터인데 모두 확인하려면 대단한 노가다(?)를 해야한다는 것입니다. 파이썬의 Beautiful Soup 라이브러리를 활용하면 이 작업을 쉽게 처리할 수 있습니다. Beautiful Soup라이브러리는 html과 xml로 부터 데이터를 뽑아내기 위한 라이브러리 입니다. Beautiful Soup Document를 보시면 자세한 내용을 확인 할 수 있습니다. 이 라이브러..
파이썬으로 삼각함수표 만들기 읽기 전에 추천 한 번! 블로거에겐 큰 힘입니다 사진은 세상에서 가장 높은 빌딩인 아랍에미레이트 두바이의 부르즈 할리파의 모습입니다. 그 높이가 829.8미터에 이릅니다. 높이가 829.8미터라는 것을 어떻게 측정 할 수 있을까요? 꼭대기에 올라가서 아주 긴 자를 가지고 땅으로 떨어뜨려 보는 방법도 있겠지요. 하지만 너무 위험합니다. 그럼 다른 방법은 없을까요? 고대 그리스의 천문학자들 역시 비슷한 고민을 했습니다. 지구에서 별까지의 거리를 측정하는 것입니다. 이런 문제들을 삼각함수를 활용하면 풀 수 있습니다. 건물의 높이 계산, 별까지의 거리계산 외에도 벡터계산, 진동, 음향, 파동 등의 그래프 표현, 항공기의 항법장치 등 수많은 분야에 활용되고 있습니다. 여기서는 삼각함수의 기본적인 개념을 살펴보고 ..
빅데이터 분석을 위한 필수 분석도구 OS를 XP에서 윈도우7로 새로 설치했습니다. 항상 느끼는 거지만 OS를 새로 설치하고 기존에 사용하던 프로그램을 새로 설치하는 것은 상당한 작업량입니다. 데이터 수집, 가공, 분석, 그리고 시각화를 위해서는 많은 프로그램들이 필요합니다. 데이터 분석을 위한 도구들을 정리해 보기로 마음 먹었습니다. 그 도구들을 소개합니다. Microsoft Office 프로그램 숫자를 다룬다면 Excel 너무나 유명한 스프레드시트 프로그램입니다. 회사에서든 집에서는 숫자를 다루는 대부분의 작업을 엑셀로 합니다. 엑셀을 워드프로세스로 사용하는 것도 좋습니다. 엑셀도 다양한 함수와 VBA라는 프로그래밍 언어를 제공하고 있어 왠만한 데이터 분석은 엑셀만 이용하면 충분합니다. 스프레드시트 프로그램은 셀에 데이터를 입력하는 데 ..
[파이썬] 문자열 메서드 활용하기 데이터 분석을 위해서는 원시 데이터를 가공하는 능력이 중요합니다. 파이썬에서 제공하는 리스트, 문자열 메소드와 for문을 통해 리눅스의 'etc/passwd'파일에서 사용자 id만을 추출하는 방법을 살펴 보겠습니다. 만약 리눅스를 사용하고 있다면, 'etc/passwd'파일을 열어보시기 바랍니다. 아래와 같은 형식으로 되어 있을 것입니다.root:x:0:0:root:/root:/bin/bash bin:x:1:1:bin:/bin:/sbin/nologin daemon:x:2:2:daemon:/sbin:/sbin/nologin adm:x:3:4:adm:/var/adm:/sbin/nologin lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin sync:x:5:0:sync:/sbin:/bi..