Python/Data science 7

pandas의 데이터 타입

pandas DataFrame에는 다양한 종류의 데이터를 담을 수 있습니다. dtypes를 사용해서 각 column이 어떤 데이터 타입을 보관하는지 확인할 수 있는데요. import pandas as pd two_dimensional_list = [['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75]] my_df = pd.DataFrame(two_dimensional_list, columns=['name', 'english_score', 'math_score'], index=['a', 'b', 'c', 'd']) print(my_df.dtypes) name object english_score int64 mat..

Python/Data science 2020.11.23

numpy 기본 통계

numpy 라이브러리는 기본적인 통계 기능도 제공합니다. 최댓값, 최솟값 max 메소드와 min 메소드를 사용하면 numpy array의 최댓값과 최솟값을 구할 수 있습니다. import numpy as np array1 = np.array([14, 6, 13, 21, 23, 31, 9, 5]) print(array1.max()) # 최댓값 print(array1.min()) # 최솟값 31 5 평균값 mean 메소드를 사용하면 numpy array의 평균값을 구할 수 있습니다. import numpy as np array1 = np.array([14, 6, 13, 21, 23, 31, 9, 5]) print(array1.mean()) # 평균값 15.25 위 예시에서, 총합(14 + 6 + 13 + 2..

Python/Data science 2020.11.23

numpy array를 만드는 다양한 방법

파이썬 리스트를 통해 생성 numpy 모듈의 array 메소드에 파라미터로 파이썬 리스트를 넘겨주면 numpy array가 리턴됩니다. array1 = numpy.array([2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31]) print(array1) [ 2 3 5 7 11 13 17 19 23 29 31] 균일한 값으로 생성 numpy 모듈의 full 메소드를 사용하면, 모든 값이 같은 numpy array를 생성할 수 있습니다. array1 = numpy.full(6, 7) print(array1) [7 7 7 7 7 7] 모든 값이 0인 numpy array 생성 모든 값이 0인 numpy array를 생성하기 위해서는 full 메소드를 사용하면 되겠죠. 하지만 사실은 더 간편..

Python/Data science 2020.11.23

리스트와 문자열 정리

리스트와 문자열은 굉장히 비슷합니다. 리스트가 어떤 자료형들의 나열이라면, 문자열은 문자들의 나열이라고 할 수 있겠죠. 지금부터 파이썬에서 리스트와 문자열이 어떻게 같고 어떻게 다른지 알아봅시다. 인덱싱 (Indexing) 두 자료형은 공통적으로 인덱싱이 가능합니다. # 알파벳 리스트의 인덱싱 alphabets_list = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'] print(alphabets_list[0]) print(alphabets_list[1]) print(alphabets_list[4]) print(alphabets_list[-1]) # 알파벳 문자열의 인덱싱 alphabets_string = 'ABCDEFGHIJ' print(alphabets_s..

Python/Data science 2020.11.23

리스트 팁

리스트에서 값의 존재 확인하기 어떤 값이 리스트에 있는지 확인하는 함수를 써보겠습니다. # value가 some_list의 요소인지 확인 def in_list(some_list, value): i = 0 while i < len(some_list): # some_list에서 value를 찾으면 True를 리턴 if some_list[i] == value: return True i = i + 1 # 만약 some_list에서 value를 발견하지 못했으면 False를 리턴 return False # 테스트 primes = [2, 3, 5, 7, 11, 13, 17, 19, 23] print(in_list(primes, 7)) print(in_list(primes, 12)) True False 쓰는데 아주 ..

Python/Data science 2020.11.23

데이터 다운로드 받기

데이터를 구하는 가장 쉬운 방법은, 이미 누군가 만들어둔 데이터를 사용하는 것입니다. 대표적으로, 국가 기관에서는 공익 목적으로 여러 데이터를 공개합니다. 그 외에도 데이터를 검색하는 사이트나, 데이터를 공유하는 사이트들이 있죠. 국내 사이트 서울열린데이터광장 https://data.seoul.go.kr/ 공공데이터포털 https://www.data.go.kr e-나라지표 http://www.index.go.kr/ 국가통계포털 http://kosis.kr 서울특별시 빅데이터 캠퍼스 https://bigdata.seoul.go.kr/ 통계청 http://kostat.go.kr/ 각 사이트를 보면, 여러 분야의 데이터를 다운로드 받을 수 있습니다. 혹은 원하는 데이터를 신청하면 제공해주기도 합니다. 그 외에..

Python/Data science 2020.11.18

상관 계수 시각화

학생들의 시험 점수 데이터가 있습니다. 데이터 사이의 상관 계수를 살펴봅시다. DataFrame의 corr() 메소드를 사용하면, 숫자 데이터 사이의 상관 계수를 보여줍니다. %matplotlib inline import pandas as pd df = pd.read_csv('data/exam.csv') df.corr() 상관 계수도 DataFrame 형태로 출력됩니다. 하지만 숫자가 많다보니 한눈에 잘 들어오지 않을 수 있는데요. 이럴 때 히트맵을 사용합니다. 히트맵은 상관 계수를 시각화하는 대표적인 방법입니다. 상관 계수는 시각화해서 보는 경우가 많습니다. Seaborn을 이용하면 히트맵을 그릴 수 있습니다. 상관 계수의 결과를 Seaborn의 heatmap 메소드에 넘겨주면 됩니다. %matplot..

Python/Data science 2020.11.12