728x90
학생들의 시험 점수 데이터가 있습니다. 데이터 사이의 상관 계수를 살펴봅시다.
DataFrame의 corr() 메소드를 사용하면, 숫자 데이터 사이의 상관 계수를 보여줍니다.
%matplotlib inline
import pandas as pd
df = pd.read_csv('data/exam.csv')
df.corr()
상관 계수도 DataFrame 형태로 출력됩니다. 하지만 숫자가 많다보니 한눈에 잘 들어오지 않을 수 있는데요. 이럴 때 히트맵을 사용합니다. 히트맵은 상관 계수를 시각화하는 대표적인 방법입니다. 상관 계수는 시각화해서 보는 경우가 많습니다. Seaborn을 이용하면 히트맵을 그릴 수 있습니다.
상관 계수의 결과를 Seaborn의 heatmap 메소드에 넘겨주면 됩니다.
%matplotlib inline
import pandas as pd
import seaborn as sns
df = pd.read_csv('data/exam.csv')
sns.heatmap(df.corr())
색이 밝을수록 상관 계수가 더 높다는 의미입니다. 읽기 점수(reading score)와 쓰기 점수(writing score) 사이의 상관 관계가 가장 강하다는 것을 한 눈에 알 수 있네요.
annot=True 옵션을 추가해주면, 색상 뿐 아니라 숫자도 함께 보여줍니다.
%matplotlib inline
import pandas as pd
import seaborn as sns
df = pd.read_csv('data/exam.csv')
sns.heatmap(df.corr(), annot=True)
'Python > Data science' 카테고리의 다른 글
numpy 기본 통계 (0) | 2020.11.23 |
---|---|
numpy array를 만드는 다양한 방법 (0) | 2020.11.23 |
리스트와 문자열 정리 (0) | 2020.11.23 |
리스트 팁 (0) | 2020.11.23 |
데이터 다운로드 받기 (0) | 2020.11.18 |