Python/Data science

상관 계수 시각화

wookhyung 2020. 11. 12. 15:47
728x90

 

학생들의 시험 점수 데이터가 있습니다. 데이터 사이의 상관 계수를 살펴봅시다.

DataFrame의 corr() 메소드를 사용하면, 숫자 데이터 사이의 상관 계수를 보여줍니다.

%matplotlib inline
import pandas as pd

df = pd.read_csv('data/exam.csv')

df.corr()

 

 

상관 계수도 DataFrame 형태로 출력됩니다. 하지만 숫자가 많다보니 한눈에 잘 들어오지 않을 수 있는데요. 이럴 때 히트맵을 사용합니다. 히트맵은 상관 계수를 시각화하는 대표적인 방법입니다. 상관 계수는 시각화해서 보는 경우가 많습니다. Seaborn을 이용하면 히트맵을 그릴 수 있습니다.

상관 계수의 결과를 Seaborn의 heatmap 메소드에 넘겨주면 됩니다.

 

%matplotlib inline
import pandas as pd
import seaborn as sns

df = pd.read_csv('data/exam.csv')

sns.heatmap(df.corr())

 

 

 

 

 

 

색이 밝을수록 상관 계수가 더 높다는 의미입니다. 읽기 점수(reading score)와 쓰기 점수(writing score) 사이의 상관 관계가 가장 강하다는 것을 한 눈에 알 수 있네요.

annot=True 옵션을 추가해주면, 색상 뿐 아니라 숫자도 함께 보여줍니다.

%matplotlib inline
import pandas as pd
import seaborn as sns

df = pd.read_csv('data/exam.csv')

sns.heatmap(df.corr(), annot=True)

 

 

 

 

 

 

 

 

'Python > Data science' 카테고리의 다른 글

numpy 기본 통계  (0) 2020.11.23
numpy array를 만드는 다양한 방법  (0) 2020.11.23
리스트와 문자열 정리  (0) 2020.11.23
리스트 팁  (0) 2020.11.23
데이터 다운로드 받기  (0) 2020.11.18