상관 계수 시각화

Python/Data science

상관 계수 시각화

wookhyung 2020. 11. 12. 15:47

728x90

학생들의 시험 점수 데이터가 있습니다. 데이터 사이의 상관 계수를 살펴봅시다.

DataFrame의 corr() 메소드를 사용하면, 숫자 데이터 사이의 상관 계수를 보여줍니다.

%matplotlib inline
import pandas as pd

df = pd.read_csv('data/exam.csv')

df.corr()

상관 계수도 DataFrame 형태로 출력됩니다. 하지만 숫자가 많다보니 한눈에 잘 들어오지 않을 수 있는데요. 이럴 때 히트맵을 사용합니다. 히트맵은 상관 계수를 시각화하는 대표적인 방법입니다. 상관 계수는 시각화해서 보는 경우가 많습니다. Seaborn을 이용하면 히트맵을 그릴 수 있습니다.

상관 계수의 결과를 Seaborn의 heatmap 메소드에 넘겨주면 됩니다.

%matplotlib inline
import pandas as pd
import seaborn as sns

df = pd.read_csv('data/exam.csv')

sns.heatmap(df.corr())

색이 밝을수록 상관 계수가 더 높다는 의미입니다. 읽기 점수(reading score)와 쓰기 점수(writing score) 사이의 상관 관계가 가장 강하다는 것을 한 눈에 알 수 있네요.

annot=True 옵션을 추가해주면, 색상 뿐 아니라 숫자도 함께 보여줍니다.

%matplotlib inline
import pandas as pd
import seaborn as sns

df = pd.read_csv('data/exam.csv')

sns.heatmap(df.corr(), annot=True)