Python/Data science
상관 계수 시각화
wookhyung
2020. 11. 12. 15:47
728x90
학생들의 시험 점수 데이터가 있습니다. 데이터 사이의 상관 계수를 살펴봅시다.
DataFrame의 corr() 메소드를 사용하면, 숫자 데이터 사이의 상관 계수를 보여줍니다.
%matplotlib inline
import pandas as pd
df = pd.read_csv('data/exam.csv')
df.corr()
상관 계수도 DataFrame 형태로 출력됩니다. 하지만 숫자가 많다보니 한눈에 잘 들어오지 않을 수 있는데요. 이럴 때 히트맵을 사용합니다. 히트맵은 상관 계수를 시각화하는 대표적인 방법입니다. 상관 계수는 시각화해서 보는 경우가 많습니다. Seaborn을 이용하면 히트맵을 그릴 수 있습니다.
상관 계수의 결과를 Seaborn의 heatmap 메소드에 넘겨주면 됩니다.
%matplotlib inline
import pandas as pd
import seaborn as sns
df = pd.read_csv('data/exam.csv')
sns.heatmap(df.corr())
색이 밝을수록 상관 계수가 더 높다는 의미입니다. 읽기 점수(reading score)와 쓰기 점수(writing score) 사이의 상관 관계가 가장 강하다는 것을 한 눈에 알 수 있네요.
annot=True 옵션을 추가해주면, 색상 뿐 아니라 숫자도 함께 보여줍니다.
%matplotlib inline
import pandas as pd
import seaborn as sns
df = pd.read_csv('data/exam.csv')
sns.heatmap(df.corr(), annot=True)