상관 계수 시각화

Python/Data science

상관 계수 시각화

wookhyung 2020. 11. 12. 15:47

728x90

학생들의 시험 점수 데이터가 있습니다. 데이터 사이의 상관 계수를 살펴봅시다.

DataFrame의 corr() 메소드를 사용하면, 숫자 데이터 사이의 상관 계수를 보여줍니다.

%matplotlib inline
import pandas as pd

df = pd.read_csv('data/exam.csv')

df.corr()

상관 계수도 DataFrame 형태로 출력됩니다. 하지만 숫자가 많다보니 한눈에 잘 들어오지 않을 수 있는데요. 이럴 때 히트맵을 사용합니다. 히트맵은 상관 계수를 시각화하는 대표적인 방법입니다. 상관 계수는 시각화해서 보는 경우가 많습니다. Seaborn을 이용하면 히트맵을 그릴 수 있습니다.

상관 계수의 결과를 Seaborn의 heatmap 메소드에 넘겨주면 됩니다.

%matplotlib inline
import pandas as pd
import seaborn as sns

df = pd.read_csv('data/exam.csv')

sns.heatmap(df.corr())

색이 밝을수록 상관 계수가 더 높다는 의미입니다. 읽기 점수(reading score)와 쓰기 점수(writing score) 사이의 상관 관계가 가장 강하다는 것을 한 눈에 알 수 있네요.

annot=True 옵션을 추가해주면, 색상 뿐 아니라 숫자도 함께 보여줍니다.

%matplotlib inline
import pandas as pd
import seaborn as sns

df = pd.read_csv('data/exam.csv')

sns.heatmap(df.corr(), annot=True)

'Python > Data science' 카테고리의 다른 글

numpy 기본 통계 (0)	2020.11.23
numpy array를 만드는 다양한 방법 (0)	2020.11.23
리스트와 문자열 정리 (0)	2020.11.23
리스트 팁 (0)	2020.11.23
데이터 다운로드 받기 (0)	2020.11.18

현재글상관 계수 시각화

CORR, round, Python, Seaborn, 엘리스, pandas, random, list, format, 엘리스 SW 엔지니어 트랙, 데이터다운로드, 부트캠프, dataframe, 코딩,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Connecting the dots