Python(7)
-
seaborn 라이브러리 연습
파이썬의 대표적인 시각화 도구에는 matplotlib와 seaborn이 있다.seaborn은 matplotlib 대비 쉽게 그래프를 그리고 그래프 스타일을 설정할 수 있다는 장점이 있으며,정교하게 그래프의 크기를 조절하거나 각 축의 범례값을 조절할 때에는 matplotlib을 함께 사용하기도 한다. 그러나, seaborn 사용법에 익숙해진다면 큰 문제가 되지 않으므로 많이 연습해보자 필요한 패키지를 임포트import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsdf = pd.read_csv('mpg.csv')df 그래프 4개 그리기import matplotlib.gridspec as gridspec # ..
2024.01.21 -
데이터 시각화
데이터 시각화데이터 시각화는 중요한 데이터 분석의 과정으로, 주로 파이썬 라이브러리 matplotlib 와 seaborn 가 사용된다.특히 seaborn은 matplotlib을 기반으로 만들어져 있어 더 간편하게 사용할 수 있는데,이 두 라이브러리를 이용하여 변수 간의 관계를 확인하고, 도출해낸 인사이트를 시각적으로 뒷받침하는게 중요하다 또한, Tableau와 같은 시각화 도구를 통해 빠르게 데이터를 확인하고,다양한 그래프를 통해 상대방을 설득하는 데 활용할 수 있다. 1. 왜 시각화를 진행하는가?시각화는 데이터 분석으로 도출한 나의 주장이나 가설을 명확하게 전달하기 위해 진행하는데,시각화의 의미가 변수간의 관계 확인 용도 뿐만 아니라 데이터 분석에서 본인의 주장과 가설이 베이스로 진행되기 때문에수치에 ..
2024.01.15 -
데이터 병합
데이터 병합데이터 병합은 DE, DA, DS 등 데이터를 다루는 직군이라면 필수적으로 알아야 하는 개념이다.SQL 쪽에서는 기본적으로 join을 이용하여 테이블 query를 추출하는데,데이터베이스 시스템에서 내부적으로 최적화되어 많은 데이터를 효율적으로 처리 가능! 반면, python은 범용 프로그래밍 언어이기 때문에 데이터 처리에 특화된 최적화가 내장되어 있지 않다. 이는 대용량 데이터를 다루거나 복잡한 데이터 조작이 필요한 경우 성능 이슈가 발생할 수 있는 것! 1. Concat()이전 포스팅에서 간단히 다룬 concat() 함수는 데이터프레임끼리 합쳐지는 것이다.그렇기 때문에 따로 어떤 join 조건은 없다. concat 함수의 매개변수에는 axis 와 ignore_index 가 있다.# axis ..
2024.01.15 -
데이터 전처리 문법 중급
이번 포스팅에서는 시계열 데이터 전처리에서 사용되는 문법을 다뤄본다. # 파일 불러오기import pandas as pddf = pd.read_csv('gapminder.tsv', sep='\t') 1. Groupby1주차에서 배운 Groupby() 함수는 시계열 데이터에서도 유용하게 사용한다.# 바로 컬럼을 지정하여 통계치를 볼 수 있다.df.groupby('year').lifeExp.mean() 만약 컬럼을 2가지 이상 잡게 된다면?df.groupby('year')[['lifeExp', 'pop']].mean() 1주차에서 groupby() 함수는 .agg() 함수와 자주 함께 사용된다는 것을 배웠다..agg() 함수는 내가 원하는 함수를 만들어서 넣을 수 있다는 것을 명심하자!# 내가 원하는 함수를..
2024.01.12 -
Outlier!
이상치(Outlier)이상치(Outlier)란, 보통 관측된 데이터의 범위에서 많이 벗어난 작은 값이나 큰 값을 말한다. 극단적인 값이고, 전체 데이터 범위를 넘는 값이므로 이 데이터를 무조건 제거해야 하는가?라는 질문에 대한 답을 한다면 글쎄.. 예를 들어, 백화점 고객데이터에서 일반고객과 vip고객의 데이터를 비교하면 vip 고객은 outlier일 것이다.그러나, 백화점 입장에서 보면 Outlier에 속해있는 vip고객 데이터를 더 집중해야하는 고객이라 판단하고, 이 부분에 대해 고민해야 한다. 즉, 데이터 분포가 outlier와 기존의 데이터분포로 나눠진다면과연 outlier 의미가 이상치인지 의미있는 데이터인지 의심을 해봐야 하는 것! 이상치 처리이러한 이상치가 의사결정에 큰 영향을 미칠 수 있..
2024.01.12 -
회귀분석 MSE 차이 비교 실습
보간법을 사용하여 결측치를 보간하고, sklearn-impute 라이브러리를 이용해서 회귀분석을 진행해보자 회귀분석을 통해 mse 차이 비교1) 필요한 패키지 임포트# sklearn-learn에서 일부 실험적이거나 미완성 기능 사용 시 experimental 모듈 제공# 명시적으로 활성화해야만 사용할 수 있음# Imputeation 대체 방법을 사용하는 Imputer 활성화from sklearn.experimental import enable.iterative_imputer# 결측값 예측에 회귀 모델을 반복적으로 사용하여 결측값을 대체하는 도구 임포트from sklearn.impute import IterativeImputerimport pandas as pdimport seaborn as snsimpo..
2024.01.08