분류 전체보기(28)
-
프로젝트 #0 연합동아리 프로젝트 시작
개요연합동아리 데이터분석 프로젝트로 소비자 패션 브랜드 제품 구매 편의성을 향상을 위해분산되어 있는 플랫폼 정보를 한 번에 보여주는 대시보드를 제작하기로 했다. 대시보드 요소추후 수정될 예정이지만, 대시보드 요소는 다음과 같다. 팀원들과의 무신사크롤링/인스타그램/유튜브로 파트 분배를 하여 우선적으로 데이터셋을 준비하기로 하였고,나는 그 중 인스타그램 크롤링을 맡았다. 그동안 캐글 데이터셋을 이용한 전처리는 경험이 있지만,직접 크롤링하여 raw 데이터셋부터 준비하는 것은 처음이라 많은 어려움이 있을 것 같아 걱정된다.그렇지만, 백지 상태로 하나하나씩 채워넣는 공부를 한다는 마음으로 ...해보자 화이팅
2024.06.03 -
Data preprocessing
데이터 전처리데이터 분석 전 데이터를 정제, 변형하여 분석에 적합한 형태로 만드는 과정실무에서 접하는 데이터는 messy 한 특징을 가지고 있어 유의미한 결과 도출을 위해 필수적이다. STEP 1 : 데이터 수집데이터를 수집하는 단계로, 원시 데이터를 모으고 저장하는 과정 수집 방법의 종류(데이터의 형태, 종류에 따라 수집방법 결정)1. Web Crawling2. 로그 수집3. etc. STEP 2 : 데이터 정제데이터의 불필요한 정보 or 오류를 제거하여 데이터의 신뢰도를 높이는 과정 (결측치 or 이상치 처리) 데이터 정제 절차1. 오류 원인 분석2. 정제 대상 선정 → 초기에는 모든 데이터를 대상으로 정제 진행3. 정제 방법 결정 ex) 오류 데이터 삭제, 대체, 예측값 삽입 등 데..
2024.05.05 -
Data Analysis Overview
데이터 분석의 목적1. 목적, 평가 지표 결정무엇을 위해, 어떤 데이터를 사용하여 어떤 분석을 하고, 그 결과로 어떤 지표로 평가할지 결정한다. 2. 데이터 수집내부와 외부 환경에서 데이터를 수집한다. 3. 데이터 가공 및 전처리여러 데이터를 통합하여 분석에 적합한 포맷으로 가공하고 결측치 등을 처리한다. 4. EDA & 시각화데이터 분포나 경향, 개요 등을 시각화하여 확인하고 가설이나 의문, 과제 등을 정리한다. 5. 특징 값 추출머신러닝 모델에 입력할 수 있는 다양한 특징 값을 작성한다. 6. 모델 작성, 예측 및 분류모델의 하이퍼파라미터를 조정하면서 예측 정밀도가 높은 모델을 작성한다. 7. 모델 검증작성한 모델을 이용하여 테스트 과정을 거치며 효과를 검증한다. 데이터분석 용어 정리목적변수 : ..
2024.05.05 -
[8주차] seaborn 라이브러리 연습
파이썬의 대표적인 시각화 도구에는 matplotlib와 seaborn이 있다. seaborn은 matplotlib 대비 쉽게 그래프를 그리고 그래프 스타일을 설정할 수 있다는 장점이 있으며, 정교하게 그래프의 크기를 조절하거나 각 축의 범례값을 조절할 때에는 matplotlib을 함께 사용하기도 한다. 그러나, seaborn 사용법에 익숙해진다면 큰 문제가 되지 않으므로 많이 연습해보자 필요한 패키지를 임포트 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns df = pd.read_csv('mpg.csv') df 그래프 4개 그리기 import matplotlib.gridspec as gr..
2024.01.21 -
[7주차] 데이터 시각화
데이터 시각화 데이터 시각화는 중요한 데이터 분석의 과정으로, 주로 파이썬 라이브러리 matplotlib 와 seaborn 가 사용된다. 특히 seaborn은 matplotlib을 기반으로 만들어져 있어 더 간편하게 사용할 수 있는데, 이 두 라이브러리를 이용하여 변수 간의 관계를 확인하고, 도출해낸 인사이트를 시각적으로 뒷받침하는게 중요하다 또한, Tableau와 같은 시각화 도구를 통해 빠르게 데이터를 확인하고, 다양한 그래프를 통해 상대방을 설득하는 데 활용할 수 있다. 1. 왜 시각화를 진행하는가? 시각화는 데이터 분석으로 도출한 나의 주장이나 가설을 명확하게 전달하기 위해 진행하는데, 시각화의 의미가 변수간의 관계 확인 용도 뿐만 아니라 데이터 분석에서 본인의 주장과 가설이 베이스로 진행되기 때..
2024.01.15 -
[6주차] 데이터 병합
데이터 병합 데이터 병합은 DE, DA, DS 등 데이터를 다루는 직군이라면 필수적으로 알아야 하는 개념이다. SQL 쪽에서는 기본적으로 join을 이용하여 테이블 query를 추출하는데, 데이터베이스 시스템에서 내부적으로 최적화되어 많은 데이터를 효율적으로 처리 가능! 반면, python은 범용 프로그래밍 언어이기 때문에 데이터 처리에 특화된 최적화가 내장되어 있지 않다. 이는 대용량 데이터를 다루거나 복잡한 데이터 조작이 필요한 경우 성능 이슈가 발생할 수 있는 것! 1. Concat() 이전 포스팅에서 간단히 다룬 concat() 함수는 데이터프레임끼리 합쳐지는 것이다. 그렇기 때문에 따로 어떤 join 조건은 없다. concat 함수의 매개변수에는 axis 와 ignore_index 가 있다. #..
2024.01.15