Portfolio/BDA 7기(8)
-
[2주차] 결측치와 누락값
결측치와 누락값 결측치와 누락값은 데이터 분석에서 중요한 요소로 간주된다. 결측치는 실제로 값이 없는 상황, 누락값은 휴먼 에러 등으로 인해 빠진 값이다. 둘 다 " 값이 없다"는 NA, NaN과 같은 표현으로 나타낼 수 있다. 순수한 결측치 vs na값 자체가 값인 경우 예를 들어, 설문조사에서 "가장 선호하는 색깔은?" 이라는 질문에 대답하지 않은 경우 해당 값은 결측치가 된다. 이는 데이터에서 값이 실제로 빠져있어서 해당 위치에 아무런 정보가 없는 경우를 의미한다. 반면, 통신이나 센서 데이터에서 "na"값은 신호 강도가 부족하거나 데이터의 품질이 낮은 상태를 나타낸다. 이 경우, "na"값은 특별한 상태를 나타내는 것! 결측치 & 누락값을 왜 처리하여야 하는가? 데이터의 정확성과 분석 결과의 신뢰..
2024.01.07 -
[1주차] 데이터 전처리 기본기
데이터 분석에 필요한 기초문법 pandas 라이브러리에서 제공하는 기초 문법들은 여러가지가 있지만, 그 중 데이터 전처리에 필요한 기초 문법들 중 필수적인 문법 몇 가지만 알아보자 먼저 pandas 라이브러리를 임포트하고, 예제 파일 학생들의 반 별(nclass) 과목별 점수가 나와있는 exam.csv 파일을 불러온다. import pandas as pd df = pd.read_csv('exam.csv') 1. query() query() 함수는 행 데이터를 추출할 때 사용한다. 예를 들어, 데이터프레임(df) 데이터를 추출할 때 학생(id), 반(nclass)와 같은 연속적인 범주형 데이터를 추출할 수 있다. query() 괄호 안에 다양한 조건들을 넣어 원하는 조건의 데이터를 추출할 수 있다. # C..
2024.01.02