Data Analysis(15)
-
[Bias-Variance Trade-off] 19분 예상 도착? 기사님 빨리가주세요!
지난 학기 '빅데이터 해석' 강의에서 처음 접했던 개념 중 하나가 바로 Bias-Variance Trade-off였습니다.이론적으로는 이해가 갔지만, 실제로 데이터 분석에 적용하려니 "왜 Bias와 Variance를 동시에 낮추는 것이 이렇게 어려울까?"라는 의문이 들었습니다.LG Aimers에서 이 개념을 다시 배우며, 더 깊이 이해하게 된 내용을 정리해보려 합니다. 카카오 T의 도착 시간 예측1교시 수업인데 8시에 눈을 뜬 글쓴이는 급하게 택시를 잡기 위해 카카오 T를 켰습니다. "학교까지 19분이나 걸린다고? 예측이 진짜 정확할까?" Bias-Variance Trade-off는 바로 이런 예측 모델에서 겪는 문제를 설명해주는 개념입니다. 카카오 T는 사용자로부터 출발지와 도착지 같은 정보를 받아,..
2025.01.20 -
추상 자료형 (Abstract Data Type)
1. 자료구조와 알고리즘1.1 자료구조이번 방학을 알차게 보내기 위해, 방학때 이루고자 하는 목표를 차례대로 기록했다.우선, 그동안 미뤄놨던 컴퓨터 파일 정리를 했는데, 학기-과목-과제 이런 계층적인 디렉터리를 이용해서 파일을 저장했다. 목표를 차례대로 기록하는 것, 컴퓨터에 계층적인 디렉토리로 저장하는 것과 마찬가지로프로그램에서도 자료들을 정리하여 보관하는 여러 가지 구조들이 있으며, 이를 자료구조라고 한다. 예를 들면 대표적으로 다음과 같은 자료구조가 있다.스택 : 식당에서 그릇을 쌓는 것처럼 자료들을 쌓아서 정리하는 구조큐 : 마트 계산대의 줄처럼 먼저 도착한 자료가 먼저 빠져나가는 구조 1.2 알고리즘간단한 구구단 계산기 프로그램을 만들어본다고 하자.간단하게 궁금한 단 수를 입력받고, 입력받은..
2024.07.04 -
A/B 테스트란
본 포스팅은 박스앤위스커 블로그A/B 테스팅이란 글을 정리한 글입니다. 1. A/B 테스트A/B 테스팅이란 웹 사이트 방문자를 임의로 두 집단으로 나누고,한 집단에게는 기존 사이트, 다른 집단에게는 새로운 사이트를 보여준 다음,두 집단의 성과를 측정 비교하여 새로운 사이트가 기존 사이트에 비해 좋은지를 정량적으로 평가하는 방식을 말한다.여기서 성과란 새 사이트가 목표로 삼았던 기준에 따라 회원 가입율, 재방문율, 구매전환율 등의 지표를 본다. 1.1 왜 하나A/B 테스팅을 하는 이유는 상관관계로부터 인과관계일 가능성이 높은 것을 찾아내기 위함이다.그래야만 "원인"에 해당하는 요소에 개입을 하여 "결과"에 해당하는 요소가 원하는 방향으로 변화되도록 할 수 있다. 혹은 역의 판단도 가능하다. 가령 물..
2024.07.03 -
Network Layer : Data Plane
Network LayerNetwork Layer는 TCP 5 Layer에서 identified end system간 frame을 교환하는 역할을 하고,이를 위한 두 가지 핵심 요소는 다음과 같다.Routing : 각 pkt의 route를 결정하고, routing algorithm이 필요함.Forwarding : router에서 packet을 이동시키며, routing table에 기반함 Router가 위의 역할을 수행하는데, router에서는 routing algorithm을 작동시키고, datagram을 forwarding 한다. 1. Input port2. Output port3. Switching fabric4. Routing processor Virtual Circuit Packet Switch..
2024.06.15 -
Transport Layer - TCP Congestion Control
Overview of TCP Congestion ControlPacket을 주고받는 방법에는 크게 Circuit Switching과 Datagram Packet Switching이 있다. 먼저, Circuit Switching은 다음과 같은 3가지 단계로 이뤄진다.Circuit EstablishmentData TransferCircuit DisconnectCircuit을 주고받는 두 stations은 Connection Oriented이기 때문에, delay or loss의 문제가 없지만,모든 channel이 꽉 차는 Congestion(Call Blocking) 발생할 가능성이 있다. 반면, Datagram Packet Switching에서는 Connectionless한 방법으로,Each packet..
2024.06.15 -
Data preprocessing
데이터 전처리데이터 분석 전 데이터를 정제, 변형하여 분석에 적합한 형태로 만드는 과정실무에서 접하는 데이터는 messy 한 특징을 가지고 있어 유의미한 결과 도출을 위해 필수적이다. STEP 1 : 데이터 수집데이터를 수집하는 단계로, 원시 데이터를 모으고 저장하는 과정 수집 방법의 종류(데이터의 형태, 종류에 따라 수집방법 결정)1. Web Crawling2. 로그 수집3. etc. STEP 2 : 데이터 정제데이터의 불필요한 정보 or 오류를 제거하여 데이터의 신뢰도를 높이는 과정 (결측치 or 이상치 처리) 데이터 정제 절차1. 오류 원인 분석2. 정제 대상 선정 → 초기에는 모든 데이터를 대상으로 정제 진행3. 정제 방법 결정 ex) 오류 데이터 삭제, 대체, 예측값 삽입 등 데..
2024.05.05