Learning Journey(11)
-
Moment Generating Function
모멘트(moment)확률변수의 "모양(형태)"을 숫자로 요약한 값 확률변수의 분포가 어디쯤에 몰려 있는지, 얼마나 퍼져 있는지, asymmetric한지, 뾰족한지 같은 걸 수치화한 것 -> 모멘트모멘트 종류정의의미1차 모멘트E[X]평균 (중심 위치)2차 중심 모멘트E[(X−μ)^2]분산 (퍼짐 정도)3차 중심 모멘트E[(X-μ)^3]왜도 (비대칭성)4차 중심 모멘트E[(X−μ)^4]첨도 (뾰족함)※ 중심 모멘트에서 μ=E[X]는 평균 왜 중요한가?👉 확률분포의 모양을 숫자로 설명해줘서👉 우리가 데이터를 요약하고 비교하고 추론하는 데 꼭 필요하기 때문 즉, 분포의 특성을 알아야 데이터를 이해하고 모델링할 수 있고,모멘트는 분포의 모양을 한 줄 요약해주는 것이다. MGF(Moment Generati..
2025.04.08 -
독립사건 vs 배반사건
미국 주식은 날아가는데, 내 주식은... 왜?— "독립사건 vs 배반사건"으로 보는 한미 증시 이야기 주식 투자자라면 한 번쯤 이런 생각을 해봤을 것이다. "미장은 연일 신고가를 갱신하는데, 국장은 왜 이 모양이지?""미국이 오르면 한국도 따라가야 하는 거 아니야?" 최근 미국 증시는 나스닥과 S&P500이 사상 최고치를 기록하며 "붐"을 일으키고 있는 반면,한국 증시는 "박스피(박스권에 갇힌 코스피)"라는 오명을 벗어나지 못하고 있다.이 두 시장의 흐름을 보면 마치 "독립사건 vs 배반사건" 개념과도 연결될 수 있다.한번 재미있게 풀어보자. 미국 증시 vs 한국 증시: 독립사건일까?미장이 상승한다고 해서 국장도 반드시 상승하는 것은 아니다.이는 통계적으로 '독립사건'의 개념과 연결될 수 있다...
2025.02.03 -
AI, 정말 믿을 수 있을까?
AI의 발전은 이제 더 이상 새로운 이야기가 아니다.그러나, 그 발전이 가져오는 윤리적 문제는 충분히 논의되고 있는가?AI 모델이 점점 더 정교해지고 우리 삶의 중요한 결정에 관여하게 되면서,AI를 활용하는 개발자는 기술적 성취뿐만 아니라 윤리적 책임도 함께 고민해야 하는 시대가 되었다. 우리는 정말 AI를 신뢰할 수 있을까? 이 글에서는 LG Aimers 6th에서 다룬 AI 윤리 개념 강의를 바탕으로,이 질문에 대한 답을 고민해보고자 한다. ✔️ 신뢰할 수 있는 AI를 위한 필수 요소1.1 명확한 데이터 해석: 상관관계와 인과관계를 혼동하고 있지는 않은가?AI 모델이 높은 정확도를 보인다고 해서 그것이 반드시 인과관계를 증명하는 것은 아니다.이는 데이터 분석에서 흔히 발생하는 오류 중 하나로,두 ..
2025.01.31 -
'뉴진스' 네이버 뉴스 기사 크롤링
오늘은 지난번에 배운 .find() 함수를 활용하여 킹짱 '뉴진스' 네이버 뉴스 크롤링을 해볼 예정이다. 뉴스 검색 결과에서 네이버뉴스 추려내기 네이버에 '뉴진스'를 검색하고 주소창을 확인하면 다음과 같은 url을 확인할 수 있다. 이를 가져와 코드로 작성하고, query = '뉴진스' url = "https://search.naver.com/search.naver?where=news&query=" + query web = requests.get(url).content source = BeautifulSoup(web, 'html.parser') 웹 페이지의 HTML 내용을 가져와서 파싱하여 source에 구조화 된 형태로 저장하였다. (필요한 정보 추출을 위해) 네이버뉴스 제목 크롤링 '뉴진스' 검색 후..
2024.01.02 -
쇼생크 탈출과 갓파더 리뷰 텍스트 유사도 비교
앞서 배운 TF-IDF 개념과 코사인 유사도 개념을 가지고 명작 쇼생크 탈출과 갓파더 리뷰 텍스트간 유사도를 계산해보자 TF-IDF & 코사인 유사도를 이용하여 텍스트 간 유사도 계산하기 1) 유사도 분석에 필요한 패키지 불러오기 from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosine_similarity 2) 영화 리뷰 파일 불러오기 # 쇼생크 탈출 리뷰 텍스트 불러오기 file open('shawshank.txt', 'r', encoding='utf-8') lines = file.readlines() # 영화 리뷰 파일의 모든 라인을 읽어와 리스트로 저장 doc1 = ' '..
2024.01.01 -
나는 나랑 닮은 사람이 좋아.
A씨: 나는 나랑 비슷한 사람을 만나고 싶어요. 좋아하는 음식이나, 취미를 공유할 수 있는 그런 사람.. 💬 : 좋아하는 걸 말해볼래요? A씨: "운동 너무 좋아해요" A씨에게 추천해줄 상대 리스트를 살펴보고, 가장 어울리는 사람을 찾아보자. 이름 운동에 대한 본인의 생각 B씨 "운동 별로에요" C씨 "운동 싫어요" D씨 "운동 좋아해요" 각각의 생각을 나타낸 텍스트만 보고 누가 가장 A씨랑 잘 어울릴지 어떻게 알 수 있을까? A씨의 생각과 추천 상대들의 생각을 나타낸 텍스트 유사성을 측정해보면 누가 가장 적합한 상대일 지 고를 수 있을 것이다. 그렇다면, 텍스트 유사성을 측정하는 방법 중 자주 쓰이는 코사인 유사도를 통해 상대를 알아보도록 하자. 코사인 유사도 지난 수업에서 배운 TF-IDF나 BOW(..
2023.12.29