쇼생크 탈출과 갓파더 리뷰 텍스트 유사도 비교
·
Portfolio/kakao X goorm 군 장병 AI·SW 교육
앞서 배운 TF-IDF 개념과 코사인 유사도 개념을 가지고 명작 쇼생크 탈출과 갓파더 리뷰 텍스트간 유사도를 계산해보자 TF-IDF & 코사인 유사도를 이용하여 텍스트 간 유사도 계산하기 1) 유사도 분석에 필요한 패키지 불러오기 from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosine_similarity 2) 영화 리뷰 파일 불러오기 # 쇼생크 탈출 리뷰 텍스트 불러오기 file open('shawshank.txt', 'r', encoding='utf-8') lines = file.readlines() # 영화 리뷰 파일의 모든 라인을 읽어와 리스트로 저장 doc1 = ' '..