Data Science

Data Science

사례연구: TF-IDF 기반 문서 검색 (내용기반 Content-Based 검색)

💬 인트로 문서검색이란, 사용자가 검색엔진에 질의(Query) 또는 문장을 입력해 검색엔진은 질의와 관련이 되는 문서들-검색결과를 찾아내어 사용자에게 제공하는 과정이다. 문서검색은 정보검색의 대표적인 사례로, 검색엔진에서의 검색어들이 질의가 된다. 🅰 Boolean Search 정보검색 분야에서 널리 사용되는 단순한 검색방법 Boolean Logic을 사용하여 질의문장을 만든다 (AND, OR, NOT 등) ex. (흥부 OR 놀부) AND NOT 제비 (장점) 검색 시스템이 단순히 각 문서가 질의 문장의 조건을 만족하는지를 테스트하면 되므로 구현이 쉽고 빠르며 많은 데이터를 쉽게 다룰 수 있다. (단점) 동음이의어, 다의어 검색에 취약하며 많은 양의 문서들을 검색 시 정확하고 복잡한 질의가 요구되어 일..

Data Science

추천시스템과 협업 필터링

💬 인트로 전자상거래에서의 상품이나 유튜브, 영화, 음악 스트리밍 서비스에서의 콘텐츠, SNS에서는 친구나 특정 그룹을 추천한다. 뉴스사이트에서는 기사를 추천하기도 하며, 검색 엔진에서는 검색에 대한 링크를 추천하는 등 고객이 선호하는 상품이나 서비스를 추천하는 것을 추천 시스템이라고 한다. 추천 시스템은 개인이나 그룹의 선호에 기반하여 고객, 사용자의 의사결정에 도움을 주는 것이다. 특히 Long tail business에서 필수적으로 사용되며, Long tail business란 소량의 다품종의 상품(주문형 콘텐츠, 도서 등)을 판매하는 사업으로 소그룹, 개별고객에 개인화된 마케팅 전략을 취한다. 이때 추천 객체를 항목(item)이라고 부른다. 1️⃣ 추천 시스템의 유형 내용기반(CB; Content..

Data Science

[Jupyter Notebook] 테마 및 폰트 설정하기

1. 주피터 테마 패키지 설치 (Anaconda Prompt 관리자 권한으로 실행해서 입력한다) pip install jupyterthemes 2. 사용할 폰트 고르고 추가하기 네이버의 D2Coding (←폰트 다운링크로 이동) 외부에서 설치한 폰트를 사용하려면 폰트 파일을 추가해줘야 한다. 먼저 stylefx.py 파일을 찾는다. 아래 사진과 같이 약 518번째 라인에 stored_font_dicts 함수가 있을 것이다. 말 그대로 주피터에서 사용가능한 폰트 모음들이다. fonts 종류인 'mono', 'sans', 'serif'에 모두 'D2Coding': ['D2Coding', 'D2Coding'] 을 추가해준다. (원하는 외부 폰트명을 넣어주면 됨. 다만 바로 다음에 추가할 폰트 .ttf 파일의 ..

Data Science

R로 할 수 있는 한글 텍스트 분석을 위한 전처리 방법

*이 글은 Tacademy의 'R로 하는 텍스트 데이터 전처리 방법' 강의를 듣고 작성했습니다. 📂 사전지식 💾 tidyverse 패키지 1. RStudio가 개발, 관리하는 패키지로 공식문서 good 2. 6개의 핵심 패키지 포함 23가지 패키지로 이루어진 메타 패키지(종합 솔루션 느낌) 3. 중심이 되는 dplyr 패키지는 데이터를 다루는 문법의 일종 (tidyverse 문법 스타일 권장) 4. tidy data 라는 사상과 파이프 연산자는 세트로 같이 쓰임 💾 파이프 연산자 %>% 점점 함수를 중첩해 사용할 일이 빈번해지는데, ((( ))) 형식으로 작성하면 가독성이 현저히 떨어진다. 이럴때 %>% 파이프 연산자를 사용하면 생각의 순서대로 함수를 작성할 수 있고, 중간 변수를 저장할 필요가 없어진다..

Data Science/ADsP, ADP

ADsP 27회 합격 후기 및 공부방법 총정리 (요약정리본 나눔)

지난 11월 22일에 ADsP 데이터분석 준전문가 자격증 시험을 봤다. 한달 후인 12월 22일에 시험 결과가 발표되었고 그 결과!! 생각보다 높은 점수로 합격했다. (커트라인 60점, 과락 40% 기준) 높아봐야 70점대일 줄 알았는데 82점이라니.. 전략을 잘 짜서 공부한 덕분인 거 같아 이렇게 글을 남겨본다. 🌱 데이터분석 준전문가 시험을 본 이유 나는 컴공을 전공하고 있다. 하드웨어쪽보다는 소프트웨어에 관심이 많고 연구보단 개발직에 관심이 많다. 휴학없이 매학기를 다니면서 느낀 점은 해보고 싶은 게 너무 많다는 거다. 최근엔 나와는 안 맞다고 생각한 머신러닝, 인공지능 쪽도 꽤나 흥미롭다는 걸 느껴가고 있다. 이번학기 나는 데이터베이스와 데이터 사이언스 과목을 수강했다. 요즘들어 더더욱 데이터 사..

blackon29
'Data Science' 카테고리의 글 목록