CS 지식/검색 모델

Boolean Retrieval 검색 알고리즘

윤씅 2024. 8. 9. 22:26

🔍 Boolean Retrieval

True, False를 사용하여 정보검색



🔍Inverted Index

  • 구성요소로는 dictionary와 postings가 있고, dictionary는 term들의 집합이다.
  • Inverterd Index는 term이 등장하는 문서의 문서번호만 postings에 저장한 방법이다.



🔍질의

  • A단어와 B단어가 등장하는 문서를 검색할때?
    A단어의 postings와 B단어의 postings를 하나씩 포인터를 옮겨가며 같은 것이 있는지 비교한다.
  • And 연산에서 여러개의 단어를 검색할떄, 빠르게 하려면?
    document frequency가 작은 순서부터 연산한다.

- term : 정규화한 단어

- token : 실제 단어 인스턴스



🔍stemming 정규화

단어의 뒷부분을 잘라 공통된 부분만 남기는 방법

 

 

🔍dictionary

term들을 저장한 자료구조

  • dictionary에서 term을 찾는 두가지 방법
    (term 개수의 변동여부에 따라 선택한다)
  1. 해시 : 찾는 속도가 빠르다. 새로운 term을 넣기 적절하지 않다. 비슷한 단어의 저장 위치가 일정하지 않다.
  2. 트리 : prefix search가 가능하다. 해시보다는 느리다.



🔍soundax

비슷한 것을 같이 검색되도록 하기위해 소리에 기반하여 인덱싱한 정보검색 방법