CS 지식/검색 모델
Boolean Retrieval 검색 알고리즘
윤씅
2024. 8. 9. 22:26
🔍 Boolean Retrieval
True, False를 사용하여 정보검색
🔍Inverted Index
- 구성요소로는 dictionary와 postings가 있고, dictionary는 term들의 집합이다.
- Inverterd Index는 term이 등장하는 문서의 문서번호만 postings에 저장한 방법이다.
🔍질의
- A단어와 B단어가 등장하는 문서를 검색할때?
A단어의 postings와 B단어의 postings를 하나씩 포인터를 옮겨가며 같은 것이 있는지 비교한다. - And 연산에서 여러개의 단어를 검색할떄, 빠르게 하려면?
document frequency가 작은 순서부터 연산한다.
- term : 정규화한 단어
- token : 실제 단어 인스턴스
🔍stemming 정규화
단어의 뒷부분을 잘라 공통된 부분만 남기는 방법
🔍dictionary
term들을 저장한 자료구조
- dictionary에서 term을 찾는 두가지 방법
(term 개수의 변동여부에 따라 선택한다)
- 해시 : 찾는 속도가 빠르다. 새로운 term을 넣기 적절하지 않다. 비슷한 단어의 저장 위치가 일정하지 않다.
- 트리 : prefix search가 가능하다. 해시보다는 느리다.
🔍soundax
비슷한 것을 같이 검색되도록 하기위해 소리에 기반하여 인덱싱한 정보검색 방법