elasticsearch score

    Elasticsearch function_score 스코어 계산

    검색 정확도 기준 BM25 알고리즘을 이용해 문서에 대한 score 계산 TF (Term Frequency) 문서 내에서 자주 등장하는 단어(Term) 에 가중치를 높게 부여, 문서내에서 같은 단어가 여러번 등장한다면 그 단어에 높은 가중치를 주는 알고리즘 IDF (Inverse Document Frequency) 많은 문서에서 등장하는 단어의 가중치는 낮추고, 일부 문서에만 등장하는 단어에 대해 높은 가중치 부여 전체 문서에서 발생한 term 빈도수가 작을수록 weight가 높다. 문서에 자주 등장하는 단어일수록 낮은 가중치를 주는 알고리즘 똑같이 1번 검색이 되었다 하더라도 문서에 자주 등장한 단어가 매칭된 키워드일수록 낮은 가중치 문서에 많이 나오는게 좋은게 아닌가? 라고 생각할 수 있겠지만 문서에..