수정하기 - 머신러닝알고리즘: 후보 생성(candidates generation) 과정이란 무엇인가요?

닉네임

비밀번호

제목

내용 [이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]

머신러닝 기반의 대용량 추천·검색 시스템이나 정보 검색 파이프라인에서 ‘후보 생성(candidates generation)’은 전체 아이템 풀(Item Pool) 중에서 후속 처리(예: 정교한 랭킹·재랭킹)에 넘길 소수의 유력 후보만 골라내는 단계입니다. 이 과정을 거치지 않으면 수백만, 수천만 건 이상의 아이템을 모두 일일이 복잡한 모델로 점수 매기고 정렬해야 하기 때문에 시스템 부담이 감당하기 어려워집니다. 후보 생성 단계의 핵심 목표는 가능한 한 관련성이 높은 아이템을 빠르게 걸러내면서도, 이후 랭킹 단계에서 실제로 높은 품질의 결과를 만들 수 있도록 ‘Recall(재현율)’을 충분히 확보하는 것입니다.    1. 왜 후보 생성이 필요한가       • 대규모 아이템 풀에 대한 실시간 처리 한계       • 효율을 위해 빠른 검색·필터링이 우선       • 이후 랭킹 단계에서만 정밀 평가를 수행해 총 비용 절감       • 초기에 너무 좁게 걸러내면 좋은 아이템을 놓칠 수 있으므로 높은 재현율 유지 필요      2. 주요 방법론       후보 생성에서는 일반적으로 다음 세 가지 유형의 방법을 단독 혹은 조합하여 사용합니다.       가. 협업 필터링 기반 기법         – 사용자-아이템 상호작용 행렬(평점·클릭·구매 이력 등)에 기반해 유사 사용자 또는 주변 아이템을 빠르게 찾아내는 방식         – 사용자 최근 행동과 비슷한 행동을 보인 다른 사용자들이 좋아한 아이템을 추천 후보로 취합         – 메모리 기반(neighborhood) 필터링, 또는 대규모 행렬 분해(Matrix Factorization)를 경량화한 버전 활용       나. 콘텐츠(특징) 기반 검색         – 아이템의 메타데이터(장르·카테고리·태그·텍스트 임베딩 등)와 사용자 프로필을 미리 벡터화         – 사용자가 선호하는 속성과 비슷한 특징을 가진 아이템을 ANN(Approximate Nearest Neighbor) 기법 등으로 빠르게 찾아냄       다. 딥러닝 임베딩 & 투타워(Two-Tower) 모델         – 사용자와 아이템을 각각 임베딩 공간에 매핑하는 간단한 신경망(또는 트랜스포머)을 학습         – 내적(dot product) 또는 코사인 유사도로 사전 계산한 인덱스를 이용해 근사 최근접 이웃을 조회         – 대규모 설정에서는 <a href='https://sangseek.com/sangseeks/HNSW/ko'>HNSW</a>, IVF, PQ 등 ANN 라이브러리를 활용      3. 시스템 관점의 고려사항       • 지연 시간(latency) vs. 재현율 트레이드오프: 검색 질을 높이면 속도가 느려지고, 반대로 빠르게 하면 놓치는 아이템이 늘어남       • 저장 공간(인덱스 크기)과 업데이트 빈도: 사용자·아이템 프로필이 자주 바뀐다면 실시간 혹은 준실시간 인덱스 재생성이 필요       • 다양성(Diversity)·신뢰성(Cold-start) 대책: 인기 편중을 완화하기 위해 의도적으로 다른 카테고리 아이템을 섞거나, 신규 아이템을 일정 비율로 삽입       • 스케일 아웃(Sharding)·캐싱: 지리적 분산 서버나 메모리 캐시를 통해 대량 조회를 분산 처리      4. 후보 생성 이후 파이프라인       ① 후보 생성: 수천~수만 개 수준으로 아이템 풀 축소       ② 1차 랭킹: 빠른 피쳐 기반 모델(경량화된 GBM·DNN)로 수천 개를 수십 개로 더 압축       ③ 2차 재랭킹·후처리: 비즈니스 룰·다양성 제약·위배 문구 필터링 등을 적용하여 최종 순위 생성      결국 후보 생성 단계는 “잘 걸러내되, 놓치지 않고 많이 건져 올리는” 역할을 하며, 전체 추천·검색 품질을 좌우하는 중요한 첫 관문입니다. 시스템 특성, 아이템 규모, 업데이트 주기, 요구 지연 시간 등을 고려해 협업 필터링, 콘텐츠 검색, 딥러닝 임베딩, 해싱·인덱싱 기법을 적절히 조합해 설계하게 됩니다.