상식닷컴
로그인
가입하기
2026년 상식닷컴 선정 식당 & 카페 리스트
2025년 2026년 신상 호텔 리스트
최근에 오픈한 호텔을 찾는다면 살펴보세요
일주일 식단표 어플
자동 일주일 식단표 어플
안드로이드
아이폰
주식 & 코인 차트의 신
1000만원으로 2000만원 만들기 프로젝트
궁금한 상식 보기
진드기의 생존 전략은 무엇인가요?
감기가 심할 때 어떤 유형의 병원이 좋나요?
C형간염 성과와 치료 후 추적 관리는 어떻게 해야 하나요?
A형간염에 걸린 후 회복하는 데 얼마나 걸리나요?
A형간염 감염자의 직업 선택에서 주의할 점은 무엇인가요?
B형간염의 증상은 무엇인가요?
D형간염 환자의 경우 식사에서 조절해야 할 영양소는 무엇인가요?
바스크의 비즈니스 환경은 어떤가요?
바스크의 대표적인 음악 악기는 무엇인가요?
바스크의 해양 문화는 어떤 영향을 미쳤나요?
바스크에서의 자전거 생활은 어떤 모습인가요?
마요네즈 1컵은 몇 그램인가요?
Previous
Next
수정하기 - 머신러닝알고리즘: 후보 생성(candidates generation) 과정이란 무엇인가요?
닉네임
비밀번호
제목
내용
[이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]
머신러닝 기반의 대용량 추천·검색 시스템이나 정보 검색 파이프라인에서 ‘후보 생성(candidates generation)’은 전체 아이템 풀(Item Pool) 중에서 후속 처리(예: 정교한 랭킹·재랭킹)에 넘길 소수의 유력 후보만 골라내는 단계입니다. 이 과정을 거치지 않으면 수백만, 수천만 건 이상의 아이템을 모두 일일이 복잡한 모델로 점수 매기고 정렬해야 하기 때문에 시스템 부담이 감당하기 어려워집니다. 후보 생성 단계의 핵심 목표는 가능한 한 관련성이 높은 아이템을 빠르게 걸러내면서도, 이후 랭킹 단계에서 실제로 높은 품질의 결과를 만들 수 있도록 ‘Recall(재현율)’을 충분히 확보하는 것입니다. 1. 왜 후보 생성이 필요한가 • 대규모 아이템 풀에 대한 실시간 처리 한계 • 효율을 위해 빠른 검색·필터링이 우선 • 이후 랭킹 단계에서만 정밀 평가를 수행해 총 비용 절감 • 초기에 너무 좁게 걸러내면 좋은 아이템을 놓칠 수 있으므로 높은 재현율 유지 필요 2. 주요 방법론 후보 생성에서는 일반적으로 다음 세 가지 유형의 방법을 단독 혹은 조합하여 사용합니다. 가. 협업 필터링 기반 기법 – 사용자-아이템 상호작용 행렬(평점·클릭·구매 이력 등)에 기반해 유사 사용자 또는 주변 아이템을 빠르게 찾아내는 방식 – 사용자 최근 행동과 비슷한 행동을 보인 다른 사용자들이 좋아한 아이템을 추천 후보로 취합 – 메모리 기반(neighborhood) 필터링, 또는 대규모 행렬 분해(Matrix Factorization)를 경량화한 버전 활용 나. 콘텐츠(특징) 기반 검색 – 아이템의 메타데이터(장르·카테고리·태그·텍스트 임베딩 등)와 사용자 프로필을 미리 벡터화 – 사용자가 선호하는 속성과 비슷한 특징을 가진 아이템을 ANN(Approximate Nearest Neighbor) 기법 등으로 빠르게 찾아냄 다. 딥러닝 임베딩 & 투타워(Two-Tower) 모델 – 사용자와 아이템을 각각 임베딩 공간에 매핑하는 간단한 신경망(또는 트랜스포머)을 학습 – 내적(dot product) 또는 코사인 유사도로 사전 계산한 인덱스를 이용해 근사 최근접 이웃을 조회 – 대규모 설정에서는 <a href='https://sangseek.com/sangseeks/HNSW/ko'>HNSW</a>, IVF, PQ 등 ANN 라이브러리를 활용 3. 시스템 관점의 고려사항 • 지연 시간(latency) vs. 재현율 트레이드오프: 검색 질을 높이면 속도가 느려지고, 반대로 빠르게 하면 놓치는 아이템이 늘어남 • 저장 공간(인덱스 크기)과 업데이트 빈도: 사용자·아이템 프로필이 자주 바뀐다면 실시간 혹은 준실시간 인덱스 재생성이 필요 • 다양성(Diversity)·신뢰성(Cold-start) 대책: 인기 편중을 완화하기 위해 의도적으로 다른 카테고리 아이템을 섞거나, 신규 아이템을 일정 비율로 삽입 • 스케일 아웃(Sharding)·캐싱: 지리적 분산 서버나 메모리 캐시를 통해 대량 조회를 분산 처리 4. 후보 생성 이후 파이프라인 ① 후보 생성: 수천~수만 개 수준으로 아이템 풀 축소 ② 1차 랭킹: 빠른 피쳐 기반 모델(경량화된 GBM·DNN)로 수천 개를 수십 개로 더 압축 ③ 2차 재랭킹·후처리: 비즈니스 룰·다양성 제약·위배 문구 필터링 등을 적용하여 최종 순위 생성 결국 후보 생성 단계는 “잘 걸러내되, 놓치지 않고 많이 건져 올리는” 역할을 하며, 전체 추천·검색 품질을 좌우하는 중요한 첫 관문입니다. 시스템 특성, 아이템 규모, 업데이트 주기, 요구 지연 시간 등을 고려해 협업 필터링, 콘텐츠 검색, 딥러닝 임베딩, 해싱·인덱싱 기법을 적절히 조합해 설계하게 됩니다.
이용안내
커뮤니티 이용안내
×
- 게시한 게시글로 발생하는 문제는 게시자에게 책임이 있습니다.
- 게시글이 타인/타업체의 저작권을 침해할 경우 모든 책임은 게시자에게 있습니다. 게시자가 모든 손해를 부담해야 합니다.
- 상식닷컴 운영자는 게시자와 상의하지 않고 게시글을 수정 또는 삭제할 수 있습니다.
- 상식닷컴 운영자는 깨끗한 커뮤니티 공간을 만드는 것이 1순위입니다.
수정하기
취소하기