수정하기 - CHATGPT의 훈련 데이터는 얼마나 많나요?

닉네임

비밀번호

제목

내용 [이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]

Chat<a href='https://sangseek.com/sangseeks/GPT/ko'>GPT</a>(특히 GPT-3 계열과 그 이후 버전)는 인터넷에 공개된 방대한 양의 문서를 바탕으로 사전학습(pre-training)을 거칩니다. 구체적인 수치를 살펴보면 다음과 같습니다.    1. GPT-3 시절       • 원시(raw) 데이터: Common Crawl(인터넷 웹 페이지 스냅샷) 외에 WebText(OpenAI가 자체 수집한 고품질 웹 콘텐츠), 두 개의 대규모 전자책 코퍼스(Books1, Books2), 위키피디아 등을 합쳐 약 45테라바이트(TB)에 달하는 원시 텍스트를 확보했습니다.       • 필터링 후 데이터 규모: 중복 제거, 품질 기준 미달 문장·웹페이지 걸러내기 등을 거치며 570기가바이트(GB) 정도의 정제된 텍스트로 압축되었고, 토큰(token) 기준으로 약 3000억(3×10^11)개가 학습에 활용됐습니다.    2. GPT-3.5 및 후속 튜닝       • GPT-3.5는 GPT-3의 사전학습을 기반으로 추가적인 대화형 데이터(수백만 건 이상의 사람-모델 대화 로그)와 코드 저장소, 사용자가 주로 묻는 질의·응답 패턴 등을 더해 사전학습된 모델을 미세조정(fine-tuning)했습니다.       • 이 단계에서는 지도학습(supervised learning)과 강화학습(특히 인간 피드백을 이용한 강화학습, RLHF)을 병행해 응답의 일관성과 유용성을 높였습니다.    3. GPT-4 이후       • OpenAI는 GPT-4의 정확한 학습 데이터 규모를 공개하지 않았지만, 업계 추정치는 “추가적으로 수천억~수조 단위의 토큰”이 더해진 것으로 보고 있습니다.       • GPT-4는 기존의 공개 웹 데이터, 라이선스 계약을 맺은 데이터, API를 통해 수집된 익명화된 사용자 대화 등 다양한 출처를 통합해 학습하며, 도메인별 전문 문헌(의료·법률·과학 논문)도 포함합니다.    4. 정제·검열 과정       • 개인정보, 혐오·폭력 콘텐츠, 품질이 낮은 스팸성 문장 등을 체계적으로 제거하기 위해 여러 단계의 자동·수동 검열(filtering) 절차를 거칩니다.       • 이 과정을 통해 모델이 불법·유해 정보 생성 가능성을 낮추고, 실제 응답의 정확도와 안전성을 높입니다.    종합하면, ChatGPT의 근간이 된 GPT-3 계열 모델은 약 3000억 토큰 규모의 정제된 데이터로 학습되었고, 이후 GPT-4에 이르러 수천억~수조 토큰 단위의 데이터를 추가로 흡수했습니다. 학습 소스는 공개 웹, 전자책, 위키피디아, 과학·기술 논문, 코드 리포지터리, 그리고 라이선스·제휴를 통해 확보한 고품질 데이터로 매우 다양합니다.