상식닷컴
로그인
가입하기
2026년 상식닷컴 선정 식당 & 카페 리스트
2025년 2026년 신상 호텔 리스트
최근에 오픈한 호텔을 찾는다면 살펴보세요
일주일 식단표 어플
자동 일주일 식단표 어플
안드로이드
아이폰
주식 & 코인 차트의 신
1000만원으로 2000만원 만들기 프로젝트
수정하기 - CHATGPT의 훈련 데이터는 얼마나 많나요?
닉네임
비밀번호
제목
내용
[이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]
Chat<a href='https://sangseek.com/sangseeks/GPT/ko'>GPT</a>(특히 GPT-3 계열과 그 이후 버전)는 인터넷에 공개된 방대한 양의 문서를 바탕으로 사전학습(pre-training)을 거칩니다. 구체적인 수치를 살펴보면 다음과 같습니다. 1. GPT-3 시절 • 원시(raw) 데이터: Common Crawl(인터넷 웹 페이지 스냅샷) 외에 WebText(OpenAI가 자체 수집한 고품질 웹 콘텐츠), 두 개의 대규모 전자책 코퍼스(Books1, Books2), 위키피디아 등을 합쳐 약 45테라바이트(TB)에 달하는 원시 텍스트를 확보했습니다. • 필터링 후 데이터 규모: 중복 제거, 품질 기준 미달 문장·웹페이지 걸러내기 등을 거치며 570기가바이트(GB) 정도의 정제된 텍스트로 압축되었고, 토큰(token) 기준으로 약 3000억(3×10^11)개가 학습에 활용됐습니다. 2. GPT-3.5 및 후속 튜닝 • GPT-3.5는 GPT-3의 사전학습을 기반으로 추가적인 대화형 데이터(수백만 건 이상의 사람-모델 대화 로그)와 코드 저장소, 사용자가 주로 묻는 질의·응답 패턴 등을 더해 사전학습된 모델을 미세조정(fine-tuning)했습니다. • 이 단계에서는 지도학습(supervised learning)과 강화학습(특히 인간 피드백을 이용한 강화학습, RLHF)을 병행해 응답의 일관성과 유용성을 높였습니다. 3. GPT-4 이후 • OpenAI는 GPT-4의 정확한 학습 데이터 규모를 공개하지 않았지만, 업계 추정치는 “추가적으로 수천억~수조 단위의 토큰”이 더해진 것으로 보고 있습니다. • GPT-4는 기존의 공개 웹 데이터, 라이선스 계약을 맺은 데이터, API를 통해 수집된 익명화된 사용자 대화 등 다양한 출처를 통합해 학습하며, 도메인별 전문 문헌(의료·법률·과학 논문)도 포함합니다. 4. 정제·검열 과정 • 개인정보, 혐오·폭력 콘텐츠, 품질이 낮은 스팸성 문장 등을 체계적으로 제거하기 위해 여러 단계의 자동·수동 검열(filtering) 절차를 거칩니다. • 이 과정을 통해 모델이 불법·유해 정보 생성 가능성을 낮추고, 실제 응답의 정확도와 안전성을 높입니다. 종합하면, ChatGPT의 근간이 된 GPT-3 계열 모델은 약 3000억 토큰 규모의 정제된 데이터로 학습되었고, 이후 GPT-4에 이르러 수천억~수조 토큰 단위의 데이터를 추가로 흡수했습니다. 학습 소스는 공개 웹, 전자책, 위키피디아, 과학·기술 논문, 코드 리포지터리, 그리고 라이선스·제휴를 통해 확보한 고품질 데이터로 매우 다양합니다.
이용안내
커뮤니티 이용안내
×
- 게시한 게시글로 발생하는 문제는 게시자에게 책임이 있습니다.
- 게시글이 타인/타업체의 저작권을 침해할 경우 모든 책임은 게시자에게 있습니다. 게시자가 모든 손해를 부담해야 합니다.
- 상식닷컴 운영자는 게시자와 상의하지 않고 게시글을 수정 또는 삭제할 수 있습니다.
- 상식닷컴 운영자는 깨끗한 커뮤니티 공간을 만드는 것이 1순위입니다.
수정하기
취소하기