상식닷컴
로그인
가입하기
2026년 상식닷컴 선정 식당 & 카페 리스트
2025년 2026년 신상 호텔 리스트
최근에 오픈한 호텔을 찾는다면 살펴보세요
일주일 식단표 어플
자동 일주일 식단표 어플
안드로이드
아이폰
주식 & 코인 차트의 신
1000만원으로 2000만원 만들기 프로젝트
수정하기 - CHATGPT는 어떤 데이터로 훈련되었나요?
닉네임
비밀번호
제목
내용
[이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]
ChatGPT(기반이 되는 GPT-4)는 다음과 같은 특징을 지닌 대규모 텍스트 데이터로 훈련되었습니다. 구체적인 파일명이나 원본 URL은 공개되어 있지 않으나, 데이터를 구성하는 범주와 과정은 다음과 같습니다. 1. 데이터 출처의 범주 • 공개 웹페이지: 대규모 크롤링(예: Common Crawl) 등을 통해 수집된 다양한 주제의 웹 문서 • 전자책·논문·백과사전: 저작권 처리된 전자책, 과학·기술·인문 사회 분야의 학술 논문, 공개 백과사전(예: 위키백과) • 뉴스·블로그·포럼 게시물: 뉴스 기사, 블로그 글, 온라인 토론 포럼의 공개된 글 • 코드 저장소: GitHub 등에서 공개된 프로그래밍 코드와 관련 문서 • 대화 코퍼스: 공개된 채팅·질문응답 데이터, 자체 제작한 대화 데이터 2. 데이터 라이선스 및 전처리 • 라이선스 준수: 저작권이 허용된 자료 혹은 자체 라이선스를 확보한 데이터 위주 • 개인 정보 보호: 개인 식별 정보(이름·주소 등)는 제거 또는 익명화 • 중복 제거·정형화: 너무 짧거나 <a href='https://sangseek.com/sangseeks/무의미/ko'>무의미</a>한 텍스트, 반복문장 등은 배제하고, 기본적인 토크나이징(tokenizing) 및 정규화(normalization) 과정을 거침 3. 학습 방식 (1) 사전학습(Pretraining) – 목표: 대규모 비지도 학습을 통해 텍스트 내에서 다음 토큰(token)을 예측 – 손실함수: 교차 엔트로피(cross-entropy) 기반 – 규모: 수천억~수조 토큰 단위로 학습 (2) 미세조정(Fine-tuning) – 지도학습: 인간 트레이너가 작성한 질문·답변 예시를 활용해 출력의 정확도 및 일관성 강화 – 강화학습(RLHF): 인간 평가자가 선호하는 답변에 보상을 부여해 모델이 더 유용한 응답을 생성하도록 유도 4. 모델 업데이트 및 지식 한계 • 최신성: 2024년 6월까지의 공개된 자료를 바탕으로 학습되었으며, 그 이후 사건·정보는 반영되지 않음 • 오류 가능성: 대규모 통계적 패턴을 학습하는 방식이므로 때로는 부정확하거나 편향된 정보를 생성할 수 있음 이렇게 다양한 출처의 대규모·다양한 텍스트 데이터를 기반으로 학습함으로써, 광범위한 분야의 질문에 대해 자연스럽고 일관성 있는 언어 생성이 가능하도록 설계되었습니다.
이용안내
커뮤니티 이용안내
×
- 게시한 게시글로 발생하는 문제는 게시자에게 책임이 있습니다.
- 게시글이 타인/타업체의 저작권을 침해할 경우 모든 책임은 게시자에게 있습니다. 게시자가 모든 손해를 부담해야 합니다.
- 상식닷컴 운영자는 게시자와 상의하지 않고 게시글을 수정 또는 삭제할 수 있습니다.
- 상식닷컴 운영자는 깨끗한 커뮤니티 공간을 만드는 것이 1순위입니다.
수정하기
취소하기