상식닷컴
로그인
가입하기
2026년 상식닷컴 선정 식당 & 카페 리스트
2025년 2026년 신상 호텔 리스트
최근에 오픈한 호텔을 찾는다면 살펴보세요
일주일 식단표 어플
자동 일주일 식단표 어플
안드로이드
아이폰
주식 & 코인 차트의 신
1000만원으로 2000만원 만들기 프로젝트
궁금한 상식 보기
갑상선증상으로 체중 변화가 생기면 어떤 조치를 취해야 하나요?
스테로이드가 혈당에 미치는 영향은?
3만원대선물: 팔로우하기 좋은 6가지 추천!
3만원대선물: 여름 휴가에 필요한 6가지 추천!
폐염이란 무엇인가요?
폐수술 후 회복 기간은 얼마나 걸리나요?
사물인터넷이 일상생활에 미치는 영향은 무엇인가요?
사물인터넷을 활용한 고객 맞춤형 서비스의 예시는?
사물인터넷을 위한 프로그래밍 언어는 무엇이 적합한가요?
숙주, 항염 효과가 있는 3가지 이유
숙주, 요리를 더욱 풍미있게 만드는 6가지 이유
숙주, 기호를 충족시켜주는 맛 4가지 이유
Previous
Next
수정하기 - CHATGPT는 어떤 데이터로 훈련되었나요?
닉네임
비밀번호
제목
내용
[이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]
ChatGPT(기반이 되는 GPT-4)는 다음과 같은 특징을 지닌 대규모 텍스트 데이터로 훈련되었습니다. 구체적인 파일명이나 원본 URL은 공개되어 있지 않으나, 데이터를 구성하는 범주와 과정은 다음과 같습니다. 1. 데이터 출처의 범주 • 공개 웹페이지: 대규모 크롤링(예: Common Crawl) 등을 통해 수집된 다양한 주제의 웹 문서 • 전자책·논문·백과사전: 저작권 처리된 전자책, 과학·기술·인문 사회 분야의 학술 논문, 공개 백과사전(예: 위키백과) • 뉴스·블로그·포럼 게시물: 뉴스 기사, 블로그 글, 온라인 토론 포럼의 공개된 글 • 코드 저장소: GitHub 등에서 공개된 프로그래밍 코드와 관련 문서 • 대화 코퍼스: 공개된 채팅·질문응답 데이터, 자체 제작한 대화 데이터 2. 데이터 라이선스 및 전처리 • 라이선스 준수: 저작권이 허용된 자료 혹은 자체 라이선스를 확보한 데이터 위주 • 개인 정보 보호: 개인 식별 정보(이름·주소 등)는 제거 또는 익명화 • 중복 제거·정형화: 너무 짧거나 <a href='https://sangseek.com/sangseeks/무의미/ko'>무의미</a>한 텍스트, 반복문장 등은 배제하고, 기본적인 토크나이징(tokenizing) 및 정규화(normalization) 과정을 거침 3. 학습 방식 (1) 사전학습(Pretraining) – 목표: 대규모 비지도 학습을 통해 텍스트 내에서 다음 토큰(token)을 예측 – 손실함수: 교차 엔트로피(cross-entropy) 기반 – 규모: 수천억~수조 토큰 단위로 학습 (2) 미세조정(Fine-tuning) – 지도학습: 인간 트레이너가 작성한 질문·답변 예시를 활용해 출력의 정확도 및 일관성 강화 – 강화학습(RLHF): 인간 평가자가 선호하는 답변에 보상을 부여해 모델이 더 유용한 응답을 생성하도록 유도 4. 모델 업데이트 및 지식 한계 • 최신성: 2024년 6월까지의 공개된 자료를 바탕으로 학습되었으며, 그 이후 사건·정보는 반영되지 않음 • 오류 가능성: 대규모 통계적 패턴을 학습하는 방식이므로 때로는 부정확하거나 편향된 정보를 생성할 수 있음 이렇게 다양한 출처의 대규모·다양한 텍스트 데이터를 기반으로 학습함으로써, 광범위한 분야의 질문에 대해 자연스럽고 일관성 있는 언어 생성이 가능하도록 설계되었습니다.
이용안내
커뮤니티 이용안내
×
- 게시한 게시글로 발생하는 문제는 게시자에게 책임이 있습니다.
- 게시글이 타인/타업체의 저작권을 침해할 경우 모든 책임은 게시자에게 있습니다. 게시자가 모든 손해를 부담해야 합니다.
- 상식닷컴 운영자는 게시자와 상의하지 않고 게시글을 수정 또는 삭제할 수 있습니다.
- 상식닷컴 운영자는 깨끗한 커뮤니티 공간을 만드는 것이 1순위입니다.
수정하기
취소하기