상식닷컴
로그인
가입하기
2026년 상식닷컴 선정 식당 & 카페 리스트
2025년 2026년 신상 호텔 리스트
최근에 오픈한 호텔을 찾는다면 살펴보세요
일주일 식단표 어플
자동 일주일 식단표 어플
안드로이드
아이폰
주식 & 코인 차트의 신
1000만원으로 2000만원 만들기 프로젝트
수정하기 - 음성데이터와 관련된 국제 표준은 무엇인가요?
닉네임
비밀번호
제목
내용
[이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]
음성 데이터를 다루는 국제 표준은 크게 네트워크를 통한 전송·품질 평가, 압축 포맷, 음성 애플리케이션을 위한 마크업·메타데이터, 그리고 생체인식용 음성 표현 규격 등으로 나눠서 살펴볼 수 있습니다. 아래는 이러한 분야별 주요 표준들을 글로 정리한 내용입니다. 1. 음성 전송 품질 평가를 위한 ITU-T P 시리즈 • P.800 (Mean Opinion Score 평가 방법) 전화망이나 통신 시스템에서 녹음된 음성을 청취자에게 들려주고 주관적 품질 점수를 매기는 절차와 조건을 규정합니다. • P.862 (PESQ: Perceptual Evaluation of Speech Quality) 주관적 청취 없이 원음과 처리 후 음성 신호를 비교하여 객관적인 품질 점수를 산출하는 알고리즘을 정의합니다. • P.863 (POLQA: Perceptual Objective Listening Quality Assessment) 모바일·VoIP망 등 폭넓은 대역폭 환경에서도 신호 왜곡을 정밀하게 측정할 수 있도록 PESQ보다 확장된 모듈을 제공합니다. • P.563 (Single-Ended 품질 평가) 원본 음성 정보 없이 단일 채널만으로 음성 품질을 예측하는 단독(참조 비참여) 모델 규격입니다. 2. 음성 압축 및 코덱 표준 • ISO/IEC MPEG-1 Audio Layer III (MP3, ISO/IEC 11172-3) 고음질을 유지하면서 압축률을 높인 오디오 코덱입니다. • ISO/IEC MPEG-2 AAC 및 MPEG-4 AAC (ISO/IEC 13818-7, 14496-3) MP3보다 효율성이 높아 모바일·스트리밍 서비스에 널리 쓰입니다. • MPEG-H 3D Audio (ISO/IEC 23008-3) 다채널·객체 기반 믹싱을 지원하여 공간 음향(3D 오디오) 환경에 적합한 표준입니다. • IETF Opus (RFC 6716) 음성·음악을 모두 고품질로 지원하는 오픈 인터넷 표준 코덱으로, 실시간 통신(VoIP)에서 선호됩니다. • 3GPP AMR-WB(+), EVS 등 이동통신용 음성 코덱 <a href='https://sangseek.com/sangseeks/GSM/ko'>GSM</a>/<a href='https://sangseek.com/sangseeks/UMTS/ko'>UMTS</a>/LTE망에서 음성 품질과 대역폭 효율을 동시에 고려한 표준 코덱들입니다. 3. 음성 인식·합성·애플리케이션을 위한 마크업 및 API • W3C Speech Synthesis Markup Language (SSML) 텍스트 음성합성(TTS) 엔진에 전달할 발음, 억양, 속도, 강세 등의 세부 제어를 XML 기반으로 정의합니다. • W3C Speech Recognition Grammar Specification (SRGS) 음성인식 엔진이 이해할 수 있는 문장 패턴·문법을 <a href='https://sangseek.com/sangseeks/BNF/ko'>BNF</a> 또는 XML 형식으로 표현합니다. • W3C Semantic Interpretation for Speech Recognition (SISR) SRGS로 인식된 결과를 어떻게 의미 구조(예: JSON, XML)로 매핑할지 규정합니다. • VoiceXML (OASIS) 음성 사용자 인터페이스(전화 자동응답 시스템 등)를 제작하기 위한 XML 어플리케이션 표준으로, TTS·ASR·DTMF 제어를 통합합니다. • Web Speech API (W3C 초안) 브라우저 환경에서 음성 인식·합성을 자바스크립트로 제어할 수 있는 표준 인터페이스 사양입니다. 4. 음성 데이터 설명·검색을 위한 메타데이터 표준 • ISO/IEC 15938 (MPEG-7) 오디오·비디오 콘텐츠의 검색·분석을 지원하는 멀티미디어 메타데이터 표현 체계를 정의합니다. 음성의 특성(피치, 스펙트럼, 화자 식별 정보 등)도 기술할 수 있습니다. • ISO/IEC 24744 (Language Application Markup Language) 멀티미디어 언어 자원(텍스트·음성·주석 등)을 통합 관리하기 위한 마크업 규격입니다. • EMMA (W3C Extensible MultiModal Annotation) 멀티모달 인터랙션(음성·터치·동작 등)의 해석 결과를 표준화된 XML로 기술합니다. 5. 음성 생체인식(Voice Biometric)을 위한 표준 • ISO/IEC 19794-13 (Biometric Data Interchange Format – Part 13: Voice Data) 음성 샘플 및 특징 벡터를 교환하기 위한 파일 포맷, 메타데이터(녹음 환경, 마이크 사양, 화자 정보 등) 구조를 규정합니다. • ISO/IEC 20513 (Biometric Policy Interoperability Protocol) 생체인식 시스템 간 정책·자격 정보 교환을 위한 프로토콜로, 음성 생체인식에도 적용 가능하도록 확장될 수 있습니다. 6. 기타 관련 표준 및 권고 • ETSI Speech Processing, Transmission and Quality (STQ) 프레임워크 유럽 전기통신표준협회(ETSI)에서 VoIP, 웨이브렛 기반 코덱, 보안 음성 전송(VoIP 보안 등)을 다룹니다. • 3GPP TS 26 시리즈 이동통신망에서의 음성코덱, 음성 <a href='https://sangseek.com/sangseeks/품질 측정/ko'>품질 측정</a>, 음성 서비스 API(spec for IMS-based services) 등을 규정합니다. • Bluetooth HFP (Hands-Free Profile) 차량용 핸즈프리 음성통화의 오디오 전송 코덱 및 제어 인터페이스 프로파일을 정의합니다. 이처럼 음성 데이터 전처리·압축·전송·품질 평가·응용 서비스·메타데이터·생체인식에 이르기까지 매우 다양한 국제 표준이 존재하며, 각각의 목적과 적용 분야에 맞춰 적절한 사양을 선택·조합하여 활용할 수 있습니다.
이용안내
커뮤니티 이용안내
×
- 게시한 게시글로 발생하는 문제는 게시자에게 책임이 있습니다.
- 게시글이 타인/타업체의 저작권을 침해할 경우 모든 책임은 게시자에게 있습니다. 게시자가 모든 손해를 부담해야 합니다.
- 상식닷컴 운영자는 게시자와 상의하지 않고 게시글을 수정 또는 삭제할 수 있습니다.
- 상식닷컴 운영자는 깨끗한 커뮤니티 공간을 만드는 것이 1순위입니다.
수정하기
취소하기