딥러닝 음성합성 기술

딥러닝 기술을 이용하여 텍스트를 음성으로 변환할 수 있습니다.
인공 신경망을 이용하여 자연스러운 음성합성이 가능하며,특정인의 목소리를 재현할 수 있습니다.
 

다층 신경망 학습기술인 딥러닝(Deep Learning)은 음성, 영상, 자연어 처리를 포함한 수많은 기계 학습 연구 분야에 적용되고 있음.

Sequence-to-Sequence (with attention) 기반의 모델을 사용하여 텍스트 입력 문장을 특정인의 목소리로 변환.

딥러닝(Deep Learning),Seq2Seq 기반 모델 이용 음성합성 인풋 문장을 알파벳 단위(한글 자모 단위)로 쪼개어 각 단위의 임베딩을 학습하고 인코더와 디코더로 구성된 신경망을 거쳐 음성 스펙트로그램을 학습.

 

다양한 목소리

성우부터 유명인까지 다양한 목소리를 음성합성으로 제공합니다.

빠른 음성합성 속도

준비된 음성합성 엔진에 텍스트를 입력하면 빠르게 음성합성을 완료합니다.

목소리 그대로 재현

대상자의 목소리와 완벽히 일치하는 목소리로 음성합성을 합니다.

딥러닝 영상합성 기술

딥러닝 기술을 이용하여 원하는 영상을 합성할 수 있습니다.
인공 신경망을 이용하여 영상과 음성을 동기화하여 훨씬 자연스러운 영상 구현이 가능합니다.
 

대표적인 사례는 최근 페이스북에서 개발한 Real-eye-opener, 눈을 감은 사진에 가짜 눈을 생성하여 눈을 뜨고 있는 사진으로 만들어 주는 기술.

음성 스팩트로그램을 Seq2Seq기반 모델을 사용하여 입술좌표로 변환.

컨벌루션 신경망(CNN, Convolutional Neural Networks)을 통해 이미지 분석.

GAN(Generative Adversarial Network)기술 이용 얼굴합성.

다 데이터의 확률분포를 추정하고, 인공신경망이 그 분포를 만드는 GAN(Generative adversarial network) 기술 적용.

 

음성합성

특정 인물의 음성을 스펙트로그램으로 변환하여 시퀸스 기반 학습 방법으로 사람이 말함에 따라 바뀌는 입모양을 학습한다.

이미지합성

입모양을 좌표화하여 실제 이미지와 함게 적대적 생성 신경망을 이용한 학습으로 특정 입모양이 주어졌을 경우 해당 입모양을 취하는 특정 인물의 이미지를 생성한다.
demo

영상합성

최종적으로 인물의 음성이 주어진 경우 음성에 맞는 입모양을 취하는 이미지들을 생성한 후, 이미지들을 합성하여 주어진 음성을 말하는 인물의 동영상을 얻을 수 있다.

딥러닝 감정표현 기술

사람의 표정 데이터를 딥러닝 기술로 학습하여 피사체의 얼굴표정
표현감정을 판별하거나 재생하는 기술.
 

Variational autoencoder(VAE) 기반의 화자 및 감정 특성 표현 방식 개발.

VAE 기반의 음성 특성 표현 방식은 감정 정보 등의 태깅이 되어 있지 않은 대규모 음성 DB로부터 비지도 학습에 의해 음성 특성을 학습하고 생성할 수 있다는 장점이 있음.

감정 정보를 비롯한 다양한 음성 특성들을 효과적으로 학습하기 위해, 계층적 구조를 가지는 VAE 방식을 구현하고 이에 대한 효율적 학습 방식을 개발.