[NEWS][AI 히어로즈] 제2부: 음성 AI, STT 와 TTS 웨비나 리뷰(2)

2022-11-18

                                            


안녕하세요, AI 히어로즈입니다!

컴퓨터 비전에 관한 웨비나 리뷰 잘 보셨나요? 

컴퓨터 비전에 대해 모르셨던 분들 또는 더 알고 싶으셨던 분들께 많은 도움이 되었으면 좋겠네요 :)


이번 편은 음성 기술에 대해 다루고 있습니다. 딥러닝 기반 음성기술에 대해 궁금하셨던 점이 있으시다면 

아래 웨비나 리뷰를 끝까지 주목해 주시기 바랍니다. 


제2부 딥러닝 기반 음성기술과 미래 방향

 

웨비나 2부에서는 '딥러닝 기반 음성 기술과 미래 방향성'에 대해 스마일게이트 유희조 연구원님께서 함께해 주셨습니다.

  1. 음성 AI 소개

  2. STT와 TTS 개념과 특징 소개

  3. 음성 AI 기술

  4. 음성 AI 서비스 소개

  5. 음성 AI 미래 트렌드 

의 목차 순으로 음성기술에 관한 웨비나 내용을 알려드리겠습니다.



1) 음성 AI란? 

인간의 능력을 묘사하며 묘사한 능력 중에서 소리에 관한 것을 Voice AI라고 합니다. 


2) TTS(Text-to-Speech), STT(Speech-to-text)


Voice AI는 크게 두 가지 종류로 나뉘는데요, 

말하는 능력을 묘사하는 음성 AI 기술을 TTS(Text-to-Speech)라고 하며, 

텍스트를 입력 받아서 그 텍스트를 읽는 음성 AI 기술을 SST(Speech-to-Text)라고 합니다. 


<TTS>

딥러닝 기반의 음성기술로써, 딥러닝 기반 음성 AI는 크게 두 종류의 TTS 구조가 있습니다.


① Autoregressive 

  • 시간의 순서대로 음성이 산출됩니다. 

  • 높은 소리 품질을 가집니다. 

  • 텍스트와 소리 정보만 있다면 산출이 가능합니다. 




② Non-autoregressive

  • 모든 시간의 음성을 동시에 산출합니다. 

  • 산출 속도가 빠릅니다.

  • 속도, 음 높이 등 소리를 구성하는 다양한 정보를 직접 컨트롤이 가능합니다. 

  • 음질 부분에서는 품질이 다소 떨어질 수 있기에 글자 별소리의 길이 정보가 추가로 필요합니다. 



<STT>

사람의 듣기 능력을 묘사한 음성 AI 기술이며, 딥러닝 기술 STT는 기존 알고리즘 기반 모델보다 훨씬 높은 정확도를 보입니다. 

STT 음성기술도 아래 모델로 설명할 수 있습니다.  


① Whisper 

  • Autoregressive 구조이며, 음성이 들어오면 순서대로 한 단어, 한 글자 형태로 추론을 하고 그 정보를 다음 단어 추론에도 활용합니다. 

  • 약 75개의 다양한 언어를 학습을 했기에 다국어 인식이 가능합니다. 음성언어의 종류를 말하지 않아도 그 언어를 자동으로 

   인식하여 어떤 언어인지 출원을 하고, 그 언어에 맞게 출력을 합니다. 

  • 다국어 언어를 인식하여 영어로 번역이 가능합니다. 


음성 인식 환경은 매우 다양하기에 다양한 환경에 대응하기 위해서는 막대한 데이터가 필요하다고 말씀해 주셨습니다. 

하지만 데이터 수집에는 한계가 있기 때문에 일관성의 부족을 극복해 내는 게

앞으로 STT의 과제라고 볼 수 있다고 합니다.


3) 음성 AI 기술

현재 많이 연구되고 있는 음성 AI에 대해 간단한 소개를 해주셨습니다. 


① Voice conversion 


  • 음성의 화자를 변경하는 기술입니다. 

  • 목소리 외 최대한 비슷하게 유지되는 것을 목표로 하고 있습니다.

  • 빠른 시간 안에 높은 퀄리티를 유지하도록 하는 것이 중요한 방향성으로 이야기되고 있습니다. 


② Music generation(음악 작곡)


  • 다양한 정보를 바탕으로 음악을 생성해 주는 기술입니다. 

  • 다양한 종류의 정보 즉, 컨텍스트가 활용됩니다. 

  • 음악의 시작 지점을 작곡을 해서 넣어준다면 뒤 영역을 비슷한 형태로 만들어주거나, 제목 텍스트를 집어넣은 후

의미 추론을 한 다음 분위기에 맞는 곡을 구성하는 모델이 있습니다. 

  • 어떠한 학습 데이터를 사용했는지에 따라서 영향력이 강하게 나타납니다. 예시로 저작권 이슈가 생길 수 있습니다. 


③ Denoiser & Speech enhancement(소음 제거 및 음성 강화 기술)


  • 많이 쓰고 있는 기술 중 하나이며 화상회의 등에서 음성 설정에 노이즈 제거 필터에 해당합니다.

  • 딥러닝 기반 필터는 다양한 환경에서 방생하는 화이트 노이즈 또는 환경 소음 들을 제거하고 음성 퀄리티를 증가시키는 기술입니다.



④ Speaker diarization(화자 분할) 

  • 복수의 화자가 등장할 때, 화자를 구분해 내는 기술입니다. 

  • 연속되는 음성에서 화자가 변경되는 타이밍과 계속되는 음성이 이전 등장인물 중 하나인지 새로운 사람인지 판단이 필요합니다. 


⑤ Keyword spotting(키워드 스포팅)


  • 빅스비, 구글 어시스턴트 등을 부를 때 이러한 기술이 사용됩니다. 

  • 사전에 정해둔 키워드가 달성되는지만 판당을 하는 기술입니다. 

  • 다양한 환경을 고려해야 하지만, 특정 단어만 인식을 하면 되기 때문에 간단합니다. 

  • 빠르게 인식, 매우 적은 자원 소모가 되어야 하기에 경량화 기술이 필수가 됩니다. 

  • 쉬운 단어 이슈 등으로 인해 오인식률이 문제가 되어 개선이 되고 있습니다. 


4) 음성 AI 실제 서비스 활용

앞서 소개해 드린 기술들이 실제 서비스에는 어떻게 활용이 되고 있는지 살펴보겠습니다. 


① AI 콜센터 <STT, TTS 기술 활용>

음성 AI 발전에 따라 AI 콜센터가 도입되었고,  STT와 TTS를 통해 고객하고 의사소통을 하며

고객의 요청사항을 수신 및 NLP를 통해 고객 응대를 하고 있습니다.  

  • 서비스 예시: Clova AI, KT AI 콜센터 등


② AI 회의록 <Denoiser, STT, Speaker diarization 기술 활용>

회의 내용이 녹음된 녹음 데이터를 서비스에 입력하면, 소음 제거, 음성 인식, 화자 분리까지 되는 서비스입니다. 

실제 사용 시 아쉬운 점이 있지만 1차적으로 구분을 하고 2차적으로 수정하기 도움이 되는 서비스라고 합니다. 

  • 서비스 예시: daglo, maum.ai, Clova Note


③ AI 비서 <Keyword spotting, STT, TTS 기술 활용>

AI 비서를 호출하기 위해 Keyword spotting 기술을 쓰고 STT와 TTS를 활용하여 의사소통을 진행합니다. 

빅스비, 시리 외 알렉사 라고 하는 아마존과 같은 기업이 선두를 달리고 있다고 합니다. 


④ AI 도네이션 <TTS 기술 활용>

도네이션 하는 사람은 다양한 TTS 음성들을 선택할 수 있으며, 스트리머에게 도네이션 시 설정한 목소리로 자신의 텍스트를 읽을 수 있도록 합니다. 

  • 서비스 예시: TWIP, Toonation


⑤ 가상 인간 <Voice conversion, STT, TTS, Singing voice synthesis>

음성 AI가 주요 기술로 쓰이지는 않지만, 가상의 연예인을 만들어 내고 음성 AI 기술 활용을 통해 

가상 인간 기반 대화 서비스를 구성하고 있습니다. 


5) 음성 AI 미래 트렌드


1) SVS(Singing Voice Synthesis) 

  • 텍스트 대신 악보와 가사를 입력하는 기술 

  • 최근 대표적인 예시로  'AI 기술로 복원한 거북이 무대', '세기의 대결 AI vs 인간' 프로그램 

  • 악보, 가사, 보컬 노래를 매칭 한 데이터를 학습 시키면 유사하게 악보에 따라 노래를 부르게 됩니다.

  • 영어 노래는 구현이 어려우며 아직은 제한적인 퀄리티로 앞으로 많은 후처리가 필요합니다. 


2) Textless Natural Language Process(Textless NLP)

  • 음성 데이터 기반 NLP 모델입니다. 

  • 대량의 음성 데이터를 학습한 후 텍스트를 추상화해서 추상화 한 텍스트를 바탕으로 여러 구체적인 모델을 다시 만들어내는 구조입니다. 

  • 텍스트 데이터가 부족한 경우 NLP 모델 구성 또한 제한적일 수 있습니다. 


3) Speech-to-Speech Translation(음성 번역 기술)

  • 음성 번역이 필요할 시 필요한 기술 STT와 TTS 기술을 통합하여 나타내는 기술로 텍스트를 거치지 않고 음성에서 바로 다른 음성으로 번역하는 기술입니다. 

  • 전체 프로세스를 통해 빠른 시간으로 처리가 가능하므로 이 모델을 개선한다면 처리 시간과 오류가 줄어들게 됩니다. 



Q&A

Q.  설비관리의 고장예측에 일반적으로 진동, 발열(온도), 소음(사운드) 등 종합적인 의사결정이 필요할 것 같은데 사운드만으로는 한계가 있으므로 여러 가지 multi-classsification 으로 적용한 사례가 있나요?

A. 제가 주로 맡는 분야가 아니라서 생산 현장에서 설비 관리에 소리 인식을 적용한 사례에 대해 잘 알지 못합니다. 

다만, 이번에 추가로 찾아본 결과 비록 현재 서비스 중인지는 알 수 없으나 사운드를 바탕으로 고장을 예측하는 서비스를 KT에서 2019년에 발표한 적이 있습니다. 질의의 요점이 사운드를 포함한 멀티 모달로 고장 예측이 적용된 사례라면 해당 서비스를 바탕으로 찾아보시는 게 좋을 것 같습니다.


- 만약 자체적으로 고장 예측을 위한 모델을 구성한다면 가장 중요한 것은 '어떤 진동, 발열, 소리 상태일 때 고장인지'에 대한 데이터 수집이 필요할 것으로 보입니다. 설비를 제작하는 업체라면 다수의 보수 사례와 해당 사례에서 나타났던 정보들을 기록 및 축적하면 활용할 수 있을 것입니다.


- 추가적으로 설비에 따라 통상을 과 고장에 의해 발생하는 소음이 천차만별일 수 있으므로, 어떤 설비에도 적용 가능한 만능의 툴을 만들겠다는 방식은 적합하지 않을 것으로 판단됩니다.


Q. 음성 기술을 통해 제 목소리를 인식해서 모든 글을 제 목소리로 읽을 수 있나요?

A. 가능합니다. 좀 더 정확히 말하자면 질의하신 방식이야말로 현재 voice AI 영역에서의 TTS가 운용되는 방식이라고 보시면 될 것 같습니다. 

다만 보통 '목소리의 인식'에 학습과정이 추가적으로 소요됩니다. 만약 질의자가 목소리 데이터를 '충분히' 제공한다면 어렵지 않게 구현 가능합니다.


충분히의 기준은 기술력 및 목표 퀄리티에 따라 천차만별일 수 있으며, 이에 따라 현재 TTS를 서비스 중인 업체들에 있어서 한 가지 세일즈 포인트는 '얼마나 적은 데이터로', '얼마나 빠르게' 목표 음성으로 발성 가능한 TTS를 만드는 데 있습니다.

따라서 질의의 요지가 한 두개의 짧은 문장을 말했을 때 바로 해당 목소리로 TTS가 작동하는 기술을 원하신다면 그건 현재로서는 불가능하다고 말씀드릴 수 있습니다.


Q. TTS나 STT 과정에서 언어라는 게 연음법칙, 두음법칙 등으로 인하여 텍스트에 왜곡되는 음성 데이터가 발현됩니다. 예를 들어 한라산은 음성으로 표현할 땐 할라 산이 정확한 발음으로 표현됩니다. 이러한 예외 법칙들이 데이터 셋 형성 때 고려가 되나요?

A. 데이터 셋 구축 방식 및 모델의 구성에 따라 다릅니다. 우선 해당 법칙들을 모델이 고려하지 않도록 하는 것이 통상적으로 데이터 구축 및 학습 면에서 더 쉬울 수 있습니다. TTS의 경우 현재는 많은 모델이 시점에 이미 '음(phoneme)'로 변환하여 입력하는 구조를 취하는 것으로 알고 있습니다. 이 경우는 음소-철자 간 상호 변환하는 다른 모델이 사용됩니다. 즉 '음소 변환 모델 -> TTS'의 2단 구조가 됩니다.


만약 모델이 '철자(letter)'를 직접 입력으로 사용할 경우 데이터 셋 구성 시 법칙들을 고려하는 것이 퀄리티 개선에 유리합니다. 다만 말씀하신 법칙들을 직접적으로 고려하기보다는 학습 데이터 내의 철자 분포를 고려하는 경우가 많습니다. 특히 말씀하신 법칙들을 온전하게 구현하기 위해서는 두 철자, 세 철자의 문자열인 bigram, trigram 등을 고려하는 것이 좋습니다.


Q. 음성 번역 기능으로 제 목소리처럼 강의도 가능한가요?

A. 구글에서 2021년 발표한 Translatron 2의 경우 입력된 언어의 목소리를 유지하는 것을 고려한 모델입니다. 다만 이를 구현하기 위해서는 다 환자 다국어 TTS 등을 통해, 사전에 복수 언어에 대한 동일 화자의 음성 데이터를 구성해야 하는 과정이 있습니다.




음성 AI의 기본적인 기술과 미래 방향성까지 강연을 해주신 유희조 연구원님께 감사의 인사를 전하며,

마지막으로 자연어처리에 대해 리뷰를 준비했으니

다음 편도 꼭 봐주시길 바랍니다:)


*모든 이미지 출처: 유희조 연구원님 강연 자료 & 구글



AI 서비스 도입은 AI HEORES!

Connecting Business with AI Service

AI HEROES

Alchera | 대표자 : Young Kyu Hwang | 사업자등록번호 : 643-87-00337

개인정보처리책임자 : Gwang Cheol Na | aiheroes@alcherainc.com | 02-2135-3936

Copyright © 2021 AI HEROES all rights reserved