감정 담아 성우처럼 읽어준다, 수퍼톤 TTS 직접 해보니

▲ 수퍼톤 지스타 2023 B2B 부스 (사진: 게임메카 촬영)

올해 지스타에는 게임 개발에도 활용할 수 있을 만한 색다른 TTS(텍스트 음성 변환)가 출품됐다. 하이브 자회사인 수퍼톤이 개발 중인 프로젝트 스크린플레이다. 

내년 베타 버전 서비스를 목표로 하고 있는 프로젝트 스크린플레이는 지스타 2023 시연 버전 기준으로 남성, 여성, 로봇 등 각기 다른 특색을 지닌 음성 12종을 지원했다. 언어는 한국어, 영어, 일본어 3종이다. 음색, 발음, 강세 등을 개별로 제어할 수 있는 수퍼톤 자체 음성합성 기술인 낸시(NANSY)로 목소리를 생성했고, AI를 통해 여러 음성 데이터를 합성시켜 진짜 사람처럼 자연스럽게 문장을 읽도록 했다.

지스타 현장에서 직접 들어본 결과, 인물 목소리의 경우 기계적인 느낌이 없이 아나운서나 전문 성우가 읽어주는 듯한 자연스러운 억양과 톤을 확인할 수 있었다. 더불어 로봇 목소리는 영화에서 등장하는 안드로이드 목소리같이 기계적인 느낌이 살아 있었다.

▲ 수퍼톤 '프로젝트 스크린플레이' 지스타 2023 시연 영상 (영상: 게임메카 촬영)

아울러 같은 텍스트라도 목소리와 톤을 조정할 수 있으며, 생성한 억양이 마음에 들지 않는다면 말하는 속도, 목소리 높낮이 등을 조정할 수 있다. 따라서 동일한 문장을 같은 목소리로 변환하더라도 억양 등을 세밀하게 조절한 다수의 음성을 뽑아낼 수 있다. 사용자가 원하는 억양을 마이크로 녹음한 뒤, 이를 음성에 적용해 좀 더 정밀한 결과물을 산출하는 것도 가능하다.

활용성도 높다. 프로그램에 원하는 문장을 직접 입력하는 것은 물론, 영상에 변환한 음성을 넣거나, 대본을 불러와서 작업할 수도 있다. 특히 영상 편집은 화면 하단에 있는 타임라인을 통해 생성한 음성이 들어가는 타이밍 등을 쉽게 조절하는 것이 가능하다. 마지막으로 여러 명이 같이 작업할 때 작업 내역 등을 코멘트 등으로 남기는 등 협업 관련 기능도 제공한다.

프로젝트 스크린플레이에 대해 수퍼톤 관계자는 "가상 유튜버를 등장시키는 게임 개인방송이나 게임 개발 과정에서 NPC 대사 녹음 등에 활용할 수 있을 것으로 예상된다. 특히 기업 대상으로는 원하는 목소리를 생성해 제공하는 것도 가능하다고 본다"라며 "내년 베타 버전 서비스를 목표로 하고 있으며, 판매 방식은 사용 시간 제한을 둔 월정액 등으로 고려 중이다"라고 설명했다.

▲ 기본 작업화면, 텍스트를 입력하고 생성된 음성을 들어보는 것부터 영상 편집, 목소리 전환, 녹음 등을 한 화면에서 할 수 있다 (사진제공: 수퍼톤)

▲ 지스타 2023 기준으로 지원하는 언어는 한국어, 영어, 일본어다 (사진제공: 수퍼톤)

▲ 같은 목소리에 동일한 문장이라도 억양 등에 변화를 주어 여러 목소리를 뽑아서 원하는 것을 골라서 쓸 수 있다 (사진제공: 수퍼톤)

▲ 지원하는 목소리는 12종이며, 여성, 남성, 로봇, 아이 등이 있다 (사진: 게임메카 촬영)

▲ 같은 목소리라도 연령대와 성별을 조정해 새로운 느낌을 줄 수 있다 (사진: 게임메카 촬영)

▲ 영상 편집도 가능하며 (사진: 게임메카 촬영)

▲ 대사를 담은 텍스트 파일을 불러와서 작업하는 것도 가능하다 (사진: 게임메카 촬영)

▲ 타임라인을 통해 음성이 들어갈 타이밍 등을 조정할 수 있다 (사진: 게임메카 촬영)