고민은 격렬하게, 행동은 단순하게

[AI 음성 생성] AWS Polly(폴리)를 이용한 TTS(Text To Speech, 음성 합성) 구현 (1) feat. 유튜브 쇼츠도 이걸로 만들어요 본문

개발

[AI 음성 생성] AWS Polly(폴리)를 이용한 TTS(Text To Speech, 음성 합성) 구현 (1) feat. 유튜브 쇼츠도 이걸로 만들어요

jomminii 2024. 1. 21. 23:02

 

 

AWS Polly는 텍스트를 음성으로 바꿔주는

TTS(Text To Speech) 서비스인데요,

제가 음성 합성 서비스를 써 볼 줄은 상상도 못 했었는데,

유튜브 쇼츠를 한 번 만들어본다고

써보게 되네요...!

 

 

원래는 쇼츠를 만들어보려고

클로바 AI 도 써보고,

일레븐랩스도 써봤는데요,

일단 모두들 훌륭하게 음성 합성을 지원하긴 하지만

수익을 창출하는 콘텐츠에 사용하려면

비용을 지불해야 하더라고요.

 

일레븐랩스 구독료

 

쇼츠가 될지 안될지도 모르고,

chatGPT 에도 이미 구독료를

내고 있는 상황이라

 

구독료들에 계속 돈을 쓰게 되면

배보다 배꼽이 더 커지게 생겼더라고요...

 

일레븐랩스 첫 달 이용 혜택으로

1달러로 써보긴 했지만,

5달러로 오르게 되는 게 조금 부담이 되기도 했고!

 

 

뭐 어쨌든 이런저런 이유로

좀 더 저렴한 방법으로

TTS를 하고 싶어서 찾아봤는데,

 

마침 AWS에 음성합성 서비스가 존재하더라고요.

 

AWS 서비스는 이미 회사나

개인 프로젝트에서

사용하고 있어서 친숙하기도 했고,

 

AWS에서 제공하는

테스트 페이지에서 사용해 보니

썩 품질이 괜찮더라고요.

 

AWS Polly 테스트 페이지

(AWS 계정이 있어야 사용 가능)

 

 

 

반응형

 

# AWS Polly 란

 

그래서 AWS Polly 가 뭐냐면

 

Amazon Polly의 텍스트 음성 변환(TTS) 서비스는 고급 딥 러닝 기술을 사용하여 텍스트를 실제와 같은 음성으로 변환합니다. 다양한 언어에서 수십 개의 생생한 음성을 사용할 수 있으므로 여러 국가에서 작동하는 음성 지원 애플리케이션을 빌드할 수 있습니다. 최신 Polly 롱폼 엔진은 청취자의 마음을 사로잡는 표현력이 풍부한 음성을 합성하도록 맞춤 제작되었습니다. 뉴스 기사, 마케팅 콘텐츠, 교육 비디오 등과 같이 길이가 긴 콘텐츠에 적합합니다. Polly 신경망 NTTS(텍스트 음성 변환) 보이스는 기계 학습 접근 방식을 통해 음성 품질을 한 단계 높여줍니다. 또한 Amazon Polly 브랜드 보이스로 조직에 맞는 사용자 지정 음성을 생성할 수 있습니다. 이는 Amazon Polly 팀과 협력하여 조직 전용으로 NTTS 보이스를 구축하는 사용자 지정 작업입니다.
출처 : AWS Polly

 

이 서비스를 이용해서

유튜브 쇼츠와 같은 곳에

내 목소리가 들어가지 않는

내레이션이 들어간 콘텐츠를

생성할 수 있고,

 

인터넷에서 기사 읽기 서비스 등을

제공하는 데 사용할 수 있어요.

 

그리고 가장 중요한 부분이 사용 가격인데요!

 

프리 티어
월 수백만 개의 문자
Amazon Polly의 표준 음성에 대한 프리 티어에는 첫 번째 음성 요청을 시작으로 처음 12개월 동안 매월 음성 또는 인용 부호 요청에 대한 문자 5백만 개가 포함되어 있습니다. 신경망 음성에 대한 프리 티어에는 첫 번째 음성 요청을 시작으로 처음 12개월 동안 매월 음성 또는 인용 부호 요청에 대한 문자 1백만 개가 포함되어 있습니다. 긴 형식 음성에 대한 프리 티어에는 첫 번째 음성 요청을 시작으로 처음 12개월 동안 매월 음성 또는 인용 부호 요청에 대한 문자 50만 개가 포함되어 있습니다.

 

 

프리 티어 초과 사용분
사용량에 따라 지불하는 모델
처리한 텍스트의 문자 수에 따라 월별로 요금이 청구됩니다. Amazon Polly의 표준 음성 요금은 프리 티어 초과 시 음성 또는 인용 부호 요청의 문자 1백만 개당 4.00 USD로 책정됩니다. Amazon Polly의 신경망 음성 요금은 프리 티어 초과 시 음성 또는 인용 부호 요청의 문자 1백만 개당 16.00 USD로 책정됩니다. Amazon Polly의 긴 형식 음성 요금은 프리 티어 초과 시 음성 또는 인용 부호 요청의 문자 1백만 개당 100.00 USD로 책정됩니다.
출처 : AWS Polly pricing

 

위에서 보이는 것처럼

매우 저렴한 가격으로 음성 합성 서비스를 이용할 수 있어요.

 

일단 프리 티어의 경우,

1년 동안 표준 음성은 6천만 글자,

신경망 음성은 1200만 글자가 무료로 제공되는데요,

 

 

제가 써봤던 일레븐랩스가 가장 저렴한 요금제인

Starter 요금제에서 제공했던

매월 $5 당 3만 글자에 비하면

아주 혜자스러운 가격이라고 할 수 있어요.

 

물론 일레븐 랩스는

내 목소리 클론, 커스텀 보이스 생성 등

좀 더 다양한 기능, 편의성을 제공하긴 하지만

 

일단 만들어 낼 콘텐츠가

성공할지 안 할 지 간을 보는 단계에서

무료 수준으로 음성 합성을 할 수 있다는 건

엄청난 베네핏이라고 할 수 있을 거 같아요.

 

신경망 음성이 좀 더 자연스럽긴 한데,

표준 음성도 나쁘지 않아요.

 

그리고 애초에 신경망 음성으로 매월 100만 글자를 음성 합성에 사용하려면..

다 쓰긴 쉽지 않을 거 같아요.

참고로 프리 티어란 AWS에서 최초 가입자에 대해 1년 간 AWS의 여러 서비스를 특정 조건 하에서 무료로 쓸 수 있게 제공하는 프로모션으로, EC2, RDS 등의 특정 스펙 인스턴스를 무료로 사용할 수 있게 한다든가의 혜택을 제공하고 있어요.
본인 인증을 통해 이 혜택을 제공하고 있진 않아서 1년이 지난 후 다시 새로운 계정으로 가입하면 사실상 계속 쓸 수 있긴 해요...
학습 용도라면 활용해 볼 만합니다.

 

조금 아쉬운 건

한글은 하나의 음성 밖에 제공하지 않아요.

서연이라는 여성 목소리인데,

한 번 들어보세요!

 

speech_20240121135221997.mp3
0.04MB

 

 

영어 등 다른 국가의 언어들 같은 경우는

정말 다양하게 제공하고 있어요.

 

제공 언어 리스트

 

더 많은 언어는 링크에서 확인해보세요!

 

요즘은 콘텐츠도

한글로만 만드는 게 아니라

한글 대본을 AI로 번역해서

AI 음성 입혀서 콘텐츠 만드는 거

다들 들어보셨죠?

 

 

이때 사용하기가 기가 막힙니다.

우리가 아는

거의 전 세계 언어를

이 서비스로 음성을 만들어낼 수 있어요.

 

원래는 코드 작성까지

하나에 담으려고 했는데

이미 글이 너무 길어졌네요...

 

다음 글에서 계속할게요!

반응형