메인 받아 들여 쓰다 구글의 새로운 텍스트 음성 변환 AI는 진짜 인간이 말할 수 없을 정도로 훌륭하다

구글의 새로운 텍스트 음성 변환 AI는 진짜 인간이 말할 수 없을 정도로 훌륭하다

내일의 별자리

AI가 생성 한 컴퓨터 음성과 실제 인간의 차이를 구분할 수 있습니까? 아마도 당신은 항상 할 수 있다고 생각했을 것입니다. 아마도 당신은 Alexa와 Siri를 좋아하지만 둘 중 하나를 실제 여성과 혼동하지 않을 것이라고 믿습니다.

상황이 훨씬 더 흥미로워 질 것입니다. Google 엔지니어들은 다음과 같은 텍스트 음성 변환 시스템을 만들기 위해 열심히 노력해 왔습니다. Tacotron 2 . 에 따르면 종이 이 시스템은 먼저 음성이 어떻게 들리는 지 시각적으로 표현한 텍스트의 스펙트로 그램을 생성합니다. 이 이미지는 Google의 기존 WaveNet 알고리즘을 통해 입력되어 이미지를 사용하여 매우 자연스러운 음성을 생성합니다.

아론 산체스의 키는 얼마입니까

연구진은이 방법을 사용하여 '우리 모델은 전문적으로 녹음 된 음성에 대한 MOS 4.58에 필적하는 4.53의 평균 오피니언 점수 (MOS)를 달성했습니다.'라고보고했습니다. (평균 의견 점수는 실제와 같은 소리가 얼마나 들리는지를 측정하는 통신 용어입니다.)

Google의 오디오 샘플이 보여 주듯이 Tacotron 2는 문맥에서 명사 'desert'와 동사 'desert', 명사 'present'와 동사 'present'의 차이를 감지하고 그에 따라 발음을 변경할 수 있습니다. 대문자로 된 단어를 강조하고 질문을 할 때 문장을 만드는 대신 적절한 활용법을 적용 할 수 있습니다.

그리고 인간의 말과 너무 비슷하게 들리는 텍스트를 생성하여 차이를 알기가 어렵거나 불가능합니다. 얼마나 힘든지 알고 싶다면 Google의 오디오 샘플 페이지 을 클릭하고 'Tacotron 2 또는 Human?'이라는 제목의 마지막 샘플 세트로 스크롤합니다. 거기에서 Tacotron 2와 실제 사람이 각각 '그 여자가 스타 워즈 립스틱에 대한 비디오를 만들었습니다.'와 같은 문장을 말하는 것을 볼 수 있습니다.

스포일러 경고 : 자신을 테스트하려면 샘플을 듣고이 칼럼의 나머지 부분을 읽기 전에 어느 것이 맞는지 추측하십시오.

그렇다면 어떤 샘플은 텍스트 음성 변환이고 어떤 샘플은 실제 사람의 목소리입니까? 구글의 엔지니어들은 말하지 않지만 아주 큰 단서를 남겼습니다. 각 .wav 파일 샘플에는 'gen'또는 'gt'라는 용어가 포함 된 파일 이름이 있습니다. 논문에 따르면 'gen'은 Tacotron 2에서 생성 된 음성을 나타내고 'gt'는 실제 사람의 음성 일 가능성이 높습니다. ( 'GT'는 기본적으로 '실제 거래'를 의미하는 머신 러닝 용어 인 '지상 진실'을 의미합니다.)

이것이 정확하다고 가정하면 다음은 테스트에 대한 답변입니다.

셜리 맥클레인의 가치는 얼마입니까

‘그 여자가 스타 워즈 립스틱에 대한 동영상을 찍었어요.’

샘플 1 : 실제 인간

샘플 2 : Tacotron 2

'그녀는 컬럼비아 대학교에서 사회학 박사 학위를 받았습니다.'

샘플 1 : Tacotron 2

샘플 2 : 실제 인간

'조지 워싱턴은 미국의 초대 대통령이었습니다.'

샘플 1 : Tacotron 2

샘플 2 : 실제 인간

엘리자베스 버클리 순 가치 2016

‘연애하기에는 너무 바빠요.’

샘플 1 : 실제 인간

샘플 2 : Tacotron 2

얼마나 많이 맞았습니까? 그리고 정말로 그 차이를 말할 수 있습니까? 아니면 그냥 추측해야 했습니까?