본문 바로가기
잡학다식

보이스피싱을 피하기 위해, AI 생성 음성을 식별하는 방법 알아보기

by KaNonx카논 2025. 2. 3.
반응형

보이스피싱을 피하기 위해, AI 생성 음성을 식별하는 방법 알아보기

최근 몇 년 동안 AI 기술은 다른 사람의 목소리를 복제하여 

그 "사람"이 원하는 모든 말을 하도록 만들었습니다. 

 

전문가가 아니더라도 빠르게 구글 검색을 통해 바이든 대통령부터 스폰지밥까지 누구나 자신의 말을 할 수 있습니다. 

흥미롭고, 재미있고, 무섭습니다.

AI 음성 기술은 영원히 사용될 수 있습니다: 

예를 들어, Apple의 개인 음성 기능을 사용하면 텍스트 음성 변환에 사용할 수 있는 

자신의 음성 버전을 만들 수 있으며, 이는 자신을 표현할 수 없는 사람들을 위해 설계되었습니다. 

 

사람들의 목소리를 보존할 수 있는 능력이 있다는 것이 놀랍습니다. 

그래서 일반적인 TTS 목소리를 사용하는 대신, 그들의 말이 정말 그들의 목소리처럼 들립니다.

물론 동전의 이면에는 잘못된 정보가 만연할 가능성이 있습니다. 

 

현재의 기술로 인해 누군가가 아무 말도 하지 못하게 되는 상황에서, 

온라인에서 듣고 있는 내용이 실제로 말해졌다는 것을 어떻게 믿을 수 있겠습니까?

 


AI 음성 생성기 작동 방식

텍스트 및 이미지 모델과 같은 다른 AI 모델과 마찬가지로 AI 음성 생성기는 

대규모 데이터 세트로 학습된 모델을 기반으로 합니다. 

 

이 경우, 모델들은 다른 사람들이 말하는 샘플로 훈련됩니다. 

예를 들어, OpenAI의 Whisper 모델은 68만 시간의 데이터로 학습되었습니다. 

그렇게 해서 단어 자체를 복제하는 것뿐만 아니라 음색과 속도와 같은 다른 말의 요소들도 학습하게 됩니다.


그러나 일단 모델이 훈련되면 음성을 복제하는 데 그렇게 많은 데이터가 필요하지 않습니다. 

 

모델에게 5분 분량의 녹음을 제공할 때 결과에 크게 감명받지 않을 수도 있지만, 

일부는 제한된 학습 데이터와 유사한 음성을 출력할 수도 있습니다. 

 

더 많은 데이터를 제공하면 음성을 더 정확하게 복제할 수 있습니다.

기술이 발전함에 따라 여기서 위조품을 즉시 발견하는 것이 점점 더 어려워지고 있습니다. 

 

하지만 대부분의 AI 음성에는 몇 가지 주목할 만한 특이점과 결함이 있으며, 

이는 해당 녹음이 진짜인지 가짜인지 식별하는 데 중요한 역할을 합니다.



이상한 발음과 속도 조절을 들어보세요.

AI 모델은 때때로 차이를 구분하기 어려울 정도로 사람의 목소리를 모방하는 데 꽤 능숙합니다. 

그러나 여전히 어려움을 겪고 있는 것은 우리의 말투를 재현하는 것입니다.

의심스럽다면 화자의 "목소리"에 나오는 왜곡을 주의 깊게 들어보세요: 

AI 봇은 대부분의 사람들이 하지 않는 방식으로 때때로 단어를 잘못 발음할 수 있습니다. 

 

네, 인간은 항상 말을 잘못 발음하지만, 더 많은 것을 알려줄 수 있는 실수를 조심해야 합니다. 

예를 들어, "콜라주"는 코라제즈에서 코라제즈 또는 코레이제즈로 바뀔 수 있습니다. 



속도도 영향을 받을 수 있습니다. 

AI는 정상적인 말하기 속도를 점점 더 잘 재현하고 있지만, 단어 사이에 이상한 멈춤이 있거나 

부자연스러운 방식으로 다른 단어들 사이를 질주하기도 합니다. 

 

AI 모델은 두 문장 사이의 간격을 넘어서면 즉시 사라질 수 있습니다.

(말을 멈출 수 없는 사람도 그렇게 로봇처럼 들리지 않습니다.)

 

일레븐 랩스의 무료 발전기를 테스트할 때 첫 번째 문장 "안녕, 무슨 일이야?"와

두 번째 문장 "오늘 밤 영화 보러 갈까 생각 중이야" 사이에 공백이 없었습니다.

 

공정하게 말하자면, 대부분의 시도는 공간을 포함했지만,

오디오가 합법적인지 아닌지를 판단할 때는 이런 순간을 주의 깊게 살펴봐야 합니다.

반대로, 다음 단어나 문장에 도달하는 데 너무 오래 걸릴 수도 있습니다. 

 

AI가 자연스러운 멈춤과 호흡을 재현하는 데 점점 능숙해지고 있지만

(예, 일부 발전기는 말하기 전에 '숨'을 삽입합니다), 

마치 봇이 인간이 말을 하는 경향이 있다고 생각하는 것처럼 단어 사이에 이상한 멈춤 소리가 들릴 수도 있습니다. 

 

누군가가 다음에 말하고 싶은 단어를 생각하는 것처럼 행동한다면 한 가지 문제가 있겠지만, 그렇게 들리지는 않습니다. 

로봇처럼 들립니다.

올해 초 예비선거에서 누군가 만든 바이든 대통령의 딥페이크 오디오에서 이러한 멈춤음을 들을 수 있습니다. 

이 통화에서 가짜 바이든은 유권자들이 예비선거에 출마하지 않도록 설득하려고 노력하며 

"이번 화요일 투표는 공화당만이 선거를 할 수 있게 해줍니다..."라고 말합니다.

 

https://youtu.be/V9huKUC2GLo

 

 

목소리에는 최소한의 감정과 변화가 있습니다.

비슷한 맥락에서 AI의 목소리는 다소 평평해지는 경향이 있습니다. 

 

많은 사람들이 설득력을 얻지는 못했지만, 

자세히 들어보면 대부분의 인간 화자들이 기대하는 것보다 음색의 변화가 적습니다.

이 모델들이 누군가의 목소리를 매우 정확하게 재현할 수 있지만, 

화자의 리듬과 감정을 모방할 때 종종 그 표시를 놓치기 때문에 재미있기도 합니다. 

 

오픈과 같은 기업AI는 음성 출력에서 더 표현력 있고 반응성이 있도록 모델을 훈련하고 있습니다. 

 

GPT-4o의 고급 음성 모드는 특히 실시간 '대화'가 가능한 만능 AI 음성을 만드는 데 가장 근접한 제품일 것입니다. 

그럼에도 불구하고, 주의 깊게 듣고 있으면 몇 가지 결함을 발견할 수 있습니다. 

 

아래 동영상에서 봇이 "반대, 인접, 빗변"(특히 빗변)이라고 말하는 방식을 들어보세요. 

 

여기서 GPT-4o가 멈추고, 현실적인 분산이 사라지며, 

목소리는 그 흔하지 않은 단어들을 연결하는 방법을 알아내기 위해 조금 더 로봇적으로 변합니다.

 

https://youtu.be/_nSmkyDNulk

이제 매우 미묘합니다: 더 큰 의미는 아마도 단어 사이에 넣는 멈춤일 것입니다. 

예를 들어, 단어가 "반대"라고 말하기 전의 멈춤과 같은 것입니다. 

 

사실, 그것이 "식별"하는 속도를 늦추는 방식도 분명하지만, 

모델이 그것을 얼마나 정상적으로 보이게 만드는지 인상적입니다.

 

명인이나 정치인이 우스꽝스럽거나 도발적인 말을 하고 있습니까?


AI 음성을 발견하는 것은 단순히 출력물의 결함을 식별하는 것뿐만 아니라,

 특히 "유명인"의 녹음에 있어서도 그렇습니다. 

 

AI가 생성한 권력과 영향력 있는 사람들의 연설에 관해서는, 

이러한 녹음이 어리석거나 도발적인 두 가지 중 하나가 될 가능성이 높습니다. 

 

아마도 인터넷에서 누군가가 유명인이 재미있는 말을 하는 영상을 만들고 싶어 하거나, 

나쁜 배우가 당신을 화나게 하는 정치인의 말을 설득하고 싶어 할 것입니다.

트럼프, 바이든, 오바마가 함께 비디오 게임을 하는 영상을 접한 대부분의 사람들은 

실제로 그것이 진짜라고 생각하지 않을 것입니다: 이것은 명백한 농담입니다. 

 

하지만 선거에서 렌치를 던지려는 사람이 정치 후보의 가짜 녹음을 생성하여 

동영상으로 재생하고 이를 틱톡이나 인스타그램에 업로드하는 것을 상상하는 것은 어렵지 않습니다. 

 

엘론 머스크는 카말라 해리스의 가짜 녹음이 담긴 X 동영상을 공개하지 않고 공유했는데, 

이 동영상은 AI를 사용해 제작된 것입니다.


그것이 진짜 내용을 변명하려는 것은 아닙니다: 

후보자가 자신의 공직 적합성에 의문을 제기할 수 있는 발언을 할 경우 주의해야 합니다. 

 

하지만 분열적인 선거 시즌에 접어들면서 이러한 유형의 녹화에 회의적인 태도는 그 어느 때보다 중요해질 것입니다.

여기서 해결책의 일부는 오디오 녹음의 출처를 살펴보는 것입니다: 

누가 게시했나요? 미디어 조직이었나요, 아니면 인스타그램의 무작위 계정이었나요? 

만약 그것이 사실이라면, 여러 미디어 기관들이 빠르게 알아차릴 가능성이 높습니다. 

 

인플루언서가 적절한 출처를 제공하지 않고 자신의 관점에 맞는 것을 공유하고 있다면, 

직접 다시 공유하기 전에 박자를 맞춥니다.

 

 

 

-

반응형

댓글