Meta (dawniej Facebook) zaprezentowała nowy „przełomowy” system sztucznej inteligencji, która zamienia tekst pisany na nagranie audio. Może ona również edytować już istniejący dźwięk, “rozmawiać” w sześciu językach i – co wydaje się najbardziej niepokojące – klonować głosy twoich bliskich.
“Dzisiaj ogłaszamy przełom w generatywnej sztucznej inteligencji związanej z mową. Opracowaliśmy Voicebox, najnowocześniejszy model AI, który może wykonywać zadania związane z generowaniem mowy, takie jak edycja, samplowanie i stylizacja.”
– napisała Meta w komunikacie prasowym.
Generator mowy – jak to działa?
Zasadniczo wszystko, co musisz zrobić, aby sklonować czyjś głos, to wysłać programowi nagranie o długości zaledwie dwóch sekund. Voicebox „dopasuje się do stylu audio” i gotowe. W ten sposób uzyskasz replikę głosu znajomego lub członka rodziny.
Zastosowanie generatora mowy od Mety
Oczywiście wielu z nas od razu mogą nasuwać się na myśl potencjalne zagrożenia związane z rozwojem tej technologii, takie jak pomówienia, fałszowanie wypowiedzi czy rozmów telefonicznych. Meta, aby z sukcesem wprowadzić nową funkcję na rynek, musiała mieć od razu przygotowany silny argument, który byłby w stanie przekonać wiele osób to słuszności takiego rozwiązania.
Meta twierdzi więc, że nowy model generatywnej sztucznej inteligencji może „pozwolić osobom niedowidzącym słyszeć pisemne wiadomości od przyjaciół, jakby to oni faktycznie je czytali”. Dostępność i inkluzywność technologii jest istotna, a nowe narzędzie z pewnością mogłoby to być pomocne w tym przypadku. Niemniej jednak koncepcja klonowania głosu jest nadal nieco niepokojąca, nie mówiąc już o tym, że łatwo o nadużycia związane z tą technologią. Meta sama jest świadoma tych zagrożeń, na swoim blogu opublikowała więc komunikat:
„Istnieje wiele ekscytujących przypadków użycia generatywnych modeli mowy, ale ze względu na potencjalne ryzyko niewłaściwego użycia, obecnie nie udostępniamy publicznie modelu ani kodu Voicebox”.