DeepMind A.I. Pomost między robotem a ludzkimi głosami

$config[ads_kvadrat] not found

DeepMind: The Podcast | Episode 8: Demis Hassabis - The interview

DeepMind: The Podcast | Episode 8: Demis Hassabis - The interview
Anonim

Sztuczna inteligencja sprawiła, że ​​głosy robota brzmiały bardziej realistycznie.

DeepMind, który wcześniej zademonstrował moc A.I. pokonując człowieka w Go w marcu i zmniejszając w lipcu rachunek za energię, teraz koncentruje się na syntezie mowy.

Grupa badawcza A.I, będąca częścią firmy macierzystej Google Alphabet, ujawniła dziś rano, że stworzyła nową technologię o nazwie WaveNet, która może być używana do generowania mowy, muzyki i innych dźwięków dokładniej niż wcześniej.

DeepMind wyjaśnia, że ​​wiele istniejących metod syntezy mowy opiera się na „bardzo dużej bazie danych krótkich fragmentów mowy nagrywanych z jednego głośnika, a następnie łączonych w celu uzyskania kompletnych wypowiedzi”. WaveNet natomiast używa „surowego kształtu fali sygnału audio ”, Aby tworzyć bardziej realistyczne głosy i dźwięki.

Oznacza to, że WaveNet pracuje z poszczególnymi dźwiękami, które powstają, gdy człowiek mówi, zamiast używać kompletnych sylab lub całych słów. Dźwięki te są następnie uruchamiane za pomocą „kosztownego obliczeniowo” procesu, który DeepMind uznał za „niezbędny do generowania złożonego, realistycznie brzmiącego dźwięku” w maszynach.

Efektem tej dodatkowej pracy jest 50-procentowa poprawa syntezy mowy w amerykańskim angielskim i chińskim mandarynie. Oto przykład mowy generowanej przy użyciu parametrycznego przetwarzania tekstu na mowę, która jest dziś powszechna, używanej przez DeepMind do zademonstrowania, jak brakuje tej metody syntezy mowy:

Oto przykład tego samego zdania wygenerowanego przez WaveNet:

W miarę jak firmy kontynuują pracę nad interfejsami języka naturalnego, oferowanie bardziej realistycznych odpowiedzi będzie miało coraz większe znaczenie. WaveNet może pomóc rozwiązać ten problem.

$config[ads_kvadrat] not found