Deepfakes nie pasują do uczenia maszynowego - oto dlaczego

$config[ads_kvadrat] not found

Toruń JUG #42 - "Uczenie maszynowe – lepiej wcześnie niż później" - Patryk Miziuła

Toruń JUG #42 - "Uczenie maszynowe – lepiej wcześnie niż później" - Patryk Miziuła

Spisu treści:

Anonim

Nowa forma dezinformacji będzie rozprzestrzeniać się za pośrednictwem społeczności internetowych w miarę rozgrzewania się kampanii wyborczych w 2018 roku. Nazywany „deepfakes” po pseudonimowym koncie internetowym, które spopularyzowało technikę - która mogła wybrać swoją nazwę, ponieważ proces wykorzystuje metodę techniczną zwaną „głęboką nauką” - te fałszywe filmy wyglądają bardzo realistycznie.

Do tej pory ludzie używali głębokich filmów w pornografii i satyrze, aby wyglądało na to, że sławni ludzie robią rzeczy, których normalnie by nie robili. Ale prawie pewne głębokie trunki pojawią się podczas sezonu kampanii, co ma na celu przedstawienie kandydatów mówiących rzeczy lub idących w miejsca, których prawdziwy kandydat nie chciał.

Ponieważ te techniki są tak nowe, ludzie mają problemy z określeniem różnicy między prawdziwymi filmami a filmami w trybie głębokim. Moja praca z moim kolegą Ming-Ching Chang i naszym doktorem studentka Yuezun Li, znalazła sposób na rzetelne opowiadanie prawdziwych filmów wideo z głębokich filmów. To nie jest trwałe rozwiązanie, ponieważ technologia ulegnie poprawie. Ale to początek i oferuje nadzieję, że komputery będą w stanie pomóc ludziom powiedzieć prawdę z fikcji.

Co to jest „Deepfake”?

Tworzenie wideo deepfake jest bardzo podobne do tłumaczenia między językami. Usługi takie jak Google Translate wykorzystują uczenie maszynowe - analizę komputerową dziesiątek tysięcy tekstów w wielu językach - w celu wykrycia wzorców użycia słów, których używają do tworzenia tłumaczenia.

Algorytmy Deepfake działają w ten sam sposób: używają systemu uczenia maszynowego zwanego głęboką siecią neuronową do badania ruchów twarzy jednej osoby. Następnie syntetyzują obrazy twarzy innej osoby, wykonując analogiczne ruchy. Skutecznie to tworzy film osoby docelowej, która wydaje się robić lub mówić rzeczy, które zrobiła osoba źródłowa.

Zanim będą mogły pracować poprawnie, głębokie sieci neuronowe potrzebują wielu informacji źródłowych, takich jak zdjęcia osób będących źródłem lub celem podszywania się. Im więcej obrazów zostanie wykorzystanych do szkolenia algorytmu deepfake, tym bardziej realistyczna będzie personifikacja cyfrowa.

Wykrywanie migania

W tym nowym typie algorytmu nadal występują wady. Jedna z nich ma związek z migotaniem symulowanych twarzy - lub nie. Zdrowi dorośli ludzie mrugają gdzieś pomiędzy dwiema i dziesięcioma sekundami, a pojedyncze mrugnięcie zajmuje od jednej dziesiątej do czterech dziesiątych sekundy. To byłoby normalne w filmie osoby mówiącej. Ale nie dzieje się tak w wielu filmach deepfake.

Gdy algorytm deepfake jest szkolony na zdjęciach twarzy osoby, zależy od zdjęć dostępnych w Internecie, które można wykorzystać jako dane treningowe. Nawet dla osób, które są często fotografowane, kilka zdjęć jest dostępnych online, z zamkniętymi oczami. Nie tylko zdjęcia są takie rzadkie - ponieważ oczy ludzi są otwarte przez większość czasu - ale fotografowie zazwyczaj nie publikują obrazów, w których oczy głównych osób są zamknięte.

Bez obrazów szkoleniowych osób mrugających, algorytmy deepfake mają mniejsze prawdopodobieństwo tworzenia twarzy, które normalnie mrugają.Kiedy obliczymy ogólny wskaźnik mrugania i porównamy go z naturalnym zasięgiem, okazało się, że postacie w filmach deepfake mrugają znacznie rzadziej w porównaniu z prawdziwymi ludźmi. Nasze badania wykorzystują uczenie maszynowe do badania otwarcia i zamknięcia oczu w filmach.

Zobacz także: Hollywood Won’t Cast Asian-American Stars, ale A.I. Uczenie maszynowe może

Daje nam to inspirację do wykrywania filmów w trybie głębokim. Następnie opracowujemy metodę wykrywania, kiedy osoba w filmie miga. Mówiąc dokładniej, skanuje każdą klatkę danego filmu, wykrywa w nim twarze, a następnie automatycznie lokalizuje oczy. Następnie wykorzystuje inną głęboką sieć neuronową do określenia, czy wykryte oko jest otwarte lub zamknięte, używając wyglądu oka, cech geometrycznych i ruchu.

Wiemy, że nasza praca wykorzystuje lukę w rodzaju danych dostępnych do szkolenia algorytmów deepfake. Aby uniknąć padania ofiarą podobnej wady, wyszkoliliśmy nasz system na dużej bibliotece obrazów zarówno otwartych, jak i zamkniętych oczu. Ta metoda wydaje się działać dobrze iw rezultacie osiągnęliśmy ponad 95-procentowy wskaźnik wykrywalności.

Oczywiście nie jest to ostatnie słowo na temat wykrywania głębokich torów. Technologia szybko się poprawia, a konkurencja między generowaniem i wykrywaniem fałszywych filmów jest analogiczna do gry w szachy. W szczególności mruganie można dodawać do głębokich filmów, włączając obrazy twarzy z zamkniętymi oczami lub używając sekwencji wideo do treningu. Ludzie, którzy chcą zmylić opinię publiczną, będą lepiej robić fałszywe filmy - a my i inni członkowie społeczności technologicznej będziemy musieli nadal szukać sposobów ich wykrywania.

Ten artykuł został pierwotnie opublikowany w The Conversation by Siwei Lyu. Przeczytaj oryginalny artykuł tutaj.

$config[ads_kvadrat] not found