Голос человека и руки робота. Учёные дали нейросети новое знание, и, кажется, она слишком быстро учится

17 июня 2019 14:04

Учёные из Штатов научили нейросеть по записи человеческого голоса жестикулировать так, как это делал бы реальный человек. И у этого алгоритма всё получается так здорово, будто скоро не будут нужны ни телеведущие, ни актёры (да и вообще, вряд ли роботам будущего понадобятся люди).

Американские учёные под руководством Джитендры Малика из Калифорнийского университета создали нейросеть, ещё сильнее приближающую нас то ли к счастливому будущему, то ли к восстанию машин. Информация об этом появилась на официальном сайте универа, а для создания своего алгоритма разработчики отталкивались от того факта, что в разговоре люди активно используют различные жесты (иногда совершенно неосмысленно), чтобы лучше донести свои мысли до собеседника.

Учёные покадрово проанализировали 144 часа видео с десятью людьми, работу которых сложно представить без активной жестикуляции: от известных телеведущих и университетских преподавателей до религиозных проповедников на ТВ. Конечная цель специалистов же была в том, чтобы после сопоставления всех этих данных нейросеть научилась по одной лишь аудиодорожке предугадывать поведение людей, которых ей показали — точнее, движение их рук.

В итоге учёным удалось добиться того, чтобы алгоритм не только предсказывал движения рук, но и визуализировал их в правдоподобное видео. Вот так выглядит этот процесс: поочерёдно аудио, предполагаемые движения рук и созданное на основе этого сочетания видео.

А теперь можете сравнить созданное нейросетью видео (справа) с реальным (в левом верхнем углу). Спрогнозированные алгоритмом жесты очень похожи на то, как всё было на самом деле, только программа иногда путает руку ведущего, которой он хотел что-то показать.

На гифках вы видели нейросеть, предугадывающую действия комика Джона Оливера в его вечернем шоу Last Week Tonight with John Oliver, но на видео есть и другие примеры работы алгоритма. Так, робот играет в свою странную угадайку с химиком Марком Кубинецом и телеведущим Конаном О’Брайеном.

Важно заметить, что на сгенерированных видео нейросеть не предугадывает мимику человека, а также что подобные алгоритмы учёные уже создавали. Но этот показал самые точные результаты. У него получилось правильно предположить 44 процента движений рук по одной лишь звуковой дорожке.

И далеко не все видят в таком прогрессе повод открывать шампанское.

Чем могут закончиться такие эксперименты с роботами и нейросетями, предположили ютуберы из США. Главным героем их видео стал робот «Атлант» из Boston Dynamics, и вы больше не сможете смотреть, как его обижают.

А в Японии у робота есть власть уже в наше время. Там буддисты собрали робота-бога и уже ему поклоняются.