Искусственный интеллект научился воссоздавать лицо по голосу
Нейросетевая модель Speech2Face умеет воссоздавать по спектрограмме речи человека примерное изображение лица. Американские специалисты из Массачусетского технологического университета создали данную технологию, сообщает arXiv.org.
Разработка основана на трех основных параметрах: поле, расе и возрасте. Для обучения нейросети эксперты использовали датасет AVSpeech. Он состоит из более миллиона коротких видео более 100 тыс. разных людей: каждый ролик в базе данных разделен на аудио- и видеодорожку.
Speech2Face: Learning the Face Behind a Voice
— roadrunner01 (@roadrunning01) 24 мая 2019 г.
pdf: https://t.co/Gx0IIEt3sO
abs: https://t.co/HJ51Rx1RLm pic.twitter.com/uHVnxs0sVf
Часть программы воссоздавала лицо человека, остальной функционал анализировал спектрограмму речи, а также разработал примерное изображение говорящего. Нейросеть научилась хорошо определять и указывать возраст. Лучше всего прогнозировались показатели людей с европеоидной и азиатской внешностью.
Авторы работы отметили, что точного портрета добиться не планировалось. По их словам, они намеревались выделить несколько точных параметров из звуковой дорожки. Эти исследования помогут проводить генерацию целых лиц на основе голоса, что позволит эффективно изучить корреляцию с внешностью.
Ранее ученые из России создали нейросеть, «оживившую» портрет писателя Федора Достоевского.