Искусственный интеллект научился воссоздавать лицо по голосу
Нейросетевая модель Speech2Face умеет воссоздавать по спектрограмме речи человека примерное изображение лица. Американские специалисты из Массачусетского технологического университета создали данную технологию, сообщает arXiv.org.
Разработка основана на трех основных параметрах: поле, расе и возрасте. Для обучения нейросети эксперты использовали датасет AVSpeech. Он состоит из более миллиона коротких видео более 100 тыс. разных людей: каждый ролик в базе данных разделен на аудио- и видеодорожку.
Часть программы воссоздавала лицо человека, остальной функционал анализировал спектрограмму речи, а также разработал примерное изображение говорящего. Нейросеть научилась хорошо определять и указывать возраст. Лучше всего прогнозировались показатели людей с европеоидной и азиатской внешностью.
Авторы работы отметили, что точного портрета добиться не планировалось. По их словам, они намеревались выделить несколько точных параметров из звуковой дорожки. Эти исследования помогут проводить генерацию целых лиц на основе голоса, что позволит эффективно изучить корреляцию с внешностью.
Ранее ученые из России создали нейросеть, «оживившую» портрет писателя Федора Достоевского.