За последние годы генеративные нейросети сделали огромный шаг вперёд, всё лучше и лучше справляясь с задачей создания визуальных образов на основе текстовых описаний. Однако исследователи из Осакского университета решили пойти ещё дальше, научив ИИ Stable Diffusion воссоздавать изображения, считывая активность мозга людей, которые смотрят на оригинальные фотографии.
Команда учёных из Высшей школы передовых биологических наук, действующей на базе Осакского университета, опубликовала новое исследование «High-resolution image reconstruction with latent diffusion models from human brain activity». В нём описан процесс тренировки и тестирования популярной ИИ-программы для генерирования изображений Stable Diffusion в относительно новой для нейросетей сфере – воспроизведении визуальных образов по данным фМРТ (функциональной магнитно-резонансной томографии). Для обучения ИИ исследователи связали тысячи текстовых описаний изображений с результатами сканирования мозга людей, наблюдающих описанные визуальные образы.
Наше взаимодействия с окружающим миром сопровождается постоянными изменениями в мозговой активности, которые отражаются изменениями в токе крови – так называемой гемодинамической реакцией. Ток крови и активность нейронов связаны между собой, потому при повышении активности той или иной области мозга на фМРТ можно наблюдать увеличение тока крови в соответствующей зоне. Например, приток крови к височным долям помогает нам в идентификации содержимого изображения – объектов, людей, их окружения. Тем временем затылочная доля отвечает за расшифровку пространственных характеристик – перспективы, масштаба, позиционирования объектов относительно друг друга и т. п. Для обучения Stable Diffusion учёные использовали базу данных из более чем 10000 томографических изображений мозга 4 людей, которые рассматривали различные изображения, в сочетании с соответствующими текстовыми описаниями и ключевыми словами. Таким образом система научилась «переводить» данные фМРТ с мозговой активностью человека в визуальные образы.
Во время испытаний технологии добровольцы рассматривали фотографии, находясь в аппарате фМРТ. Например, один из испытуемых смотрел на картинку с часовой башней. Чтобы воспроизвести её внешний вид по данным о мозговой активности человека, Stable Diffusion сравнивал результаты его фМРТ с заложенными в своей базе ассоциациями по ключевым словам. Затем на основе ключевых слов система генерировала изображение с помощью стандартного алгоритма text-to-image и редактировала его, ориентируясь на информацию о пространственных характеристиках образа, считанную затылочной долей человека. По словам исследователей, в настоящий момент возможности нейросети достаточно ограничены: для дальнейшего развития её навыков необходимо расширить базу учебных данных томографическими изображениями мозга других людей. Стоит отметить, что уже на данном этапе разработки японских учёных представляют необыкновенный интерес с точки зрения когнитивной нейробиологии. В будущем подобные технологии могли бы оказаться полезными как в медицинской отрасли, так и в процессе изучения мировосприятия других видов.
Источник изображений: High-resolution image reconstruction with latent diffusion models from human brain activity / Yu Takagi, Shinji Nishimoto