Вероятностное улучшение фотографий по нескольким пикселям: модель Google Brain / длиннопост :: интерполяция :: geek новости :: Google Brain :: повышение разрешения :: нейросеть

Вероятностное улучшение фотографий по нескольким пикселям: модель Google Brain

нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост

Пример работы нейросети после обучения на базе лиц знаменитостей. Слева — исходный набор изображений 8×8 пикселей на входе нейросети, в центре — результат интерполяции до 32×32 пикселей по предсказанию модели. Справа — реальные фотографии лиц знаменитостей, уменьшенные до 32×32, с которых были получены образцы для левой колонки

Можно ли повышать разрешение фотографий до бесконечности? Можно ли генерировать правдоподобные картины на основе 64 пикселей? Логика подсказывает, что это невозможно. Новая нейросеть от Google Brain считает иначе. Она действительно повышает разрешение фотографий до невероятного уровня.

Такое «сверхповышение» разрешения не является восстановлением исходного изображения по копии низкого разрешения. Это синтез правдоподобной фотографии, которая вероятно могла быть исходным изображением. Это вероятностный процесс.

Когда стоит задача «повысить разрешение» фотографии, но на ней нет деталей для улучшения, то задачей модели является генерация наиболее правдоподобного изображения с точки зрения человека. В свою очередь, сгенерировать реалистичное изображение невозможно, пока модель не создала контуры и не приняла «волевое» решение о том, какие текстуры, формы и паттерны будут присутствовать в разных частях изображения.

Для примера достаточно посмотреть на КДПВ, где в левой колонке реальные тестовые изображения для нейросети. На них отсутствуют детали кожи и волос. Их никоим образом невозможно восстановить традиционными способами интерполяции вроде линейной или бикубической. Однако если предварительной обладать глубокими знаниями о всём разнообразии лиц и их типичных очертаниях (и зная, что здесь нужно увеличить разрешение именно лица), то нейросеть способна совершить фантастическую вещь — и «нарисовать» недостающие детали, которые с наибольшей вероятностью будут там.

Специалисты подразделения Google Brain опубликовали научную работу «Рекурсивное пиксельное суперразрешение», в которой описывают полностью вероятностную модель, обученную на наборе фотографий высокого разрешения и их уменьшенных копиях 8×8 для генерации изображений размером 32×32 из маленьких образцов 8×8.

Модель состоит из двух компонентов, которые обучаются одновременно: кондиционная нейросеть (conditioning network) и приор (prior network). Первая из них эффективно накладывает изображение низкого разрешения на распределение соответствующих изображений высокого разрешения, а вторая моделирует детали высокого разрешения, чтобы сделать финальную версию более реалистичной. Кондиционная нейросеть состоит из блоков ResNet, а приор представляет собой архитектуру PixelCNN.

Схематично модель изображена на иллюстрации.

prior network (PixeICNN)
conditioning network (CNN)
logits
HR
image,нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост

Кондиционная свёрточная нейросеть получает на входе изображения низкого разрешения и выдаёт логиты — значения, которые предсказывают кондиционную логит-вероятность для каждого пикселя изображения с высоким разрешением. В свою очередь, свёрточная нейросеть приор делает предсказания, основанные на предыдущих случайных предсказаниях (обозначены пунктирной линией на схеме). Вероятностное распределение для всей модели вычисляется как softmax-оператор поверх суммы двух наборов логитов с кондиционной нейросети и приора.

Но как оценить качество работы такой сети? Авторы научной работы пришли к выводу, что стандартные метрики типа пикового отношения сигнал/шум (pSNR) и структурного сходства (SSIM) не способны корректно оценить качество предсказания для таких задач сверхсильного увеличения разрешения. По этим метрикам выходит, что лучший результат — это размытые картинки, а не фотореалистичные изображения, на которых чёткие и правдоподобные детали не совпадают по месту размещения с чёткими деталями настоящего изображения. То есть эти метрики pSNR и SSIM крайне консервативны. Исследования показали, что люди легко отзличают реальные фотографии от размытых вариантов, созданных регрессионными методами, а вот отличить сгенерированные нейросетью образцы от реальных фотографий им не так просто.

Посмотрим, какие результаты показывает модель, разработанная в Google Brain и обученная на наборе 200 000 лиц знаменитостей (набор фотографий CelebA) и 2 000 000 спальных комнат (набор фотографий LSUN Bedrooms). Во всех случаях фотографии перед обучением системы были уменьшены до размера 32×32 пикселя, а потом ещё раз до 8×8 методом бикубической интерполяции. Нейросети на TensorFlow обучались на 8 графических процессорах.

Результаты сравнивались по двум основным базам: 1) независимая попиксельная регрессия (Regression) c архитектурой, похожей на нейросеть SRResNet, которая показывает выдающиеся результаты по стандартным метрикам оценки качества интерполяции; 2) поиск ближайшего соседнего элемента (NN), который ищет в базе учебных образцов пониженного разрешения наиболее схожее изображение по близости пикселей в евклидовом пространстве, а затем возвращает соответствующую картинку высокого разрешения, из которой был сгенерирован этот учебный образец.

Нужно заметить, что вероятностная модель выдаёт результаты разного качества, в зависимости от температуры softmax. Вручную было установлено, что оптимальные значения τ лежат между 1,1 и 1,3. Но даже если установить τ=1.2, то всё равно каждый раз результаты будут разными.

Различные результаты при запуске модели с температурой softmax τ=1.2

Оценить качестве работы вероятностной модели можете по образцам ниже:

Сравнение результатов по спальням

Сравнение результатов по лицам знаменитостей:

Для проверки реалистичности результатов учёные провели опрос черед краудсорсинг. Участникам показывали две фотографии: одну настоящую, а вторую сгенерированную различными методами из уменьшенной копии 8×8 и просили указать — какая фотография сделана камерой.

Algorithm pSNR SSIM MS-SSIM Consistency % Fooled
Bicubic 28.92 0.84 0.76 0.006 -
NN 28.18 0.73 0.66 0.024 -
Regression 29.16 0.90 0.90 0.004 4.0 ±0.2
r = 1.0 29.09 0.84 0.86 0.008 11.0 = 0.1
r = 1.1 29.08 0.84 0.85 0.008 10.4 = 0.2
r = 1.2 29.08 0.84 0.86 0.008 10.2 = 0.1
Bicubic 28.94 0.70

Сверху в таблице — результаты для базы лиц знаменитостей, снизу — для спальных комнат. Как видим, при температуре τ = 1.2 на фотографиях спальных комнат модель показала максимальный результат: в 27,9% случаях её выдача оказалась более реалистичной, чем настоящее изображение! Это явный успех.

На иллюстрации внизу — самые удачные работы нейросети, в которых она «побила» оригиналы по реалистичности. Для объективности — и некоторые из худших.

Ours
Ground Truth
Ours
Ground Truth
23/40 = 57%
17/40 = 42%
16/40 = 40%
1/40 - 2%
1/40 = 2%
3/40 = 7%
4/40 = 1%
34/40 = 85%
30/40 = 75%

26/40 = 65%
3/40 = 7%
1/40 = 2%,нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост

В области генерации фотореалистичных изображений с помощью нейросетей сейчас наблюдается очень бурное развитие. В 2017 году мы наверняка услышим много новостей на эту тему.

Взято с geektimes.

Подробнее

prior network (PixeICNN) conditioning network (CNN) logits HR image

Algorithm pSNR SSIM MS-SSIM Consistency % Fooled Bicubic 28.92 0.84 0.76 0.006 - NN 28.18 0.73 0.66 0.024 - Regression 29.16 0.90 0.90 0.004 4.0 ±0.2 r = 1.0 29.09 0.84 0.86 0.008 11.0 = 0.1 r = 1.1 29.08 0.84 0.85 0.008 10.4 = 0.2 r = 1.2 29.08 0.84 0.86 0.008 10.2 = 0.1 Bicubic 28.94 0.70 0.70 0.002 - NN 28.15 0.49 0.45 0.040 - Regression 28.87 0.74 0.75 0.003 2.1 ±0.1 r = 1.0 28.92 0.58 0.60 0.016 17.7 = 0.4 r = 1.1 28.92 0.59 0.59 0.017 22.4 = 0.3 r = 1.2 28.93 0.59 0.58 0.018 27.9 = 0.3
Ours Ground Truth Ours Ground Truth 23/40 = 57% 17/40 = 42% 16/40 = 40% 1/40 - 2% 1/40 = 2% 3/40 = 7% 4/40 = 1% 34/40 = 85% 30/40 = 75% 26/40 = 65% 3/40 = 7% 1/40 = 2%
нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост

Еще на тему

нейросеть(27260)

длиннопост(43362)

Развернуть

Комментарии 3709.02.201718:55ссылка16.6

Производители камер для смартфонов грызут локти от ярости.

Манёне_какоятко 09.02.201718:58 ответить ссылка 4.1

Не грызут. Если коротко - эта херня всего лишь умеет подбирать из обучающей базы изображение, наиболее подходящее под заданные пиксели. Сама она ничего генерировать не умеет и если твоего фото не было в базе - то она не сделает "ремастер пикселей" похожим на тебя. А если было - то сделает с вероятностью, отличной от нулевой.

MAXInator 09.02.201719:40 ответить ссылка ↑ 1.2

1) Криворукий фотограф делает снимок на камеру
2) Снимок говно, но камера смотрит по базе Фликра/Котача/Фейсбука похожий снимок, сделанный прямыми руками...
3) Показывает найденный снимок фотографу...

PROFIT!!!

selma 09.02.201719:48 ответить ссылка ↑ 2.4

я думаю что эта проблема для встроенного шокера

LEXfes 09.02.201721:57 ответить ссылка ↑ 0.0

...камера смотрит по базе Фликра/Котача/Фейсбука похожий снимок, сделанный прямыми руками...
И подсовывает фотографу один из примеров, показанных в статье в категории неудачных. Шок, истерика, отказ от карьеры фотографа, профит для общества. :D

MAXInator 09.02.201722:57 ответить ссылка ↑ 0.1

Это таки охуенно.