Super risoluzione dell'immagine | Apprendimento profondo per la super risoluzione delle immagini

Contenuti

introduzione

84218sr2-6091428

(SR) è il processo di recupero alto risoluzione (ORA) immagini di Bassa risoluzione (LR) immagini. È un'importante classe di tecniche di elaborazione delle immagini nella visione artificiale e nell'elaborazione delle immagini e gode di una vasta gamma di applicazioni del mondo reale., come immagini mediche, immagini satellitari, vigilanza e sicurezza, immagini astronomiche, tra l'altro.

Con el avance en las técnicas de apprendimento profondo en los últimos años, I modelli RH basati sul deep learning sono stati attivamente esplorati e, spesso, raggiungere prestazioni all'avanguardia in vari benchmark SR. Una varietà di metodi di deep learning sono stati applicati per risolvere i compiti RH, che vanno dal metodo basato su reti neurali convoluzionali (CNN) ai recenti promettenti approcci RH basati su reti generative avverse.

Problema

Il problema della cancellazione delle immagini (SR), in particolare la super risoluzione di una singola immagine (SISR), ha guadagnato molta attenzione nella comunità di ricerca. SISR mira a ricostruire un'immagine ad alta risoluzione ISR immagine singola a bassa risoluzione ILR. In genere, il rapporto tra meLR e l'immagine originale ad alta risoluzione IORA può variare a seconda della situazione. Molti studi presumono che ioLR è una versione bicubica ridotta di IORA, ma altri fattori degradanti come la sfocatura, distruzione o rumore possono essere considerati anche per applicazioni pratiche.

In questo articolo, ci concentreremo su apprendimento supervisionato metodi per compiti di super risoluzione. Quando si utilizzano immagini HR come target e LR come input, possiamo trattare questo problema come un problema di apprendimento supervisionato.

95485supervisionato20table-4198838
Tabella completa degli argomenti in Super Supervised Image Super Resolution

Metodi di campionamento superiori

Prima di capire il resto della teoria dietro la super risoluzione, dobbiamo capire campionamento (Aumenta la risoluzione spaziale delle immagini o semplicemente aumenta il numero di righe / colonne di pixel o entrambi nell'immagine) e i suoi vari metodi.

1. Metodi basati sull'interpolazioneInterpolazione delle immagini (ridimensionamento dell'immagine) si riferisce al ridimensionamento delle immagini digitali ed è ampiamente utilizzato dalle applicazioni relative alle immagini. I metodi tradizionali includono l'interpolazione del vicino più prossimo, interpolazione lineare, binaurale, bicubica, eccetera.

95188interpolazione20vicino20vicini-4410416

Interpolazione del vicino più prossimo con la scala di 2

  • Interpolazione del vicino più vicino – L'interpolazione del vicino più vicino è un algoritmo semplice e intuitivo. Seleziona il valore di pixel più vicino per ogni posizione da interpolare indipendentemente da qualsiasi altro pixel.
  • Interpolazione bilineare – Interpolazione bilineare (DIVENTARE) esegue prima l'interpolazione lineare su un asse dell'immagine e poi sull'altro asse. Poiché risulta in un'interpolazione quadratica con un campo recettivo di 2 × 2, mostra prestazioni molto migliori rispetto all'interpolazione del vicino più prossimo, mantenendo una velocità relativamente elevata.
  • Interpolazione bicubica – Allo stesso modo, interpolazione bicubica (BCI) esegue l'interpolazione cubica su ciascuno dei due assi. Rispetto a BLI, la BCI tiene conto 4 × 4 pixel e produce risultati più uniformi con meno artefatti ma velocità molto più bassa. Fare riferimento a questa per una discussione dettagliata.

carenze – I metodi basati sull'interpolazione spesso introducono alcuni effetti collaterali come la complessità computazionale, amplificazione del rumore, risultati sfocati, eccetera.

2. Campionamento bottom-up basato sull'apprendimento Per superare le carenze dei metodi basati sull'interpolazione e imparare il sovracampionamento end-to-end, il livello di convoluzione trasposto e il livello sub-pixel sono inseriti nel campo SR.

55446sovracampionamento202-4369552

Strato di convoluzione trasposto: i quadrati blu indicano l'ingresso,
e le caselle verdi indicano il kernel e l'output della convoluzione.

  • Convoluzione trasposta: strato, noto anche come strato di deconvoluzione, prova a eseguire una trasformazione opposta a una normale convoluzione, vale a dire, prevedere il possibile input in base alle mappe delle caratteristiche della dimensione dell'output della convoluzione. In particolare, aumenta la risoluzione dell'immagine espandendo l'immagine inserendo zeri ed eseguendo una convoluzione.
15959sovracampionamento203-5778744

Livello subpixel: le caselle blu indicano l'input e le caselle con altri colori indicano diverse operazioni di convoluzione e diverse mappe di funzionalità di output.

  • Livello subpixel: Il livello subpixel, un altro livello di sovracampionamento che può essere appreso end-to-end, esegue l'upsampling generando una pluralità di canali per convoluzione e quindi rimodellando i programmi. All'interno di questo livello, Viene prima applicata una convoluzione per produrre output con
    S2 canali orari, dove s è il fattore di scala. Supponendo che la dimensione di input sia h × w × c, la dimensione dell'output sarà h × w × s2C. Successivamente, l'operazione di risagomatura viene eseguita per produrre output con dimensione sh × sw × c

Frame di sovrasoluzione

Poiché la super-risoluzione delle immagini è un problema mal posto, come sovracampionare (vale a dire, generare un'uscita della frequenza cardiaca dall'ingresso LR) è il problema chiave. Ci sono principalmente quattro fotogrammi del modello basati sulle operazioni di campionamento superiori impiegate e le loro posizioni nel modello (vedi la tabella sopra).

1. Risoluzione super pre-campionamento –

79337pre20upsample-8052999

Non eseguiamo la mappatura diretta dalle immagini LR alle immagini HR in quanto è considerato un compito difficile. L'utilizzo di algoritmi di sovracampionamento tradizionali per ottenere immagini a risoluzione più elevata e quindi perfezionarle utilizzando reti neurali profonde è una soluzione semplice. Ad esempio, Le immagini LR vengono campionate in immagini HR spesse con la dimensione desiderata mediante interpolazione bicubica. Dopo, le CNN profonde vengono applicate a queste immagini per ricostruire immagini di alta qualità.

2. Super risoluzione post-campionamento:

13629post-3399813

Per migliorare l'efficienza computazionale e sfruttare appieno la tecnologia di deep learning per aumentare automaticamente la risoluzione, los investigadores proponen realizar la mayoría de los cálculos en un espacio de baja dimensione reemplazando el muestreo predefinido con capas de aprendizaje de extremo a extremo integradas al final de los modelos. Nel lavoro pionieristico di questo quadro, vale a dire, SR post-campionamento, Le immagini in ingresso LR si inseriscono in profondità nella CNN senza aumentare la risoluzione, e gli strati di campionamento superiori che possono essere appresi end-to-end sono applicati alla fine della rete.

Strategie di apprendimento

Nel campo della super risoluzione, le funzioni di perdita sono usate per
misurare l'errore di ricostruzione e guidare l'ottimizzazione del modello. Nei primi giorni, i ricercatori di solito usano Perdita L2 per pixel (errore quadratico medio), ma poi scopre di non poter misurare il
qualità di ricostruzione molto accurata. Perciò, una varietà
funzioni di perdita (P. non., perdita di contenuto, gli avversariS) sono adottati per misurare meglio la ricostruzione
errore e produrre risultati di qualità superiore e più realistici.

  • Perdita di Pixelwise L1 Differenza assoluta tra i pixel dell'immagine HR della verità al suolo e quella generata.
  • Perdita di Pixelwise L2 – Differenza quadratica media della radice tra i pixel dell'immagine HR della verità al suolo e quella generata.
  • Perdita di contenuto – la perdita di contenuto è riportata come la distanza euclidea tra i rendering di alto livello dell'immagine di output e l'immagine di destinazione. Le funzioni di alto livello si ottengono passando attraverso CNN precedentemente addestrate come VGG e ResNet.
  • Perdita dell'avversario Basato su GAN, dove trattiamo il modello SR come un generatore e definiamo un discriminatore aggiuntivo per giudicare se l'immagine in ingresso è generata o meno.
  • PSNR – Il rapporto segnale-rumore di picco (PSNR) è una metrica oggettiva comunemente usata per misurare la qualità di ricostruzione di una trasformazione con perdita. PSNR è inversamente proporzionale al logaritmo dell'errore quadratico medio (MSE) tra l'immagine reale del terreno e l'immagine generata.

In MSE, sono un senza rumore Metro×Nord immagine monocromatica (verità fondamentale) e K è l'immagine generata (approccio rumoroso). UN PSNR, MAXio rappresenta il valore di pixel massimo possibile dell'immagine.

Layout di rete

39970rete20design-6696597

Vari progetti di rete in architettura a super risoluzione

Basta con le basi! Analizziamo alcune delle All'avanguardia metodi di superrisoluzione –

Metodi di superrisoluzione

Rete avversaria generativa a super risoluzione (SRGAN)Usa l'idea di GAN per compiti di super risoluzione, vale a dire, il generatore proverà a produrre un'immagine dal rumore che sarà giudicata dal discriminatore. Ambos seguirán entrenando para que el generador pueda generar imágenes que puedan coincidir con los datos de addestramento reales.

76376gan-1587937

Architettura della rete avversaria generativa

Esistono diverse forme di super risoluzione, ma c'è un problema: Come possiamo recuperare dettagli di trama più fini da un'immagine a bassa risoluzione in modo che l'immagine non sia distorta??

I risultati hanno un alto PSNR; i media hanno risultati di alta qualità, ma spesso mancano di dettagli ad alta frequenza.

Per raggiungere questo obiettivo in SRGAN, usamos la función de pérdida perceptiva que comprende la pérdida de contenido y de adversario.

Controlla il documenti originali per informazioni dettagliate.

Passi –

1. Elaboriamo le risorse umane (immagini ad alta risoluzione) per immagini LR a campionamento ridotto. Ora abbiamo immagini HR e LR per il set di dati di allenamento.

2. Passiamo le immagini LR attraverso un generatore che campiona e fornisce immagini SR.

3. Usiamo il discriminatore per distinguere l'immagine HR e propaghiamo la perdita di GAN per addestrare il discriminatore e il generatore.

84463srgan-5284502

Architettura di rete SRGAN

Caratteristiche principali del metodo:

  • Tipo di telaio post-campionamento
  • Livello sub-pixel per un campionamento più elevato
  • Contiene blocchi residui
  • Usa la perdita di percezione

Codice originale SRGAN

EDSR, MDSR – Mostra tecniche di apprendimento residuo
prestazioni di super-risoluzione migliorate attraverso reti neurali convoluzionali profonde (DCNN). Architettura a scala singola Rete ad alta risoluzione avanzata e profonda (EDSR) gestisce una specifica scala di super-risoluzione e Sistema a super risoluzione profonda multiscala (MDSR) ricostruisce più scale di immagini ad alta risoluzione in un unico modello. Significativo miglioramento delle prestazioni del modello.
è dovuto all'ottimizzazione rimuovendo i moduli non necessari in
reti residuali convenzionali.

Controlla il documenti originali per informazioni dettagliate.

Alcune delle caratteristiche chiave dei metodi:

  • Blocchi residui – SRGAN ha applicato con successo l'architettura ResNet al problema della super-risoluzione con SRResNet, prestazioni ulteriormente migliorate utilizzando un framework ResNet migliore. Nell'architettura proposta –
41351edsr20resnet-1433787

Confronto dei blocchi residui

  • Quitaron las capas de standardizzazione por lotes de la red como en SRResNets. Poiché i livelli di normalizzazione batch normalizzano le caratteristiche, eliminare la flessibilità della gamma di rete standardizzando le caratteristiche, è meglio eliminarli.
63540edsr-mdsr-3501217
L'architettura di EDSR, MDSR
  • Un MDSR, propusieron una arquitectura multiescala que comparte la mayoría de los parametri en diferentes escalas. Il modello multiscala proposto utilizza un numero significativamente inferiore di parametri rispetto a diversi modelli a scala singola, ma mostra prestazioni comparabili.

Codice originale dei metodi

Quindi ora siamo arrivati ​​alla fine del blog!! Per maggiori informazioni sulla super risoluzione, controlla questi lavori di indagine.

Per favore condividi i tuoi commenti sul blog nella sezione commenti. Buon apprendimento 🙂

Il supporto mostrato in questo articolo non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.