Bildpyramide

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Visuelle Darstellung einer Bildpyramide mit 5 Ebenen.

Eine Bildpyramide ist eine Form mehrskaliger Signaldarstellung, entwickelt in Bereichen des Maschinellen Sehens (engl. „computer vision“), Bildverarbeitung und Signalverarbeitung, in denen auf ein Signal oder Bild mehrmalig Glättung und Downsampling angewendet wird. Die Pyramiden-Darstellung ist eine Vorstufe zur Scale-Space-Darstellung (Skalenraum-Darstellung) und Multiskalenanalyse.

Erstellung der Pyramide

[Bearbeiten | Quelltext bearbeiten]

Es gibt zwei Arten von Bildpyramiden: Tiefpass und Bandpass.

Eine Tiefpass-Pyramide entsteht durch Glätten des Bildes mit einem entsprechenden Glättungs-Filter und dem darauf folgenden Downsampling des geglätteten Bildes, meistens durch einen Faktor zwei entlang jeder Koordinatenachse. Auf das resultierende Bild wird dann dieselbe Prozedur angewendet und dieser Zyklus mehrere Male wiederholt. Jeder Zyklus dieses Prozesses erzeugt ein kleineres Bild mit höherer Glättung, aber geringerer Abtastdichte (daher geringerer Bildauflösung). Bildlich dargestellt, sieht die gesamte, mehrskalige Darstellung wie eine Pyramide aus, mit dem Originalbild als Basis, auf der die aus jeden Zyklus resultierenden, schmaler werdenden Bilder aufeinander gestapelt werden.

Eine Bandpass-Pyramide wird erzeugt, indem zwischen benachbarten Auflösungs-Ebenen der Pyramide die Abweichungen erfasst und eine Art der Bildinterpolation angewendet wird, um pixelweise die Differenzen zu errechnen.[1]

Faltungsmatrizen für die Pyramiden-Erstellung

[Bearbeiten | Quelltext bearbeiten]

Für die Erstellung von Pyramiden wird eine Vielzahl an Faltungsmatrizen vorgeschlagen.[2][3][4][5][6][7] Unter den Vorschlägen stechen Binomial-Faltungsmatrizen, die aus Binomialkoeffizienten entstehen, als besonders nützliche und theoretisch gut fundierte Klasse hervor.[3][8][9] Dabei wird in einem zweidimensionalen Bild der (normalisierte) Binomialfilter (1/4, 1/2, 1/4) typischerweise zweimal oder entlang jeder räumlichen Dimension angewendet und dann ein Downsampling des Bildes mit dem Faktor zwei vorgenommen. Diese Operation wird so oft wie gewünscht durchgeführt, was zu einer kompakten und effizienten multiskaligen Darstellung führt. Wenn für bestimmte Anforderungen benötigt, können Zwischen-Skalierungsebenen generiert werden, wobei der Downsampling-Schritt manchmal ausgelassen wird, was zu einer Oversampled- oder Hybridpyramide führt.[10] Mit der wachsenden Recheneffizienz von heute verfügbaren Prozessoren ist es in manchen Situationen auch möglich, bei der Erstellung der Pyramidenstufen weiter verbreitete Gauß-Filter als Faltungsmatrix für die Glättung zu verwenden.

Gauß-Pyramiden

[Bearbeiten | Quelltext bearbeiten]

In einer Gauß-Pyramide werden aufeinander folgende Bilder durch den Mittelwert der Gauß-Verteilung (Gaußscher Weichzeichner) heruntergewichtet und dann herunterskaliert. Jeder Pixel enthält den lokalen Mittelwert der Pixelnachbarschaft der darunter liegenden Pyramidenebene. Diese Technik wird vor allem in der Textursynthese angewandt.

Laplace-Pyramiden

[Bearbeiten | Quelltext bearbeiten]

Eine Laplace-Pyramide ist der Gauß-Pyramide sehr ähnlich, aber speichert das Differenzbild der geglätteten Versionen zwischen jeder Ebene. Nur die kleinste Ebene ist kein Differenzbild, damit das hochaufgelöste Bild aus den Differenzbildern höherer Ebenen gebildet werden kann. Dieses Verfahren kann bei der Bildkompression angewendet werden.[11]

Steuerbare Pyramide

[Bearbeiten | Quelltext bearbeiten]

Eine steuerbare Pyramide ist eine Umsetzung einer multiskaligen, in mehrere Richtungen gehenden Bandpass-Filterbank, die für Anwendungen wie Bildkompression, Textursynthese und Objekterkennung eingesetzt wird. Man kann sie sich als Richtungs-selektive Version der Laplace-Pyramide vorstellen, in der, statt eines einzelnen Laplace- oder Gauß-Filters, eine Filterbank von steuerbaren Filtern in jeder Ebene der Pyramide verwendet wird.[12][13][14]

Anwendungsbereiche von Bildpyramiden

[Bearbeiten | Quelltext bearbeiten]

Alternative Darstellungen

[Bearbeiten | Quelltext bearbeiten]

In der Frühzeit des Maschinellen Sehens („computer vision“) waren Bildpyramiden die vorherrschende Art, multiskalige Darstellung aus realen Bildern zu errechnen. Zu den neueren Techniken zählt die Scale-Space-Darstellung. Deren Popularität unter Forschern basiert auf deren theoretischen Grundlage, der Möglichkeit, die Downsampling-Phase von der multiskaligen Darstellung zu entkoppeln, den besseren Werkzeugen zur theoretischen Analyse sowie der Möglichkeit, eine Darstellung auf jeder gewünschten Skalierung zu errechnen und damit die algorithmischen Probleme der Bilddarstellung in verschiedenen Auflösungen zu umgehen. Trotzdem werden Bildpyramiden noch immer häufig benutzt, um effizient Annäherungen an die Scale-Space-Darstellung zu errechnen.[10][15][16]

Detailmanipulation

[Bearbeiten | Quelltext bearbeiten]

Laplace-Bildpyramiden, basierend auf bilateraler Filterung, bilden ein gutes Gerüst für Bilddetailverbesserung und -manipulation.[17] Die Differenzbilder zwischen jeder Ebene werden modifiziert, um Details in verschiedenen Skalierungen zu verstärken oder zu reduzieren.

Manche Bildkompressionsverfahren verwenden den Adam7-Algorithmus oder andere Interlacing-Techniken. Diese können als eine Art von Bildpyramide gesehen werden. Da diese Formate „großskalige“ Bildteile zuerst und feinere Details weiter hinten in der Datei speichern, kann ein Betrachter schnell ein kleineres Vorschaubild herunterladen. Eine Datei kann also mehrere Betrachtungsauflösungen unterstützen, anstatt für jede Auflösung ein eigenes Bild zu speichern oder zu erstellen.

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. E.H. Andelson and C.H. Anderson and J.R. Bergen and P.J. Burt and J.M. Ogden. "Pyramid methods in image processing". 1984.
  2. P. J. Burt: Fast filter transform for image processing. In: Computer Graphics and Image Processing. 16. Jahrgang, Mai 1981, S. 20–51, doi:10.1016/0146-664X(81)90092-7.
  3. a b James L. Crowley: A representation for visual information. In: tech. report CMU-RI-TR-82-07. Carnegie-Mellon University, Robotics Institute, November 1981 (cmu.edu).
  4. Burt, Peter and Adelson, Ted, "The Laplacian Pyramid as a Compact Image Code", IEEE Trans. Communications, 9:4, 532–540, 1983.
  5. J. L. Crowley, A. C. Parker: A representation for shape based on peaks and ridges in the difference of low-pass transform. In: IEEE Transactions on Pattern Analysis and Machine Intelligence. 6. Jahrgang, Nr. 2, März 1984, S. 156–170, doi:10.1109/TPAMI.1984.4767500, PMID 21869180.
  6. Crowley, J. L. and Sanderson, A. C. "Multiple resolution representation and probabilistic matching of 2-D gray-scale shape", IEEE Transactions on Pattern Analysis and Machine Intelligence, 9(1), pp 113-121, 1987.
  7. P. Meer, E. S. Baugher and A. Rosenfeld "Frequency domain analysis and synthesis of image generating kernels", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 9, pages 512-522, 1987.
  8. Lindeberg, Tony, "Scale-space for discrete signals," PAMI(12), No. 3, March 1990, pp. 234-254.
  9. Lindeberg, Tony. Scale-Space Theory in Computer Vision, Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6 (see specifically Chapter 2 for an overview of Gaussian and Laplacian image pyramids and Chapter 3 for theory about generalized binomial kernels and discrete Gaussian kernels)
  10. a b Lindeberg, T. and Bretzner, L. Real-time scale selection in hybrid multi-scale representations, Proc. Scale-Space'03, Isle of Skye, Scotland, Springer Lecture Notes in Computer Science, volume 2695, pages 148-163, 2003.
  11. Peter J. Burt and Edward H. Adelson. "The Laplacian Pyramid as a Compact Image Code". IEEE Transactions on Communications. doi:10.1109/TCOM.1983.1095851. 1983.
  12. Eero Simoncelli: The Steerable Pyramid. cns.nyu.edu;
  13. Roberto Manduchi, Pietro Perona, Doug Shy: Efficient Deformable Filter Banks. (PDF) California Institute of Technology/University of Padua, 1997, archiviert vom Original am 12. November 2021; abgerufen am 21. August 2015.  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.vision.caltech.edu
    Also in Efficient Deformable Filter Banks. In: Transactions on Signal Processing. 46. Jahrgang, Nr. 4. IEEE, 1998, S. 1168–1173.
  14. Stanley A. Klein ; Thom Carney ; Lauren Barghout-Stein and Christopher W. Tyler "Seven models of masking", Proc. SPIE 3016, Human Vision and Electronic Imaging II, 13 (June 3, 1997); doi:10.1117/12.274510
  15. Crowley, J, Riff O. Fast computation of scale normalised Gaussian receptive fields, Proc. Scale-Space'03, Isle of Skye, Scotland, Springer Lecture Notes in Computer Science, volume 2695, 2003.
  16. D. G. Lowe: Distinctive image features from scale-invariant keypoints. In: International Journal of Computer Vision. 60. Jahrgang, Nr. 2, 2004, S. 91–110, doi:10.1023/B:VISI.0000029664.99615.94 (psu.edu).
  17. Photo Detail Manipulation via Image Pyramids