Allgemeine Daten

Kurzbeschreibung

In der Arbeit "Vorsortierung von Fotos" soll eine Software entwickelt werden, welche aus größeren Datenmengen Fotos automatisch in zwei Kategorien einteilt. Die erste Kategorie soll die Fotos enthalten, welche sich dafür eignen manuell und einzeln betrachtet und für eventuelle spätere Erinnerungen oder Vergleichbares behalten zu werden. Die Anderen sind solche, welche durch unzureichenden Fokus oder schlechter Belichtung bei einer näheren Sortierung nicht notwendig sind anzusehen. Damit soll es möglich werden die manchmal langatmige Zeit beim sortieren von Fotos, zum Beispiel am Ende des Jahres, so zuverlässig zu verkürzen, dass man keine wichtigen Erinnerungen fälschlicherweise aussortiert.


Inhaltsverzeichnis





Theorie

Fotos sind das Produkt der Fotografie und die hat sich in den letzten Jahunderten rasant entwickelt. Das Wort Fotografie oder Photographie ist eine Zusammensetzung aus zwei Wörtern. Laut Duden ist das Wort "vermischt aus englisch photogenic = durch Lichteinwirkung entstanden und französisch héliographie = Lichtpause". Es ist ein "Verfahren zur Herstellung dauerhafter, durch elektromagnetische Strahlen oder Licht erzeugter Bilder".
Die Theorie soll einsteigen mit der Geschichte der Fotografie und anschließend über die Technik der digitalen Fotografie zu mathematischen und weiteren Möglichkeiten der Bildanalyse gelangen.

Geschichte der Fotografie

Analoge Fotografie 1

Lange vor der analogen Fotografie gabe es schon in den Höhlen noch für uns heute wenig realistische Malerein welche Bilder aus dem Leben von Menschen festhielten. Die ersten Schritte in Richtung der Fotografie wie wir wie sie heute verstehen waren noch reine Projektionen von Ausschnitten der näheren Umgebung auf einen kleine Fläche, die nicht festgehalten wurden und somit nicht beständig. Bekannt war es seit der Antike zur Zeit des Aristoteles im 4. Jahrhundert vor Christus. Im Mittelalter wurde dieses Prinzip mit dem Namen Camera obscura für naturgetreue Bilder benutzt und im laufe des 17. Jahrhundert mit Linsen verbessert und auf eine transportierbare Größe geschrumpft.
Im 18. Jahrhundert wurden diese Projektionen das erste Mal für kurze Zeit auf mit Silberchlorid beschichtetem Papier festgehalten.
Ab dem nächsten Jahundert nahm die Forschung richtig Fahrt auf und die Belichtungsdauer von noch über acht Stunden mit immer neuen Verfahren auf wenige Sekunden reduziert. Die Fotos wurden immer länger haltbar und Ende des Jahrhunderts in ersten Experimenten auch schon farbig.
Um die Wende zum 20. Jahrhundert wurden Fotoplatten von Kodak durch Rollfilme ersetzt und auf dem Markt gebracht. Damit began die schwarz-weiß Amateurfotografie.
Nach den Weltkriegen wurde die analoge Farbfotografie immer erschwinglicher für die breite Bevökerung und wurde in den 1980er Jahren zum Trend.
Zu dieser Zeit war die digitale Fotografie zwar noch in ihren Kinderschuhen, aber schon bekannt und wurde stetig weiterentwickelt.

Digitale Fotorafie 2

Ab den 1960er Jahren motivierte vor allem die Raumfahrt und Spionage zur die übertragung von Bildern über weite Distanzen. Um das Jahr 1965 entstand der Bergiff Pixel für Bildpunkte. Ein über Jahrzehnte stattfindendes Rennen um die Markt- und Patentvorherschaft zwischen mehreren Unternehmen wie Kodak, Sony und Canon führte in den 90er Jahren zu den ersten CCD Kameras mit denen Konsumenten auf ihren Computern ansehen und bearbeiten konnten. Auch wenn es elektronisch war, waren die Bilder aber noch nicht digital, da sie in ausschließlich in analoger Form abgespeichert wurden. Anfang der 00er Jahre kamen die ersten wirklich digitalen Megapixel-Kameras auf den Markt und werden seitdem stetig weiterentwickelt und sind inzwischen in jedem Smartphone verbaut und Teil der alltäglichen Kommunikation.

Hinweis: Dieses Wiki enthält nicht alle Themen, welche in der Bachelorarbeit behandelt werden. Andere wurden dafür im Wiki tiefer behandelt. Zusätzlich zu der Arbeit wird auch noch einiges in den Jupyter Notebooks im Repository erklärt. Sollten Fragen aufkommen gerne unter l.teply@tum.de nachfragen.


Digitale Bilder

In diesem Abschnitt soll über die entstandenden Ansätz und Recherchen zur schlussendlichen Arbeit informiert werden.
Vieles wird nicht abschließend dargelegt und nur für die Arbeit relevantes angeschnitten um den Fokus nicht zu sehr zu verlieren.

Entstehung von digitalen Bildern 3

Wie bereits im Abschnitt über die Geschichte zusammengefasst, waren die uns heute bekannten Fotos auf dem Computer oder dem Smartphone nicht von Anfang an so einfach möglich. Für die digitale Auswertung werden in dieser Arbeit jedoch heute übliche digitale Bilder verwendet. Um ungefähr zu verstehen wie diese enstehen, wird der Prozess kurz skizziert.

Um ansatzweise zu verstehen wie Pixelwerte entstehen und was diese Bedeuten, genügt es sich den Entstehungsprozess anzusehen ohne dabei auf die genaue elektronische Umsetzung tiefer einzugehen.


Das Licht fällt durch das Objektiv, in welchem die Lichtstrahlen gebündelt, gestreut und schlussendlich auf den Sensor fokusiert werden. Vor den vielen kleinen Fotodioden werden die Strahlen jeweils von einer kleinen Microlinse fokusiert und von einem Filter jeweil zwei der Fraben rot, grün oder blau herausgefiltert. In dem Halbleiter der Fotodetektoren werden die einfallenden Strahlen durch den Fotoelektrischen Effekt detektiert und in der anschließenden Verarbeitung gezählt. Die noch einfarbigen Pixel werden durch Demosaicking4 , eine interpolation mit den umliegenden Pixeln, in das schlussendliche Bild mit zum Beispiel Rot-, Grün- und Blauwerten pro Pixel umgewandelt und (komprimiert) abgespeichert.
Fig 1.: Vereinfachte Imaging Pipeline einer Digitalkamera.

Variationsmöglichkeiten bei der Aufnahme von Fotos

Viele Fotos werden inzwischen mit kleinen Fotosensoren, welche in Smartphones integriert sind, geschossen. Dort sind die von System- oder Spiegelreflexkameras bekannten Einstellmöglichkeiten von Blende, ISO, Brennweite und Verschlusszeit nur begrenzt einstellbar. Es wird versucht dies entweder durch mehrere Kameramodule oder auf Softwarebasis auszugleichen. Um das grundsätzliche Prinzip zu verstehen wird die Funktionsweise weiterhin an einer Kamera mit Objektiv erläutert.
Das Wissen über die Einflussfaktoren durch die Variation dieser Aufnahmeparameter soll ein besseres Verständis der praktischen Auswirkung der mathematischen Algorithmen ermöglichen. Ebenfalls könnten sich zu Belichtungsstärke und des Fokus weitere Beurteilungsvektoren ergeben.


BlendeDie Blende ist ein meist verstellbares Loch im Objektivs. Dadurch lässt sich die Menge des Lichteinfalls steuern. Sie lässt sich mit der Pupille im Auge vergleichen.
ISO

Der ISO-Wert gibt die Lichtempfindlichkleit bei der Auswertung der einfallenden Lichtstrahlen an. In der analogen Fotografie hatte ein ganzer Film die gleiche Lichtempfindlichkeit. In der digitalen Fotografie kann man die Empfindlichkeit der Sensoren und deren Auswertung einstellen. Vereinfacht betrachtet wir die Anzahl der während der Aufnahme einfallenden Lichtstrahlen unterschiedlich gewichtet.

Brennweite

Der bei Kameras verwendete Begriff Brennweite lässt sich auch als Öffnungswinkel des Sichtbereichs beschreiben . Und für die auf dem Foto wirkende Brennweite auch noch die Größe des Bildsensors, da dieser oft nicht den ganzen vom Objektiv zu Verfügung gestellten Bildbereich nutzt und etwas ausschneidet. Die Veränderung der Brennweite führt auf dem Foto zu dem Effekt von unterschiedlichen Öffnungswinkeln, welche den Bildbereich vergrößern oder verkleinern und das Motiv entgegengesetzt verkleinern oder vergrößern.

BildsensorDer Bildsensor ist eine aus vielen Halbleitern bestehendes lichtempfindliches Modul hinter der Objektiv oder der Linse der Kamera und registierte die einfallenden Lichtstrahlen. Anschließend kann das ausgelesen und digitalisiert werden.
VerschlusszeitDie Veschlusszeit gibt die Dauer der Belichtung des Films oder Sensors an. Je länger der Lichteinfall ist, desto mehr Lichtstrahlen können erfasst werden. Dies hat ein helleres Bild zur Folge.
Fokus

Mit dem Fokus stellt man den optimalen Abstand der Linse vom Fotosensor im Verhältnis zum Abstand des Motives zur Linse ein. Dieser optimale Abstand erzeugt ein scharfes Motiv für den Bereich im Bild, der die dafür entsprechende Entfernung von der Linse hat.

Schärfentiefe

Die Schärfentiefe bezeichnet den Bereich der Tiefe in einem Foto, der für unser Auge scharf erscheint. Bei einer geringen Schärfentiefe ist nur ein kleiner Bereich in der Bildebene scharf. Zum Beispiel das Gesicht bei einem Portrait. Bei einem Landschaftsfoto hingegegen ist zumeist die Schärfentiefe und fast alles erscheint für unser Auge scharf. Die Schärfentiefe ist bedingt durch die Brennweite, wo der Fokus im Bild liegt und der Lichtempfindichkeit des Objektivs. (nicht ISO, dies ist die Empfindlichkeit am Sensor)

Mehr InformationObjektiv, Schärfentiefe

Farbräume bei digitalen Bildern

Farbräume sind verschiedene Herangehensweisen die Farbwerte der Pixel in den Bildern darzustellen. Sie können hierbei für Veschiedenes wie Farbdrucker, Kompression, Darstellung für das Menschliche Auge, medizinische Bilder optimiert sein.

RGB

Im RGB Farbraum werden jedem Pixel Werte für rot, grün und blau zugeordnet. Es sind jeweils 256 Bit, was einen Wertebereich von 0 (schwarz) bis 255 (weiß) abdeckt. Diese Werte werden für die gemeinsame Farbe zusammengerechnet. Die meisten gängigen Displays arbeiten mit diesem Farbraum. Beispiele gibt es hier zu sehen.

YCrCv5

Bei diesem wird, an die Sensibiltät des menschlichen Auges angelehnt, die Helligkeit der Pixel stärker als die Farben gewichtet. Daher wird die Luminanz in einer eigenständige Komponente Y gespeichert. Die Cb ist die Differenz zwischen der blauen Komponente und einem Referenzwert, und Cr ist die Differenz zwischen der roten Komponente und einem Referenzwert.

HSV

Alternativ dazu gibt es noch den HSV-Farbraum. Dieser basiert auf den englischen Begriffen Hue (Farbe), Saturation (Sättigung) und Value (Helligkeitswert). Hier sind die Farben in einem Zylinder oder Kegel dargestellt. Die Höhe ist die Helligkeit, der Winkel die Farbe und der Radius die Sättigung. Eine Motivation für diese Darstellung ist die Annäherung an die Wahrnehmung von Farben durch das menschliche Auge.
Auch bei einer isolierten Betrachtung der Helligkeitswerte ist diese Darstellung von Vorteil, da nur ein Wert pro Pixel betrachtet werden muss.

Hier gibt es eine Präsentation der Jacobs-Universität, in der die genannten und noch weitere Farbräume erklärt werden. Da hier nur RGB- und HSV-Farbräume benötigt werden, wird hier nicht weiter darauf eingegangen.

Dateiformate von digitalen Bildern

Dateiformate (von Bildern) spielen meistens erst dann eine Rolle, wenn sie nicht geöffnet werden können, weil sie auf dem Endgerät von keinem Programm verstanden werden. Auch können sie bei der effizienten Nutzung vom Speicher wichtig werden, da sie verschiedene Daten unterschiedlich besser, schlechter oder gar nicht komprimieren können.

JPEG6

JPEG ist ein seit über 25 Jahre verwendeter Standart für das komprimieren von Bildern. JFIF ist das eigentlich dahinter steckende Dateiformat. Zuerst werden die Pixel in den Farbraum YCbCr transformiert. Die Komprimierung selbst wird auf 8x8 Pixelblöcke angewandt. Dies geschieht durch die Diskrete Kosinus-Transformation der Hellgkeit der Pixelwerte. Die Komprimierung ist, wenn bei den meisten Bildern für das menschliche Auge nicht sichtbar, verlustbehaftet. Hier und hier wird das Grundprinzip sehr anschaulich dagestellt. Für die diese Arbeit ergeben sich hier vorerst jedoch keine weiteren Erkenntnisse.

PNG

Mit PNG ist eine verlustfreie Kompression von Bildern möglich. Zusätzlich zu den RGB Farbwerten ist optional auch noch ein Alpha-Channel für jedes Pixel definierbar. Dieser gibt die Transparenz an, wodurch zum Beispiel freigestellte Bilder ohne Hintergrund dargestellt werden können.

Insgesamt ist es sinnvoll über die Dateiformate und Kompressionsverfahren von Bildern informiert zu sein, ein Ansatz für die gernelle Erkennung von unscharfen und unzureichend belichteten Bildern scheint hier nicht erkennbar zu sein und wird deshalb vorerst nicht weiter vertieft.

Medataten von digitalen Bildern

Die Kamera, das Endgerät oder das Programm mit dem ein Foto erstellt wird fügt zusätzlich zum Bild noch Informationen zum Beispiel über die Kamera, das Programm, den Autor, die Uhrzeit, die Koordinaten, etc. hinzu. Diese Metadaten sind, sofern sie in den gängigen Formaten abgespeichert werden, einfach auszulesen.
Zum Beispiel hat ein Bilder der Kamera mit welcher Testfotos für dieses Projekt geschossen wurden folgende Metadaten:

Fig. 2: Choosen extracts from Metadata of a JPEG Image

Unter Umständen wird es nützlich diese Informationen später heranzuziehen um genauer zu werden.

Von Bildern in anderen Formaten lassen sich die Metadaten unter Umständen nicht so einfach auslesen, was aber an den Metadaten grundsätzlich nichts ändert und deshalb hier nicht weiter betrachtet wird.

Ausgewählte Parameter sind hier genauer erklärt.


Analyse von digitalen Bildern

Was ist ein scharfes Bild?

Bevor eine Bewertung stattfinden kann, ob ein Bild eher scharf oder unscharf ist, bedarf es einer Definition von Schärfe. Wie schon beim HSV-Farbraum erwähnt unterscheidet sich die menschliche Wahrnehmung eines Bildes von der pyhsikalischen Darstellung. In der visuellen Wahrnehmung des Menschen werden bestimmte Dinge stärker und andere schwächer wahrgenommen. Diese Unterschiede sollen hier erklärt werden.

Physikalische/Technische Schärfe

Physikalisch bzw. technisch betrachtet ist ein Bild nur in einer Bildebene scharf. Damit sind nur diejenigen Objekten scharf welche in einer bestimmten Entfernung zur Kamera sind. Dieser Abstand wird durch den Focus der Linse bzw. des Objektivs bestimmt und hat den Brennpunkt genau auf dem Fotosensor. Der Brennpunkt für sich näher oder weiter von der Kamera entfernten Objekten befindet sich nicht mehr genau auf der höhe des Sensors und sind somit unscharf.
Wird ein Bild auf eine Kante reduziert äußert sich das in der Härte des Übergangs von der einen zur anderen Farbe oder von Hell zu Dunkel.

Fig. 3: Hier sind fünf Säulen mit verschieden starken übergängen an den Kanten.
Von links nach rechts nimmt die Schärfe erkennbar ab.

Schärfeeindruck9

Der Schärfeeindruck beschreibt die Schärfewahrnehmung des menschlichen Sehsinns. In Fig. 3 ist zu sehen, dass auch die zweite Säule von links relativ scharf erscheint, obwohl sich der Übergang über mehr als zwei Pixel erstreckt.
In komplexeren Bildern sind viele Kanten nicht so eindeutig wie die linkeste und das Bild wird dennoch als scharf wargenommen. Dies bedeutet, dass das Schärfeempfinden des menschlichen Auge mehr verzeiht. Es orientiert sich auch an der technischen Schärfe, jedoch gibt es noch weitere Faktoren die einem guten Schärfeeindruck beeinflussen.

Kontrast

Der Bildkontrast, Unterschied zwischen hellen und dunklen Bildbereichen, hat eine starke Auswirkung auf den Schärfeeindruck. Bilder mit erhöhtem Kontrast, vor allem an den Kanten, wirken schärfer. Viele Programme, welche den Schärfeeindruck von Bildern erhöhen nutzen mit z.B: Unscharf Maskieren diese Eigenschaft.

Fig. 4: Links ist das Originalbild, in der Mitte wurde der Kontrast erhöht und rechts wurde ein Unscharf Maskieren Filter angewandt.

Auflösung

Ein inzwischen nicht mehr so häufig auftretendes Problem ist eine zu geringe Auflösung bei der Wiedergabe oder Aufnahme der Bilder. Die Auflösung beschreibt die Anzahl von Pixeln z.B. in einem Bild oder auf einem Display. Bei einem gering auflösendem Bildschirm ist das Bild an sich nicht automatisch unscharf, sondern kann nur nicht optimal dargestellt werden. Hat das Bild eine geringe Auflösung können Details nicht mehr genau dargestellt werden, da Bereiche in wahrnehmbarer Größe von einem Pixel dargestellt werden und somit nur eine Farbe zur Verfügung steht. Dieser Detailverlust wird als Unschärfe wahrgenommen. In Fig. 5 ist das rechte Bild im Vergleich zu den anderen Unscharf wirkt. In der Ansicht des Artikels wurden sie alle in die gleiche Darstellungsgröße (Skaliert zu 533px × 400px) gezwungen. Öffnet man die Bilder jedoch z.B. in einem neuem Browsertab (linker Mausklick) erkennt man die unterschiedlichen Größen.
Eine der Darstellungsgröße entsprechende Auflösung des Bildes ist kein Garant für ein scharf Bild, sondern eine Bedingung.

Fig. 5. Links ist das Originalbild (Auflösung 3648*2736 pixel). Das Bild in der Mitte (Auflösung 912*684 pixel) hat nur noch ein achtel der Pixel und das Bild rechts (Auflösung 228*171 pixel) geringe 1/32 der Anzahl der Pixel des Originalbildes.

Detailiertheit

Bilder welche Details deutlich sichtbar darstellen werden als schärfer wahrgenommen. Solche Details können z.B. auf Landschaftsfotos Bäume und deren Blätter oder Wellen im Wasser sein. Werden solche Details erwartet aber nicht gesehen kann das Bild als nicht ausreichend scharf empfunden werden.


Das Ziel dieser Arbeit ist das erkennen von für das Menschliche Auge scharfen und unscharfen Bildern. Daher wird sich im Ergebnis auf den Schärfeeindruck focusiert und als die zu bewertende Schärfe betrachtet. Die Detailiertheit wird im Rahmen dieser Arbeit nicht weiter vertieft, da sie nur einen geringen Anteil am Schärfeeindruck zu haben scheint. Die Erkennung von zu geringer Auflösung ist sehr "trivial" (sic! Prof. Nossek) und wird deshalb auch nicht näher betrachtet. Die Ermittlung und Einordnung ders Kontrasts im Sinne der Bewertung der schäre eines Bildes benötigt einen höheren Aufwand und deshalb im Rahmen dieser Arbeit nicht weiter darauf eingegangen.
Die Erkennung der technischen Schärfe ist bereits bekannt und es gibt dazu bewährte Verfahren. Inwieweit sich diese für die Erkennung von für das menschliche Auge scharfen und nicht mehr scharfen Bildern eignen wird hier genauer untersucht.


Qualitätsmildernde Merkmale auf digitalen Fotos

Geringe AuflösungGeringe Auflösung kann entweder durch eine Aufnahme mit einer gering auflösenden Kamera entstehen. Auch eine Komprimierung, wie sie zum Beispiel in vielen Social Media Messengern verwendet wird, kann verlustbehaftet sein und die Auflösung verringern.
Aus dem Fokus UnschärfeEin Bild kann unscharf sein, wenn der Fokus bzw. der Brennpunkt auf dem Sensor für eine für das Bild nicht relevante Entfernung eingestellt wurde. Dadurch erscheinen Teile oder das ganze Bild verschwommen.
BewegungsunschärfeDie Bewegungsunschärfe ist durch ein verwischtes Motiv erkennbar. Dies geschieht zum Beispiel durch zu kurze Belichtungszeit oder sich zu schnell bewegende Motive.
ÜberbelichtungDie Überbelichtung ist durch größere sehr helle bis weiße Bereiche in Bildern zu erkennen. Dadurch gehen Strukturen und somit Informationen verloren. Dies kann durch einen zu hohen ISO Wert oder zu lange Belichtung entstehen.
UnterbelichtungDie Unterbelichtung ist durch sehr dunkle oder schwarze Bereiche in Bildern zu erkennen. Sie ist das Gegenteil der Überbelichtung.
Ausrichtung, Verzerrung, etc(soll hier im Rahmen der BA nicht weiter behandelt werden)

Methoden zur Erkennung der qualitätsmindernden Merkmale

Da unscharfe Bilder ein weit verbreitetes Problem sind, gibt es auch auf Github schon viele Ansätze. Hier ist eine nicht abschließende Übersicht zu finden.

Vor allem basierten die Softwareumsetzungen auf den folgenden Ansätzen.

Methoden zur Bewertung der Bildschärfe in Softwareprojekten

Im Forschungs- und Anwendungsbereich von Computervision gibt es eine Vielzahl an Ansätzen zur Bewertung des Focus eines digitalen Bildes. In einer Veröffentlichung8 zur Untersuchung der Performance von verschiedenen Algorithmen zur Erkennung von Bildtiefen wird in sechs verschiedene Arten von Möglichkeiten der Berechnung des Fokus unterschieden:

1. Gradientenbasierte Operatoren (GRAn). Diese Gruppe fokussiert Messoperatoren, die auf dem Gradienten oder der ersten Ableitung des Bildes basieren. Diese Algorithmen folgen der Annahme, dass fokussierte Bilder schärfere Kanten aufweisen als unscharfe. Daher wird der Gradient zur Messung des Schärfegrads verwendet.

2. Laplacian-basierte Operatoren (LAPn). Ähnlich wie bei der vorherigen Gruppe besteht das Ziel dieser Operatoren darin, die Menge der in den Bildern vorhandenen Kanten zu messen, allerdings durch die zweite Ableitung oder Laplacian.

3. Wavelet-basierte Operatoren (WAVn). Die Fokusmessungsoperatoren innerhalb dieser Familie nutzen die Fähigkeit der Koeffizienten der diskreten Wavelet-Transformation zur Beschreibung der
Häufigkeit und räumlichen Inhalt der Bilder. Daher können diese Koeffizienten zur Messung der Fokusebene verwendet werden.

4. Statistik-basierte Operatoren (STAn). Die Fokusmessungsoperatoren innerhalb dieser Gruppe nutzen mehrere Bildstatistiken als Texturdeskriptoren, um den Fokussierungsgrad zu berechnen.

5. DCT-basierte Operatoren (DCTn). Ähnlich wie die Wavelet-basierten Operatoren nutzt diese Gruppe die diskrete Kosinustransformation (DCT) Koeffizienten, um den Fokusgrad eines Bildes aus seinem Frequenzmuster zu berechnen. Keiner der Operatoren innerhalb dieser Familie wurde unseres Wissens bisher in SFF-Anwendungen verwendet.

6. Diverse Operatoren (MISn). Diese Familie gruppiert Operatoren, die keiner der bereits genannten Gruppen angehören.

[Übersetzt aus [8] S.3 2.1. ]

Das Ergebnis der Autoren war, dass auf Laplace basierende Operatoren im Durchschnitt am besten performten, und in den Zwischenergebnissen scheinen Ansätze mit der Wavelet Transformation ebenfalls im Vergleich zu den anderen aufgeführten Ansätzen so gut zu funktionieren, dass es sich lohnen könnte sich diese genauer anzusehen.
Nach einer Recherche in Github zu den am häufigst verwendeten Ansätzen zur Erkennung von Unscharfen Bildern wurden ebenfalls der Wert der Variance des Laplaceoperators oder die Wavelet Transformation verwendet.
Aufgrund dessen wird hier näher auf diese beiden Verfahren eingegangen um Stärken und Schwächen für die in dieser Arbeit verfolgte Anwendung herauszufinden.

zusätzliche nicht betrachtete externe Literatur:

Wavelet Transform - http://www.cs.cmu.edu/~htong/pdf/ICME04_tong.pdf (gefunden in https://github.com/chihsuan/detect-blurry-video)

Image partial Blur Detection and Classification - http://www.cse.cuhk.edu.hk/leojia/all_final_papers/blur_detect_cvpr08.pdf

https://arxiv.org/abs/1503.00593 - Jian Sun, Wenfei Cao, Zongben Xu, Jean Ponce. Learning a convolutional neural network for non-uniform motion blur removal. CVPR 2015 - IEEE Conference on Computer Vision and Pattern Recognition 2015, Jun 2015, Boston, United States. IEEE, 2015,.

Methoden zur Bewertung der Bildqualität in wissenschaftlichen Puplikationen

In einigen wissenschaftlichen Veröffentlichungen wird zwischen zwei Arten von "Image Quality Assessment" (IQA) gesprochen10.
Einmal im Vergleich zu einem original Bild. Die sogenannte "Referance-Based-Evaluation". Dies ist zum Beispiel notwendig um den Verlust von Komprimierungsverfahren zu überprüfen.
In dieser Arbeit werden jedoch nur originale Bilder verwendet, deshalb gibt es keine zu beurteilenden Referenzbilder.
Für diese Art von Bewertung gibt es die "No-Reference-Evaluation". Dies entspricht dem in der Arbeit verfolgtem Ziel Bilder zu bewerten und zu sortieren.
Wie bereits bei der Wahrnehmung von Schärfe beschrieben wird hier auch zwischen rein mathematischen und an das "Human-Visual-System" (HVS) angepasste Herangehensweisen unterschieden.

Die herkömmlichen Metriken, wie das Signal-to-noise Ratio (PSNR) und der Mean-squared Error (MSE), wirken sich direkt auf die Intensität des Bildes aus und korrelieren nicht gut mit den subjektiven Bewertungskriterien. Daher wurden viele Anstrengungen unternommen, um auf dem menschlichen visuellen System (HVS) basierende IQA-Metriken zu entwickeln. Derartige Modelle betonen die Bedeutung der Empfindlichkeit des HVS für verschiedene visuelle Signale, wie z.B. die Leuchtdichte, den Kontrast, den Frequenzgehalt und die Interaktion zwischen verschiedenen Signalkomponenten.

[Übersetzt aus [11] S.1 I. ]

Da das Ziel ist für das menschliche Auge wahrnehmbare Kriterien zu finden. Eines hiervon ist zum Beispiel die "Blind/referenceless image spatial quality evaluator" (BRISQUE) Methode.
Es baut auf Natural Scene Statistics (NSS) auf und gehört zu den DCT basierten herangehensweisen und nutzt nur die Pixelwerte. Die Bewertung basiert auf statistischen Beobachtungen der lokalen diskreten Kosinustransfromationskoeffizienten welche in einem Machine Learning Prozess ausgewertet werden. Dazu gibt es eine ziemlich gute Beschreibung auf towardsdatasience.com zu finden.

Möglichkeiten zur Berechnung der Belichtungsstärke

Average Exposure

Über- oder unterbelichtete Bilder haben meist einen hohen Anteil an entweder hellen oder dunklen Farben. Folglich führt dies zu einem höheren oder niedrigerer Mittelwert der Helligkeit des Bildes.

Percentage dark and bright areas

Bilder können nicht nur zu hell oder zu dunkel sein über das gesamte Bild. Es ist auch möglich, dass es nur Bereiche gibt, die zu hell oder zu dunkel sind. Diese Bereiche können erkannt werden, indem man die Anzahl der Pixel mit einem bestimmten Wert über oder unter den Schwellenwerten zählt. Nach der Untersuchung einiger Bilder war das Ergebnis, dass dunkle und weiße Bereiche nicht nur die Extremen 0 und 255 sind. Es stellte sich heraus, dass Pixel dunkler als 15 und heller als 240 sind eine gute Definition für zu dunkel oder zu hell.


Testdatenbanken

Bevor eine mögliche Anwendung produktiv Erinnerungsfotos aussortieren kann muss diese getestet und die Ergebnisse ausgewertet werden, da eingangs der Anspruch, langatmige Zeit beim sortieren von Fotos, zum Beispiel am Ende des Jahres, so zuverlässig zu verkürzen, dass man keine wichtigen Erinnerungen fälschlicherweise aussortiert, formuliert wurde. Um die Performance bewerten zu können benötigt man eine oder mehrer Datenbanken die sowohl gute als auch schlechte Fotos enthält. Darüberhinaus muss für jedes Bild bekannt sein wie dieses zu bewerten ist um es mit den Ergebnissen der Software zu vergleichen.

WebApp zum Labeln und Bewerten

Es wurde eine WebApp in Python, HTML, CSS und SQLite entwickelt um Bilder zu labeln und zu bewerten. Der Code kann im Repository gefunden werden.

Architektur der WebApp:

Mean Opinion Scores (MOS)

https://link.springer.com/article/10.1007/s00530-014-0446-1



Nicht verwendete Datenbanken:

TID2008

http://www.ponomarenko.info/tid2008.htm Fotos mit unschärfe herausfiltern ~ 100 Bilder

CSIQ

http://vision.eng.shizuoka.ac.jp/mod/page/view.php?id=23 Fotos mit unschärfe herausfiltern ~ 60 Bilder

Reference Images: Thirty reference images were obtained from public-domain sources (mostly from the U.S. National Park Service). The images were chosen to span five categories: Animals, Landscapes, People, Plants, Urban.

Types of Distortions: The distortions used in CSIQ are: JPEG compression, JPEG-2000 compression, global contrast decrements, additive pink Gaussian noise, and Gaussian blurring. In total, there are 866 distorted images.

Protocol: The CSIQ distorted images were subjectively rated base on a linear displacement of the images. Four Sceptre X24WG LCD monitors at resolution of 1920x1200 were calibrated to be as close as possible to the sRGB standard. The monitors were placed side-by-side with equal viewing distance to the subject. The subjects were instructed to keep a fixed viewing distance stable of approximately 70 cm.

All of the distorted versions of each reference image were viewed simultaneously across the monitor array. Each subject horizontally positioned these images across the monitor array such that the horizontal distance between every pair of images reflected the difference in perceived quality between them. As a final step, across-image ratings were performed to obtain a "realignment" of the within-image ratings; this realignment experiment was a separate, but identical, experiment in which observers placed subsets of all the images linearly in space. The ratings were converted to z-scores, realigned, outliers removed, averaged across subjects, and then normalized to span the range [0, 1], where 1 denotes the lowest quality (largest perceived distortion).

Overall the database contains 5000 subjective ratings and are reported in the form of DMOS. Thirty-five total subjects participated in this experiment, but each subject only viewed a subset of the images. The subject pool consisted of both males and females with normal or corrected-to-normal vision. The subjects' ages ranged from 21 to 35.

LIVE

https://live.ece.utexas.edu/research/Quality/index.htm Sehr viele schon bewertete Fotos (https://live.ece.utexas.edu/research/ChallengeDB/index.html) ~ 1000 Bilder


Sonstiges

Laplaceoperator und/oder Laplacetransformation

Laplace-Operator7

Der Laplaceoperator ist ein Differentialoperator und erstellte eine Abbildung von einer F

Laplace-Transformation7

Die Laplacetransformation findet bei den Ingenieuren die Anwendung um Differentialgleichungen zu lösen. Speziell werden sie auf Anfangswertprobleme angewandt. Für die Verarbeitung von Bildern im Rahmen dieser Arbeit ist sie also nicht relevant.

Reflektion Wiki

Wiki: Vor allem zu Begin half das Wiki Informationen zu sammeln, strukturieren und auch Themen näher zu beschreiben, die dann in der Arbeit evtl. keine so große Rolle mehr spielen. Es ist sowieso sinnvoll dies irgendwo festzuhalten und hier hat sich das Wiki gut abgeboten. Beim verfassen der Arbeit half das Wiki vor allem zum starten, da einige Inhalte fast wortgleich übernommen werden konnten. Ab einem gewissen Punkt wurde es dann jedoch angenehmer nicht mehr alles erst im Wiki zu sammeln und dann in die Arbeit zu übertragen, sondern es direkt in die Arbeit zu schriben. Das gleiche gilt auch für Code nähere Themen, die angenehmer in Jupyter Notebooks zu dokumentieren waren. Abschließend kann ich sagen, dass ich es empfehlen kann vor allem am Anfang das Wiki gut und regelmäßig zu pflegen, da es dann später helfen kann.



Literaturverzeichnis


QuelleLinkDatum
1

Fotografie und ihre geschichtliche Entwicklung - lernhelfer.de (Schülerlexikon von Duden)

https://www.lernhelfer.de/schuelerlexikon/kunst/artikel/fotografie-und-ihre-geschichtliche-entwicklungAbruf: 01.04.2020
Stand lt. Website: 2010
2Digitalkamera Museum - das Original!https://www.digitalkameramuseum.de/de/geschichteAbruf 20.04.2020
3CMOS Image Sensors - IEEE Circuits and Devices Magazinehttps://ieeexplore.ieee.org/abstract/document/1438751

Abruf 20.04.2020

Veröffentl.: 13 June 2005

4Demosaiking: Color Filter Array Interpolation - IEEE Signal Processing Magazinehttps://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1407714

Abruf 20.04.2020

Veröffentl.: Januar 2005

5Explicit image detection using YCbCr space color model as skin detection p123-128 - Basilio, Jorge & Torres, Gualberto & Sanchez-Perez, Gabriel & Medina, L. & Perez-Meana, Hector (2011)
https://www.researchgate.net/profile/Gabriel_Sanchez-Perez/publication/262371199_Explicit_image_detection_using_YCbCr_space_color_model_as_skin_detection/links/549839cf0cf2519f5a1dd966/Explicit-image-detection-using-YCbCr-space-color-model-as-skin-detection.pdf

Abruf 23.04.2020

Veröffentl.: 2011

6JPEG at 25: Still Going Strong - IEEE MultiMedia https://ieeexplore.ieee.org/document/7924246

Abruf 22.04.2020

Veröffentl.: May 2017

7

Höhere Mathematik in Rezepten - Chrisitan Karpfinger

https://link.springer.com/book/10.1007%2F978-3-662-54809-7#authorsandaffiliationsbookAbruf 29.04.2020
Veröffentl.: 2017
8

Analysis of focus measure operators for shape-from-focus - Said Pertuz , Domenec Puig, Miguel Ángel García

https://www.semanticscholar.org/paper/Analysis-of-focus-measure-operators-for-Pertuz-Puig/8c675bf5b542b98bf81dcf70bd869ab52ab8aae9

Abruf 23.05.2020
veröffentl.: 2013

9Kleine Fotoschule - Michael Groerhttps://www.kleine-fotoschule.de/kameratechnik/bildschaerfe1.html

Abruf 12.06.2020

10

Automatic Image Quality Assessment in Python

https://towardsdatascience.com/automatic-image-quality-assessment-in-python-391a6be52c11Abruf 23.06.2020
Veröffentl.: 28.08.2018
11

FSIM: A Feature Similarity Index for Image Quality Assessment - IEEE

https://ieeexplore.ieee.org/document/5705575Abruf 23.06.2020
Veröffentl.: 08.2011

Generelle Buchempfehlung: Gonzalez, Rafael C., and Richard E. Woods. Digital Image Processing, Global Edition, Pearson Education Limited, 2017. ProQuest Ebook Central, https://ebookcentral-proquest-com.eaccess.ub.tum.de/lib/munchentech/detail.action?docID=5573669


Überlegungen

Speichern der Ergebnisse der Bewertung in einer Datenbank

Im allerersten Script wurden bei jedem durchlauf alle Bilder aus dem Quellverzeichnis in ein Zielverzeichnis in Ordner mit der jeweiligen Kategorie, unscharf, zu prüfen, scharf kopiert und mit dem Wert der Varianz der Laplac-Transformation neu benannt. Dies war zwar sehr einfach zu programmieren, dafür aber sehr schlecht in der Performance. Es wird bei jedem Durchlauf die Speichergröße des Quellordners im Zielordner benötigt. Ebenso war die niedrige Geschwindigkeit durch das Kopieren der Bilder nicht hinnehmbar.
Ergebnisse lassen sich auch durch eine Kombination aus Pfad zum Bild, welcher den Dateinamen enthält, und dem Ergebnis der Bewertung abspeichern. In Python bieten sich hier mehere Dateiformate an.

XML –  ist sehr kompatibel und einfach lesbar. Es wird aber sehr viel Speicher durch die Dateistruktur und den Wiederholungen von den gleichen Tags verschwendet.

JSON – ist ebenfalls sehr kompatibel und realtiv gut lesbar. Allerdings wird es bei größeren Datenmengen sehr unübersichtlich und auch fehleranfällig.

CSV – ist auch noch einigeraßen kompatibel und lässt sich mit ein wenig Aufwand sogar in Excel bearbeiten und auswerten. Der Nachteil ist, dass bei jedes Mal alles bis zum gesuchten Datenpunkt verarbeitet wird.

SQlite – ist eine einfache schlanke Datenbank, welche sich gut mit Python verwenden lässt. Bei größeren Datenmengen, also theoretisch mehrere Terrabyte würde diese vermutlich noch schnell reagieren. Der Nachteil ist, dass Datenbanken bisher unbekannt sind und  sie deshalb erstmal Datenbanken verstanden werden müssen, bevor sie sinnvoll genutzen werden können.

SQlite Datenbank (Stand 20.04.2020):
Final wurde die Datenbank viel schlanker als anfangs geplant. Eine Auswertung der Scatterplotmatrix über alle Werte reduzierte die aussagekräftigen Faktoren erheblich.


Fig 2.: Entity Relationship Diagram der Datenbank zur Bachelorarbeit (Eingeklappte Bereiche werden erst später implementiert)


Progammstruktur (29.04.2020):


  • Keine Stichwörter