FACHARTIKEL

Ermittlungen in 3D

TEXT Elena Pistorius

Kein Fingerabdruck? Kein Problem. Durch digitale Skelette ergeben sich in der modernen Videoanalyse ganz neue Möglichkeiten, um Personen zu identifizieren. Die Forscherin Elena Pistorius beschreibt, wie sie und das Team vom Forensic Science Investigation Lab diese nutzen, um Verdächtige virtuell auf einem Tatort zu platzieren und sie mit Aufnahmen von Überwachungskameras abzugleichen.

Es ist der 25. November 2019, kurz vor 5 Uhr. Mehreren Unbekannten gelingt es, in das Grüne Gewölbe in Dresden einzubrechen. Sie fliehen, bevor die Polizei eintrifft – im Gepäck Schmuckstücke und Edelsteine aus der Zeit August des Starken, eine Beute im Versicherungswert von insgesamt 113,8 Millionen Euro. Während der Tat tragen die Täter*innen Handschuhe und Masken, wodurch weder Fingerabdrücke noch andere biologisch verwertbare Spuren am Tatort gefunden werden. Was sie jedoch nicht verschleiern können, sind ihr Gang und ihre Statur. Diese markanten Merkmale waren es unter anderem, die das Ermittlungsteam auf die richtige Spur brachten. Doch wie genau funktioniert es, solche Eigenschaften mittels moderner Video­analyse einzelnen Personen zuzuordnen?

Rotieren für das Rig

Um eine Person aufgrund ihrer Körperproportionen und ihres Gangs identifizieren zu können, braucht es eine Abstraktionsform, die als Grundlage für Vergleiche dienen kann und universell anwendbar ist: das digitale Skelett, in der Fachsprache „Rig“ genannt. Solche Rigs werden zum Beispiel von uns, dem Forensic Science Investigation Lab (FoSIL) in Mittweida, erstellt. Dafür muss die betroffene Person zunächst vermessen werden. Hierzu haben wir ein spezielles Setup entwickelt, das aus ein bis zwei Kamerasystemen, einer rotierenden Plattform (Drehteller) und einem terrestrischen 3D-Laser­scanner besteht. Diese werden in einem genau definierten Abstand von der Plattform entfernt aufgestellt und auf die Hälfte der Körperhöhe der auf der rotierenden Plattform stehenden Person ausgerichtet. Der Drehteller kann stufenlos um 360 Grad gedreht werden. Während dieser Rotation werden mit den Kamerasystemen Bilder oder Videos aufgenommen. Abschließend wird die gesamte Szene mit dem terrestrischen 3D-Laserscanner erfasst. So entstehen Einzelbilder oder Videos, die eine 360-Grad-Sicht auf die vermessene Person ermöglichen, und eine 3D-Punktewolke des beschriebenen Aufbaus.

Knochenpunkte als Orientierung

Um die aufgenommenen Daten verwenden zu können, müssen sie zunächst verarbeitet werden. Die 3D-Punktewolke wird mithilfe einer Software zu einem digitalen 3D-Modell verarbeitet. Dieses Modell besitzt die wichtige Eigenschaft, dass es die gleichen Maße aufweist wie die reale Szene, die verarbeitet wurde. Das bedeutet, dass ein Meter im Setup-Raum in der Realität einem Meter im resultierenden Modell entspricht. Hierdurch wird gewährleistet, dass sich das entstehende Rig ohne eine Anpassung in andere Systeme übertragen lässt, die ebenfalls dieser Metrik unterliegen. So kann beispielsweise ein Tatort auf die gleiche Art durch den 3D-Laserscanner erfasst, die resultierende Punktewolke verarbeitet und das digitale Skelett importiert werden, um einen Abgleich zu ermöglichen.

Dieses muss jedoch zunächst erstellt werden. Dabei wird zwischen zwei Vorgehensweisen unterschieden, die verschiedene Rig-Arten hervorbringen. Zum einen gibt es das ­markerbasierte Rig. Hierfür werden während der Aufnahme Marker an vorab klar definierten Körperstellen der vermessenen Person angebracht. Diese dienen vor allem der Orient­ierung und Markierung wichtiger Knochenpunkte wie der Kniescheibe, dem Knöchel oder den Hüftknochen. Insgesamt werden mindestens zwölf dieser Marker benötigt, um ein Rig erstellen zu können. Die zu vermessende Person wird zur Unterstützung gebeten, eng anliegende Kleidung zu tragen, um den Prozess der späteren Rig-Erstellung zu erleichtern. Die zweite Variante wird durch den OpenPose-Algorithmus unterstützt. Der Algorithmus dient dazu, Knochenpunkte und deren Lage zu bestimmen und auf den Abbildungen zu markieren. Der Unterschied der beiden Herangehensweisen liegt also darin, dass bei markerbasierten Rigs die Knochenpunkte während der Datenaufnahme händisch festgelegt werden, wohingegen sie bei den OpenPose-basierten Rigs durch den Algorithmus vorgegeben werden. Das weitere Vorgehen bei der Erstellung der digitalen Skelette läuft immer gleich ab.

Als Erstes wird das erstellte 3D-Modell des Vermessungsraums in die kostenlose Open-Source-Software Blender importiert, in der dann einige Schritte vorgenommen werden: An die Stelle des Kamerasystems im Modell wird eine parametrisierte, digitale Kamera gesetzt und das hinterlegte Bild in die Szene eingepasst. Am Ende sollten alle Kanten des Bildes mit den Kanten des Modells überlagert sein. Durch das Einfügen weiterer Kameras und deren Rotation wird es möglich, die Person aus mehreren Positionen abzubilden und eine Räumlichkeit der Bilder zu schaffen, die über zwei Dimensionen hinausgeht.

Im Anschluss werden im 3D-Raum die reduzierten Knochen modelliert. Dabei orientiert sich das Team an den jeweiligen Knochenpunkten (angebrachte Marker oder OpenPose-Marker). Diese müssen während der Modellierung auf den Bildern der verschiedenen Blickwinkel getroffen werden. Das Modell wird daraufhin „gerigged“, das Skelett also mit Knochen und Gelenken ausgestattet, sodass es auf eine natürliche Weise bewegt werden kann. So entsteht am Ende ein dem metrischen System unterliegendes, reduziertes und auf natürliche Weise bewegliches Abbild der vermessenen Person. Dieses kann dann zum Beispiel in digitale Tatorte eingepasst oder mit anderen digitalen Skeletten verglichen werden.

Wie digitale Skelette auf Tatverdächtige treffen

Um Rigs zum Abgleich, zum Beispiel mit einem Tatverdächtigen, zu nutzen, braucht es eine Aufnahme einer Videokamera oder einzelne Frames, auf denen die Person zu sehen ist. Diese können direkt vom Tatort, aber auch aus deren Umfeld stammen. Zusätzlich zu den Aufnahmen wird ein Scan dieses Ortes benötigt, der mindestens den abgebildeten Bereich abdeckt und wie zuvor beschrieben zu einem 3D-Modell verarbeitet werden kann. Die Aufnahmen können auch hier durch eine parametrisierte, virtuelle Kamera so eingepasst werden, dass sie das Modell exakt überlagern. Dadurch wird ein zweidimensionales Bild in ein dreidimensionales Modell projiziert und die abgebildete Szene kann im dreidimensionalen Raum nachgestellt werden. Mit diesem parametrisierten Modell ist es nun möglich, die auf den Aufnahmen abgebildete Person zu vermessen, sollte es keine Tatverdächtigen oder kein Rig geben.

Falls ein Rig vorliegt, kann die auf der Abbildung dargestellte Pose genau nachgebildet werden. Hierfür wird das Rig innerhalb der 3D-Szene zunächst genau an die Stelle gerückt, an der die betreffende Person im Bild steht. Hierfür können zur Orientierung zum Beispiel Linien auf dem Boden wie bei Fliesen oder Pflastersteinen genutzt werden. Aber auch ohne diese Linien ist es möglich, den exakten Standpunkt zu ermitteln. Anschließend werden zunächst die Füße des Rigs genau an die Stelle gesetzt, an der sich auch die Füße der zu vergleichenden Person befinden. Von da an wird dann die eingenommene Pose der Person nachgestellt, von den Füßen hin zum Kopf. Dabei werden die einzelnen Knochen des Rigs so lange bewegt, bis sie an der Stelle liegen, an der sie auch bei der abgebildeten Person zu sehen sind. Dass es sich bei einem Rig um eine minimalistische Abbildung eines Menschen handelt, wird hier zum Vorteil. Denn dadurch lassen sich einzelne Posen sehr detailliert darstellen, ohne viel vom Bild abzudecken.

Nach der Einpassung kann nun evaluiert werden, inwieweit die abgebildete Person mit dem erstellten Rig übereinstimmt. Hierfür gibt es mehrere Ansätze, die je nach Situation angewandt werden können. Zum einen kann der mittlere Abstand zwischen dem Rig und der Person an wohldefinierten Punkten berechnet werden, kurz: RMSD (Root Mean Square Deviation). Umso größer diese Zahl ausfällt, umso unwahrscheinlicher ist eine Übereinstimmung. Aber auch die Schulter- und Körperhöhe oder einzelne Knochenlängen können genutzt werden, um den Unterschied zwischen den beiden zu beziffern.

Im Fall des Grünen Gewölbes war eine solche Einpassung eines Rigs zunächst nicht möglich, da es keine Tatverdächtigen gab, die vermessen werden konnten. Daher fügte das Team Dummys ein, die so modelliert wurden, dass sie die genaue Pose der Personen auf den Überwachungskameras im 3D-Modell nachbilden konnten. Somit war es möglich, die Körperhöhe und die Proportionen der Täter*innen zu ermitteln, obwohl sie auf den Videoaufnahmen alle nur in gebückter Haltung zu sehen waren. Anhand dieser Informationen war es möglich, den Kreis der Verdächtigen zu verkleinern – ein wichtiger Schritt hin zur Identifikation der Schuldigen, die schließlich im Mai 2023 verurteilt wurden.

Zurzeit wird der gesamte hier beschriebene Ablauf noch größtenteils händisch und nur teilautomatisiert durchgeführt. Doch viele Forschende, darunter auch ich und meine Kolleg*innen, arbeiten bereits daran, ihn zu automatisieren – vom 3D-Modell über die Rig-­Erstellung bis zur Einpassung und zum Abgleich. Dies birgt großes Potenzial, bringt aber sicherlich noch ungeklärte Fragen und einige Herausforderungen mit sich – nicht nur für den einen oder anderen ­Juwelendieb.

Über die Autorin

Elena Pistorius studierte an der Hochschule Mittweida „Allgemeine und Digitale Forensik“ sowie „Medien­informatik und interaktives Enter­tainment“ und arbeitet seit 2021 in der Forschung und Fallarbeit des Forensic Science Investigation Lab (FoSIL). Dieses befasst sich neben klassischen Themen wie der Gesichtsweichteil­rekonstruktion auch mit neuen Ansätzen zur Identi­fizierung von Personen in digitalen Aufnahmen. Elena Pistorius arbeitet an Fällen wie diesen zusammen mit ihren Kolleg*innen: Sabine Richter, Eric Renner, Marie-­Luise Heuschkel, Sven Becker, Svenja Preuß und Dirk Labudde.

https://forensik.hs-mittweida.de/

Becker, Sven et al. (2022), „COMBI: Artificial Intelligence for Computer-Based Forensic Analysis of Persons“. In: Künstliche Intelligenz 36

Heinke, Florian et al. (2023), „Analysing Distributions of Feature Similarities in the Context of Digital Anthropometric Pattern Matching Probability“. In: INFORMATIK 2023

Heinke, Florian et al. (2022), „A frequentist estimation of duplicate probability as a baseline for person identification from image and video material using anthropometric measurements“. In: INFORMATIK 2022

Heuschkel, Marie L. et al. (2024), „Reconsideration of Bertillonage in the age of digitalization: Digital anthropometric patterns as a promising method for establishing identity“. In: Forensic Science International: Synergy 8

Labudde, Dirk (2023), „Das digitale Rig als intelligentes, bildbasiertes, forensisches Instrument“. In: SIAK-Journal − Zeitschrift für Polizeiwissenschaft und polizeiliche Praxis (4)

Labudde, Dirk (2023), „Der ewige Wettlauf zwischen neuen Begehensweisen und Methoden der Verbrechensaufklärung“. In: Die POLIZEI

Pistorius, Elena et al. (2023), „The digital skeleton in modern video analysis – inter- and intraspecific comparison of individual rigs“. In: INFORMATIK 2023