10. Dezember 2025

Promotion von Zhengyang Yu

Zwischen Sehenlernen und Deep Learning

Zhengyang Yu aus der Gruppe von Jochen Triesch promovierte am 10. Dezember. „Wir wollen eine Brücke zwischen dem Sehvermögen von Kleinkindern und Deep Learning schlagen“, sagt Yu. Kleinkinder lernen durch aktive, selbstgesteuerte Erkundung. Yu zeigt in seiner Promotion, dass das Repräsentationslernen von dieser natürlichen, kontinuierlichen visuellen Erfahrung profitieren kann.

Durch den Ersatz der traditionellen Datenvergrößerung durch zeitlich benachbarte Bilder aus realen visuellen Spielsequenzen lernte sein selbstüberwachtes Modell robuste Objektdarstellungen, die mit denen vergleichbar sind, die unter vollständiger Überwachung erzielt wurden.

„Wir arbeiteten eng mit Chen Yu von der University of Texas in Austin zusammen und sind ihm und seinen Labormitgliedern sehr dankbar", so Yu. Dank ihrer Video-Datensätze aus der Ich-Perspektive von Kleinkindern konnte er Modelle mit realistischen visuellen Entwicklungsinputs trainieren.

Um die zentrale visuelle Erfahrung eines Kleinkindes anzunähern, schnitt er Bereiche von Bildern einer am Kopf befestigten Kamera aus, die auf die mittels Eye-Tracking gemessenen Blickpositionen zentriert waren. Diese blickgesteuerten visuellen Ströme wurden dann in selbstüberwachte Modelle eingespeist, die auf dem Prinzip der Langsamkeit basieren. Die Ergebnisse zeigen, dass die Blickstrategien von Kleinkindern das Erlernen unveränderlicher Objektdarstellungen unterstützen. Ihre Analyse ergab auch, dass der begrenzte Bereich des zentralen Gesichtsfeldes, in dem die Sehschärfe am höchsten ist, für das Lernen entscheidend ist.

Darüber hinaus untersuchte Yu auch, wie biologische Mechanismen wie Foveation und kortikale Vergrößerung das Repräsentationslernen beeinflussen. Er entwickelte ein biologisch inspiriertes Circle Relationship Embedding for Vision Transformers, eine Positionskodierungstechnik, die das zentrale Sehen betont und mit traditionellen Positionskodierungen kompatibel ist, was zu einer verbesserten Objekterkennungsleistung in ViTs führt. Darüber hinaus zeigte er, dass die Simulation der kortikalen Vergrößerung als effektive Augmentationsstrategie dienen kann, die die Objekterkennungsleistung selbstüberwachter Modelle weiter verbessert.

Yu wird seine Forschung für kurze Zeit im Triesch-Lab fortsetzen, während er sich um Postdoc-Stellen in verwandten Bereichen bemüht.

Veröffentlichungen:

Yu, Z., Aubret, A., Yu, C. & Triesch, J. Simulated Cortical Magnification Supports Self-Supervised Object Learning. In 2025 IEEE International Conference on Development and Learning (ICDL) (S. 1–6). IEEE.

Yu, Z., Aubret, A., Raabe, M. C., Yang, J., Yu, C., & Triesch, J. Das aktive Blickverhalten von Kleinkindern unterstützt das selbstüberwachte Lernen von Objekten. arXiv-Vorabdruck arXiv:2411.01969.

Yu, Z., & Triesch, J. Cre: Einbettung von Kreisbeziehungen von Patches in Vision Transformer. Im Europäischen Symposium über künstliche neuronale Netze, Computational Intelligence und maschinelles Lernen (ESANN) 2023.

Raabe, M. C., López, F. M., Yu, Z., Caplan, S., Yu, C., Shi, B. E., & Triesch, J. Saccadeamplitudenstatistiken lassen sich durch kortikale Vergrößerung erklären. In 2023 IEEE International Conference on Development and Learning (ICDL) (S. 300-305). IEEE.

Schneider, F., Xu, X., Ernst, M. R., Yu, Z., & Triesch, J. Kontrastives Lernen im Zeitverlauf. In SVRHM 2021 Workshop@ NeurIPS.