Lass uns das auf 5 Minuten anpassen und ein Vision-Modell dafür feinabstimmen und trainieren, lmaoooo