Hallo zusammen,
ich habe einen Crawler für ein namhaftes deutsches Imageboard (pr Zero gramm) geschrieben, welcher alle Bilder speichert, die gepostet werden. Hauptsächlich habe ich das getan um gelöschte Bilder und Kommentare wiederherstellen zu können (Stichwort oc ), was an sich auch gut funktioniert. Der Crawler crawled alle 10 Sekunden, dadurch kriege ich jedes Bild, da die Mods eine Weile brauchen, bis sie ein Bild gelöscht haben.
Problem:
Da die Bilder sofort vom Server gelöscht werden muss ich alle Daten bei mir lokal im Speicher halten und dumpe sie auf die Festplatte, sobald das Bild auf der originalen Seite gelöscht wurde. Früher blieb der Bildlink noch eine Weile erhalten, ich konnte das Bild also erst runterladen wenn der Eintrag gelöscht wurde. Nachdem mein Crawler aber eine Weile lief haben sie das geändert lol. Wie man sich denken kann braucht das je nach Bilderanzahl eine Menge Speicherplatz und ist nicht gerade elegant.
Vor einer Weile hat ein Mod folgendes gepostet:
Das ist die Backendansicht, bei dem angezeigt wird, was gelöscht wurde und wenn man genau hinschaut sieht man, dass dahinter ein Link zu dem Bild im Cache ist. Soweit ich das sehen konnte wird mit nginx und Cloudflare gecached. ich konnte 5 verschiedene IPs identifizieren, von denen der Content kommt.
Die Frage ist nun, wie komme ich an das Bild im Cache heran? Kennt sich jemand mit Cachingtechniken oder Cloudflare aus und kann mir ein paar Tipps geben?
Danke euch schonmal!
Wenn ich Erfolg haben sollte kann ich das Script (Gibt eine Java und eine Python3 Version) gerne ins GIT hochladen