Java Programm um URL-Link nach Wort zu durchsuchen
Hallo,
ich wollte mal wissen wie aufwendig es ist ein kleines Java-Programm zu schreiben, dass mit einer URL-Liste gefüttert wird, jeden URL-Link aufruft und in dem Quellcode der Seite nach einem bestimmten Wort sucht und dann das darauffolgende Wort rauskopiert und in einer .txt speichert.
Ich habe leider keine guten Java Kenntnisse, lediglich Grundlagen hat man mir beigebracht im Studium, die bringen mir hier aber nicht viel.
Wäre cool wenn mir da jemand weiter helfen könnte
AW: Java Programm um URL-Link nach Wort zu durchsuchen
Grundsätzlich gesehen, ist dies nicht Schwer.. solltest du wenn du es im Studium gehabt hast auch packen.
Mal ein paar Stichworte:
- Array Liste (Urls zwischenspeichern)
- Dateioperationen (.txt mit Urls auslesen, Wort speichern)
- HTTP Requests (Url aufrufen)
- http://dbs.cs.uni-duesseldorf.de/leh...el3id011002005
Sollte nicht so schwer sein das zu erstellen, vorallem wenn du Java bereits ein bisschen kannst.
grüße
AW: Java Programm um URL-Link nach Wort zu durchsuchen
ok vielen Dank, dann nehm ich das mal in Anrgiff.
AW: Java Programm um URL-Link nach Wort zu durchsuchen
Zitat:
Zitat von
k34nu
[...] nach einem bestimmten Wort sucht und dann das darauffolgende Wort rauskopiert und [...]
Wenn man, wie Cystasy vorschlug, zunächst nur das Schlagwort sucht, dann muss man sich wohl trotzdem noch den String von dieser Position an weiter durchlaufen und schauen, was davon das darauffolgende Wort ist und was nicht. Das ist unnötig aufwändig. Für solche Probleme gibt es RegEx.
Beispiel:
Ausgabe:
Ob man Satzeichen mit dabei haben möchte und so lässt sich natürlich leicht einstellen, indem man den RegEx-Ausdruck anpasst.
AW: Java Programm um URL-Link nach Wort zu durchsuchen
Ich habe jetzt mal was gemacht und soweit funktioniert auch alles, aber jetzt komm ich nicht weiter.
In meinem Beispiel suche ich jetzt im Quellcode nach der div class "Schauspieler", und lass alle Elemente ausgeben die darinstehen.
Ich weis aber nicht wie ich es jetzt mache, nur die Schauspieler aufzulisten.
Hier ist die Stelle aus dem Quellcode mit den Schauspielern:
Hier mein Code:
Ich hab mir überlegt "einfach" nach
"<h5 itemprop='actor'>" suchen zu lassen und dann den Inhalt von "title="Keanu Reeves"
rausschreiben.
Aber ich weis nicht wie ich das jetzt umsetze, vielleicht kann mir da jemand weiter helfen.
Danke im voraus
Edit: Das Programm muss nicht effizient sein:)
AW: Java Programm um URL-Link nach Wort zu durchsuchen
Zitat:
Zitat von
k34nu
Too much Text
Kann dir höchstens mal zeigen wie ich es in Javascript löse bei soetwas.. ist aber nicht wirklich effektiv / effizient:
Code:
/*
Slice a String out of a Text
*/
function SliceText(txt, a, b, num)
{
var tmp = txt.split(a);
tmp=tmp[1+num];
tmp = tmp.split(b);
tmp = tmp[0];
return tmp;
}
Damit kann man Abschnitte aus einem Text rausschneiden.
Beispielweise wenn du "Mein Name ist Hans!" als Text hast und du nun den Name dort rausschnippeln wollen würdest, würdest du das mit dem Aufruf
Code:
SliceText("Mein Name ist Hans!","ist ","!",0);
erreichen.. die Funktion gibt dir dann "Hans" zurück.
Nicht effizient, und wahrscheinlich steigen mir jetzt auch ein paar Leute aufn Kopf dafür.. aber hey - du hast nach Hilfe gefragt.. vielleicht hilfts dir.
Auch wenns nicht wirklich ein guter Weg dafür ist denke ich^^
Musst den Code halt auf Java umschreiben, sollte aber ziemlich leicht sein.
grüße
AW: Java Programm um URL-Link nach Wort zu durchsuchen
hm komisch, dass der Text zu lang ist, ich hab ihn jetzt mal gekürzt, vielleicht sieht man nun alles.
Aber Danke schonmal für das Beispiel.
AW: Java Programm um URL-Link nach Wort zu durchsuchen
Zitat:
Zitat von
k34nu
hm komisch, dass der Text zu lang ist, ich hab ihn jetzt mal gekürzt, vielleicht sieht man nun alles.
Aber Danke schonmal für das Beispiel.
Der ist nicht zu lang, ich habs nur editiert damit es kein Fullquote wird^^
Fullquotes mit Code werden hier nicht gern gesehen, sorry für die verwirrung :D
AW: Java Programm um URL-Link nach Wort zu durchsuchen
Achsoo, ok kein Problem:D
Dachte der Text wurde bei dir nicht angezeigt weil er zu lang wär^^
AW: Java Programm um URL-Link nach Wort zu durchsuchen
Eine schönere Lösung wäre, die Seite als HTMLDocument (https://docs.oracle.com/javase/7/doc...LDocument.html) zu laden und dir damit dein img Tag raus zu suchen. So wäre das Ganze später auch einfacher anzupassen auf andere Webseiten oder sollte moviepilot mal seine html struktur ändern
AW: Java Programm um URL-Link nach Wort zu durchsuchen
Zitat:
Zitat von
R3s1stanc3
Eine schönere Lösung wäre, die Seite als HTMLDocument (
https://docs.oracle.com/javase/7/doc...LDocument.html) zu laden und dir damit dein img Tag raus zu suchen. So wäre das Ganze später auch einfacher anzupassen auf andere Webseiten oder sollte moviepilot mal seine html struktur ändern
Gibt es bei einem HTMLDocument auch eine ähnliche Zugriffsebene wie z.b DOM (beispiel: document.body.getElementById('meh') o.ä) ?
Weil dann wäre es wirklich eine enorm bessere Lösung die man vorziehen sollte.