Semalt teilt eine einfache Möglichkeit, Informationen von Websites zu extrahieren

Web Scraping ist eine beliebte Methode, um Inhalte von Websites abzurufen. Ein speziell programmierter Algorithmus gelangt auf die Hauptseite der Site und folgt allen internen Links, um die Innenräume der von Ihnen angegebenen Divs zusammenzusetzen. Als Ergebnis bereit CSV-Datei mit allen notwendigen Informationen in einer strengen Reihenfolge. Die resultierende CSV kann für die Zukunft verwendet werden, um nahezu einzigartige Inhalte zu erstellen. Und im Allgemeinen sind solche Daten als Tabelle von großem Wert. Stellen Sie sich vor, die gesamte Produktliste einer Bauwerkstatt wird in einer Tabelle dargestellt. Darüber hinaus werden für jedes Produkt, für jeden Typ und jede Marke des Produkts alle Felder und Merkmale ausgefüllt. Jeder Texter, der für einen Online-Shop arbeitet, würde sich über eine solche CSV-Datei freuen.

Es gibt viele Tools zum Extrahieren von Daten von Websites oder zum Web-Scraping. Machen Sie sich keine Sorgen, wenn Sie mit keinen Programmiersprachen vertraut sind. In diesem Artikel werde ich eine der einfachsten Möglichkeiten zeigen - die Verwendung von Scrapinghub.

Gehen Sie zunächst zu Scrapinghub.com, registrieren Sie sich und melden Sie sich an.

Der nächste Schritt zu Ihrer Organisation kann einfach übersprungen werden.

Dann kommst du zu deinem Profil. Sie müssen ein Projekt erstellen.

Hier müssen Sie einen Algorithmus auswählen (wir werden den Algorithmus "Portia" verwenden) und dem Projekt einen Namen geben. Nennen wir es irgendwie ungewöhnlich. Zum Beispiel "111".

Jetzt gelangen wir in den Arbeitsbereich des Algorithmus, in dem Sie die URL der Website eingeben müssen, von der Sie Daten extrahieren möchten. Klicken Sie dann auf "Neue Spinne".

Wir gehen zu der Seite, die als Beispiel dienen soll. Die Adresse wird im Header aktualisiert. Klicken Sie auf "Diese Seite kommentieren".

Bewegen Sie den Mauszeiger nach rechts, um das Menü anzuzeigen. Hier interessiert uns die Registerkarte "Extrahiertes Element", auf der Sie auf "Elemente bearbeiten" klicken müssen.

Die leere Liste unserer Felder wird jedoch angezeigt. Klicken Sie auf "+ Feld".

Hier ist alles einfach: Sie müssen eine Liste von Feldern erstellen. Für jedes Element müssen Sie einen Namen (in diesem Fall einen Titel und einen Inhalt) eingeben, angeben, ob dieses Feld erforderlich ist ("Erforderlich") und ob es variieren kann ("Variieren"). Wenn Sie angeben, dass ein Element "erforderlich" ist, überspringt der Algorithmus einfach Seiten, auf denen dieses Feld nicht ausgefüllt werden kann. Wenn nicht markiert, kann der Prozess für immer dauern.

Klicken Sie nun einfach auf das gewünschte Feld und geben Sie an, was es ist:

Erledigt? Klicken Sie dann in der Kopfzeile der Website auf "Beispiel speichern". Danach können Sie zum Arbeitsbereich zurückkehren. Jetzt weiß der Algorithmus, wie man etwas bekommt, wir müssen eine Aufgabe dafür festlegen. Klicken Sie dazu auf "Änderungen veröffentlichen".

Gehen Sie zur Taskleiste und klicken Sie auf "Spider ausführen". Wählen Sie Website, Priorität und klicken Sie auf "Ausführen".

Nun, das Schaben ist jetzt in Bearbeitung. Die Geschwindigkeit wird angezeigt, indem Sie mit dem Cursor auf die Anzahl der gesendeten Anforderungen zeigen:

Die Geschwindigkeit, mit der Zeichenfolgen in CSV vorbereitet werden - indem Sie auf eine andere Zahl zeigen.

Um eine Liste der bereits hergestellten Artikel anzuzeigen, klicken Sie einfach auf diese Nummer. Sie werden etwas Ähnliches sehen:

Wenn es fertig ist, kann das Ergebnis durch Klicken auf diese Schaltfläche gespeichert werden:

Das ist es! Jetzt können Sie Informationen von Websites ohne Programmiererfahrung extrahieren.