
{"id":25697,"date":"2025-10-28T14:33:00","date_gmt":"2025-10-28T13:33:00","guid":{"rendered":"https:\/\/contabo.com\/blog\/der-ultimative-guide-zum-n8n-web-scraping\/"},"modified":"2025-10-28T15:01:09","modified_gmt":"2025-10-28T14:01:09","slug":"der-ultimative-n8n-web-scraping-guide","status":"publish","type":"post","link":"https:\/\/contabo.com\/blog\/de\/der-ultimative-n8n-web-scraping-guide\/","title":{"rendered":"Der ultimative n8n Web Scraping Guide"},"content":{"rendered":"\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1200\" height=\"630\" src=\"https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/10\/blog-head_the-ultimate-n8n-web-scraping-guide_DE.jpg\" alt=\"Der ultimative n8n Web Scraping Guide (Titelbild)\" class=\"wp-image-25688\" srcset=\"https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/10\/blog-head_the-ultimate-n8n-web-scraping-guide_DE.jpg 1200w, https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/10\/blog-head_the-ultimate-n8n-web-scraping-guide_DE-600x315.jpg 600w, https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/10\/blog-head_the-ultimate-n8n-web-scraping-guide_DE-768x403.jpg 768w\" sizes=\"auto, (max-width: 1200px) 100vw, 1200px\" \/><\/figure>\n\n\n\n<p>Musstest du schon einmal Daten von einer Webseite abrufen, die \u00fcber keine API verf\u00fcgt? Vielleicht m\u00f6chtest du die Preise deiner Konkurrenten verfolgen, Leads aus einem Branchenverzeichnis sammeln oder Artikelinhalte zur Analyse abrufen. Das manuelle Kopieren und Einf\u00fcgen dieser Informationen ist langsam, m\u00fchsam und fehleranf\u00e4llig. Hier kommt n8n Web Scraping ins Spiel. Mit n8n kannst du unz\u00e4hlige Stunden manueller Arbeit sparen, indem du leistungsstarke, automatisierte Workflows erstellst, mit denen du die ben\u00f6tigten Daten von jeder Webseite extrahierst.<\/p>\n\n\n\n<p>Dieser Guide zeigt dir, wie du mit n8n scrapen kannst, beginnend mit den absoluten Grundlagen bis hin zu fortgeschritteneren Techniken. Wir werden alles abdecken, von einfachem HTML-Scraping mit n8n auf statischen Seiten bis hin zum Umgang mit dynamischen, JavaScript-lastigen Seiten. Am Ende verf\u00fcgst du \u00fcber die F\u00e4higkeiten, jede Webseite in eine strukturierte Datenquelle umzuwandeln und eine vollst\u00e4ndige n8n-Data-Scraping-Pipeline aufzubauen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"the-basics-of-web-scraping-with-n8n-an-introductio\">Die Grundlagen des Web-Scraping mit n8n: Eine Einf\u00fchrung in Core-Knoten<\/h2>\n\n\n\n<p>Im Kern folgt das gesamte n8n-Web-Scraping einem einfachen, zweistufigen Prozess:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>Fetch:<\/strong> Du stellst wie ein Webbrowser eine Anfrage an den Server einer Webseite und erh\u00e4ltst den rohen HTML-Code der Seite zur\u00fcck.<\/li>\n\n\n\n<li><strong>Parse:<\/strong> Du durchsuchst diesen HTML-Code, um die f\u00fcr dich interessanten Informationen zu finden und zu extrahieren, z. B. einen Produktnamen, einen Preis oder einen Artikeltitel.<\/li>\n<\/ol>\n\n\n\n<p>n8n stellt zwei grundlegende, vorhandene Knoten (&#8222;Nodes&#8220;) bereit, die diesen Prozess perfekt abwickeln. Es ist wichtig zu verstehen, was jeder einzelne Knoten tut.<\/p>\n\n\n\n<div class=\"wp-block-uagb-image uagb-block-d63be9b1 wp-block-uagb-image--layout-default wp-block-uagb-image--effect-static wp-block-uagb-image--align-none\"><figure class=\"wp-block-uagb-image__figure\"><img decoding=\"async\" srcset=\"https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/09\/web-scraping_EN.png ,https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/09\/web-scraping_EN.png 780w, https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/09\/web-scraping_EN.png 360w\" sizes=\"auto, (max-width: 480px) 150px\" src=\"https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/09\/web-scraping_EN.png\" alt=\"\" class=\"uag-image-25410\" width=\"1400\" height=\"361\" title=\"web-scraping_EN\" loading=\"lazy\" role=\"img\"\/><\/figure><\/div>\n\n\n\n<p><\/p>\n\n\n\n<p>Der erste ist der n8n-HTTP-Request-Knoten. Dies ist dein Tool zum Abrufen der Webseite. Du gibst ihm eine URL und es gibt dir den vollst\u00e4ndigen HTML-Quellcode f\u00fcr diese Seite zur\u00fcck. Die Seite wird nicht gerendert und kein JavaScript ausgef\u00fchrt. Es erfasst lediglich den Rohcode, in dem genau das enthalten ist, was wir f\u00fcr die h\u00e4ufigste und effizienteste Art des Scrapings ben\u00f6tigen.<\/p>\n\n\n\n<p>Der zweite ist der HTML-Knoten. Dies ist dein Parsing-Tool. Du f\u00fctterst ihn mit dem Roh-HTML aus dem vorherigen Schritt und kannst zur Lokalisation und Extraktion von spezifischen Daten CSS-Selektoren verwenden &#8211; dieselben Selektoren, die zur Gestaltung von Webseiten verwendet werden. Dieser zweistufige Ansatz ist unglaublich flexibel, da er den Vorgang des Abrufens vom Vorgang des Parsens trennt und so das Erstellen und Debuggen deiner Arbeitsabl\u00e4ufe erleichtert.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"simple-scraping-how-to-extract-html-content-with-t\">Einfaches Scraping: So extrahierst du HTML-Inhalte mit dem HTTP-Request-Knoten<\/h2>\n\n\n\n<p>Lass uns ein praktisches Beispiel f\u00fcr das Scrapen mit n8n durchgehen. Unser Ziel wird es sein, eine einfache n8n-Data-Scraping-Aufgabe durchzuf\u00fchren: das Extrahieren der Titel der neuesten Blog-Beitr\u00e4ge von einer Webseite.<\/p>\n\n\n\n<p><strong>Schritt 1: Rufe die Seite mit dem HTTP-Request-Knoten ab<\/strong><br>F\u00fcge zun\u00e4chst einen n8n-<strong>HTTP-Request<\/strong>-Knoten zu deinem Workflow hinzu.<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Im <strong>URL<\/strong>-Feld gibst du die vollst\u00e4ndige URL der Seite ein, die du durchsuchen m\u00f6chtest.<\/li>\n\n\n\n<li>Belasse die <em>Method<\/em> als <code>GET<\/code>.<\/li>\n\n\n\n<li>F\u00fchre den Knoten aus (Falls es zu Problemen kommt: L\u00f6sungen f\u00fcr den Fehler <code>403 Forbidden<\/code> findest du weiter unten).<\/li>\n<\/ul>\n\n\n\n<p><strong>Schritt 2: Analysiere die Titel mit dem HTML-Knoten<\/strong><br>Sobald du den HTML-Code hast, verbinde einen <strong>HTML<\/strong>-Knoten mit der Ausgabe des HTTP-Request-Knotens. Hier wenden wir das n8n-HTML-Scraping an.<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Gib als <em>Operation<\/em> <strong>&#8222;Extract HTML Content&#8220;<\/strong> ein.<\/li>\n\n\n\n<li>In der <em>Extraction Values<\/em>-Tabelle m\u00fcssen wir dem Knoten mitteilen, wonach er suchen soll.\n<ul class=\"wp-block-list\">\n<li>Als <em>Key <\/em>gibst du type <code>title<\/code> ein. Dies ist nur ein Label f\u00fcr die Daten, die wir extrahieren.<\/li>\n\n\n\n<li>Gib f\u00fcr den <em>CSS<\/em> <em>Selector<\/em> den spezifischen Selektor ein, der auf das gew\u00fcnschte Element abzielt. Du findest ihn, indem du in deinem Browser mit der rechten Maustaste auf das Element klickst und &#8222;Inspect&#8220; w\u00e4hlst. Klicke im sich \u00f6ffnenden Entwicklerfenster mit der rechten Maustaste auf das hervorgehobene HTML-Element und w\u00e4hle <strong>Copy >Copy selector<\/strong>. Dadurch wird der genaue CSS-Selektor in deine Zwischenablage kopiert, den du dann direkt in den n8n-HTML-Knoten einf\u00fcgen kannst.<\/li>\n\n\n\n<li>W\u00e4hle als <em>Return Value<\/em> <strong>&#8222;Text&#8220;<\/strong> aus.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li>F\u00fchre den Knoten aus. Die Ausgabe ist eine saubere Liste des von dir extrahierten Textinhalts.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">Fehlerbehebung bei einem 403 Forbidden Fehler<\/h3>\n\n\n\n<p>Mach dir keine Sorgen, wenn du direkt einen <code>403 Forbidden<\/code>-Fehler in Schritt 1 erh\u00e4ltst. Das kommt sehr h\u00e4ufig vor. Es bedeutet, dass der Server der Webseite deine Anfrage als von einem automatisierten Skript stammend erkannt hat (was es auch ist) und sie blockiert hat. Der h\u00e4ufigste Grund hierf\u00fcr ist ein fehlender User-Agent.<a href=\"https:\/\/docs.n8n.io\/integrations\/builtin\/core-nodes\/n8n-nodes-base.httprequest\/common-issues\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\"><\/a><\/p>\n\n\n\n<p>Ein User-Agent ist eine Zeichenfolge, die dem Server mitteilt, welche Art von Browser die Anfrage stellt. Standardm\u00e4\u00dfig sendet der HTTP-Request-Knoten von n8n eine technische Anfrage, die leicht zu erkennen ist.<\/p>\n\n\n\n<p><strong>Wie man es behebt (erster Schritt):<\/strong> Du musst daf\u00fcr sorgen, dass deine Anfrage so aussieht, als k\u00e4me sie von einem echten Webbrowser.<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Suche im <strong>HTTP-Request<\/strong>-Knoten den <em>Header<\/em>-Abschnitt.<\/li>\n\n\n\n<li>Klicke auf <strong>Add Header<\/strong>.<\/li>\n\n\n\n<li>Gib im <em>Name<\/em>-Feld <code>User-Agent<\/code> ein.<\/li>\n\n\n\n<li>F\u00fcge im <em>Wert<\/em>-Feld eine g\u00e4ngige Browser-User-Agent-Zeichenfolge ein. Eine sichere und h\u00e4ufig verwendete ist:<br><code>Mozilla\/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit\/537.36 (KHTML wie Gecko) Chrome\/108.0.0.0 Safari\/537.36<\/code><\/li>\n\n\n\n<li>F\u00fchre den Knoten erneut aus. In den meisten F\u00e4llen sollte das Hinzuf\u00fcgen dieses Headers den 403-Fehler beheben und dir erm\u00f6glichen, den HTML-Code der Seite erfolgreich abzurufen.<\/li>\n<\/ol>\n\n\n\n<p>Wenn der User-Agent-Fix nicht funktioniert, ist die IP-Adresse deines Servers ein weiterer h\u00e4ufiger Grund f\u00fcr die Blockade. Du kannst die Konfiguration des <strong>HTTP-Request<\/strong>-Knotens zur Verwendung eines Proxyservers ab\u00e4ndern, indem du eine Proxy-Option zum Knoten hinzuf\u00fcgst. Dadurch wird deine Anfrage \u00fcber eine andere IP-Adresse weitergeleitet, wodurch h\u00e4ufig einfache IP-basierte Blockaden umgangen werden k\u00f6nnen.<\/p>\n\n\n\n<p><strong>Und was, wenn das auch nicht funktioniert? (N\u00e4chster Schritt):<\/strong><br>Wenn du immer noch einen 403-Fehler erh\u00e4ltst, verwendet die Webseite wahrscheinlich einen fortschrittlicheren Bot-Erkennungsdienst (wie Cloudflare), der Anfragen von bekannten IP-Adressen von Rechenzentren, einschlie\u00dflich der Cloud-Server von n8n, blockiert. Der User-Agent ist korrekt, aber die Quelle der Anfrage wird markiert.<a href=\"https:\/\/community.n8n.io\/t\/http-request-blocked-by-cloudflare-403-forbidden-just-a-moment-page\/188889\" target=\"_blank\" rel=\"noreferrer noopener nofollow\"><\/a><\/p>\n\n\n\n<p>In diesem Szenario ist es am besten, mit den Verfahren im Abschnitt &#8222;Fortgeschrittenes Scraping&#8220; sp\u00e4ter in diesem Artikel fortzufahren. Du musst einen Residential-Proxy oder einen speziellen Scraping-API-Dienst verwenden, der deine Anfrage \u00fcber einen echten Browser an eine private IP-Adresse weiterleitet, sodass sie nicht von einem normalen Benutzer zu unterscheiden ist.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Bereinigen und Formatieren deiner Scraping-Daten<\/h3>\n\n\n\n<p>Oftmals sind die von dir extrahierten Daten nicht vollkommen bereinigt. Es enth\u00e4lt m\u00f6glicherweise zus\u00e4tzliche Leerzeichen oder unerw\u00fcnschte Zeichen oder muss in ein anderes Format konvertiert werden. Du kannst dies direkt in n8n bearbeiten. F\u00fcr eine einfache Bereinigung kannst du spezielle Ausdr\u00fccke verwenden. Um beispielsweise f\u00fchrende\/nachgestellte Leerzeichen aus einem Titel zu entfernen, kannst du <code>{{ $json.title.trim() }}<\/code> verwenden.<\/p>\n\n\n\n<p>F\u00fcr komplexere Transformationen ist der <strong>Code<\/strong>-Knoten dein bester Freund. Mit diesem Knoten kannst du einen kleinen JavaScript-Ausschnitt schreiben, um deine Daten zu verarbeiten. Du kannst damit W\u00e4hrungssymbole aus einem Preis entfernen, ein Datumsformat konvertieren oder einen vollst\u00e4ndigen Namen in einen Vor- und Nachnamen aufteilen. Durch die Durchf\u00fchrung dieses Bereinigungsschritts wird sichergestellt, dass die anschlie\u00dfend gespeicherten Daten einheitlich aufbereitet sind und analysiert werden k\u00f6nnen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"n8n-advanced-scraping-handling-dynamic-pages-with\">n8n Fortgeschrittenes Scraping: Umgang mit dynamischen Seiten mit dem ultimativen Scraper-Workflow<\/h2>\n\n\n\n<p>Die einfache HTTP-Request-Methode ist schnell und effizient, st\u00f6\u00dft jedoch bei modernen Webseiten an ihre Grenzen. Wenn eine Website zum Laden von Inhalten auf JavaScript angewiesen ist oder durch Dienste wie Cloudflare gesch\u00fctzt ist, erh\u00e4ltst du h\u00e4ufig eine Fehlermeldung oder eine leere Seite. F\u00fcr diese Situationen ben\u00f6tigst du einen leistungsf\u00e4higeren Ansatz f\u00fcr das erweiterte n8n-Scraping.<\/p>\n\n\n\n<p>W\u00e4hrend n8n \u00fcber keinen nativen n8n-Selenium-Knoten zur direkten Steuerung eines Browsers verf\u00fcgt, hat die Community leistungsstarke Knoten erstellt, die dedizierte Scraping-Dienste integrieren. Diese Dienste \u00fcbernehmen die gesamte komplexe Backend-Arbeit &#8211; wie das Ausf\u00fchren echter Browser, das Rotieren von Proxys und das L\u00f6sen von CAPTCHAs &#8211; und stellen dir einen einfachen Knoten zur Verf\u00fcgung, den du in deinem Workflow verwenden kannst. Dies ist oft die beste und einfachste M\u00f6glichkeit, schwierige Scraping-Aufgaben zu bew\u00e4ltigen.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-der-beste-weg-verwendung-eines-dedizierten-community-knotens-fur-scraping\">Der beste Weg: Verwendung eines dedizierten Community-Knotens f\u00fcr Scraping<\/h3>\n\n\n\n<p>F\u00fcr die meisten Benutzer besteht die effektivste M\u00f6glichkeit zum Scrapen einer dynamischen oder gesch\u00fctzten Website darin, einen Community-Knoten zu verwenden, der mit Diensten wie <strong>ScrapeNinja<\/strong> oder <strong>Firecrawl<\/strong> integriert werden kann. Hierbei handelt es sich nicht nur um einfache Browserdienste, sondern um spezielle Scraping-APIs, die darauf ausgelegt sind, Anti-Bot-Ma\u00dfnahmen zu umgehen.<\/p>\n\n\n\n<p>Ein tolles Beispiel f\u00fcr diese Methode ist die Verwendung eines Knotens wie ScrapeNinja:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>Installiere den Community-Knoten:<\/strong> Gehe in deiner n8n-Instanz zu <em>Einstellungen &gt; Community-Knoten<\/em> und installiere den Knoten f\u00fcr den von dir gew\u00e4hlten Dienst (z. B. ).<\/li>\n\n\n\n<li><strong>F\u00fcge den Knoten zu deinem Workflow hinzu:<\/strong> Nach der Installation findest du einen neuen <strong>ScrapeNinja<\/strong>-Knoten in deinem Knotenpanel. F\u00fcge ihn deinem Workflow hinzu.<\/li>\n\n\n\n<li><strong>Konfiguriere den Scrape:<\/strong>\n<ul class=\"wp-block-list\">\n<li>F\u00fcge deinen API-Schl\u00fcssel aus dem Dienst hinzu.<\/li>\n\n\n\n<li>Gib die URL ein, die du scrapen m\u00f6chtest.<\/li>\n\n\n\n<li>Passe <em>Mode<\/em> oder <em>Operation<\/em> an und w\u00e4hle einen, welcher JavaScript-Rendering erm\u00f6glicht (z. B. &#8222;Scrape JS&#8220;). Dadurch wird der Dienst angewiesen, die Seite in einem echten Browser zu laden.<a href=\"https:\/\/scrapeninja.net\/docs\/n8n\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\"><\/a><\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong>Daten extrahieren:<\/strong> Diese Dienste umfassen h\u00e4ufig integrierte Parser. Du kannst CSS-Selektoren direkt im Knoten bereitstellen, um die ben\u00f6tigten Daten zu extrahieren, oder du kannst den vollst\u00e4ndigen, gerenderten HTML-Code an einen Standard-n8n-<strong>HTML<\/strong>-Knoten zum Parsen weiterreichen.<\/li>\n<\/ol>\n\n\n\n<p>Die Verwendung eines dedizierten Community-Knotens wie diesem ist der empfohlene Ansatz f\u00fcr das Scraping mit n8n auf schwierigen Webseiten, da auf diese Weise ein gro\u00dfer Teil der Komplexit\u00e4t beseitigt werden kann. Der Dienst \u00fcbernimmt f\u00fcr dich die Browserautomatisierung, Proxy-Rotation und Anti-Bot-Herausforderungen, sodass du dich auf die Daten konzentrieren kannst. Dieser Workflow zuverl\u00e4ssiger und einfacher zu warten als eine Browser-Integration selbst zu verwalten.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"from-data-to-insight-leveraging-ai-for-post-scrapi\">Von Daten zu Erkenntnissen: Verwendung von KI f\u00fcr die Post-Scraping-Analyse<\/h2>\n\n\n\n<p>Das Scrapen von Daten ist nur der erste Schritt. Der wahre Wert ergibt sich aus dem, was du damit machst. Nach dem n8n-HTML-Scraping bleibt h\u00e4ufig roher, unstrukturierter Text zur\u00fcck. Hier kann KI deinen Workflow in etwas wirklich Leistungsf\u00e4higes verwandeln.<\/p>\n\n\n\n<p>Durch die Verbindung eines KI-Knotens wie <strong>OpenAI<\/strong> oder <strong>Google Gemini<\/strong> im Anschluss an deinen HTML-Knoten kannst du den erhaltenen Inhalt sofort bereinigen, strukturieren und analysieren. Stell dir zum Beispiel vor, du hast Kundenrezensionen f\u00fcr ein Produkt gesammelt. Der Rohtext ist chaotisch und vielseitig. Du kannst jede Bewertung mit einer Eingabe wie der folgenden an einen KI-Knoten \u00fcbergeben.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>&#8222;Extrahiere aus dem folgenden Bewertungstext die Stimmung (positiv, negativ oder neutral), identifiziere die genannten Hauptmerkmale und weise eine Bewertung von 1 bis 5 zu. Antworte im JSON-Format.&#8220;<\/p>\n<\/blockquote>\n\n\n\n<p>Die KI gibt ein sauberes, strukturiertes JSON-Objekt zur\u00fcck, das etwa so aussieht:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\"><code>{<br>  \"Stimmung\": \"Positiv\",<br>  \"Erw\u00e4hnte Hauptmerkmale\": [\"Akkulaufzeit\", \"Bildschirmqualit\u00e4t\"],<br>  \"Bewertung\": 5<br>}<\/code><\/pre>\n\n\n\n<p>Anschlie\u00dfend kannst du diese strukturierten Daten mithilfe von Knoten wie <strong>Postgres<\/strong> oder <strong>Google Sheets<\/strong> direkt in eine Datenbank oder ein Spreadsheet einf\u00fcgen. Dadurch wird dein Scraping-Workflow zu einer leistungsstarken n8n-Datenpipeline, die un\u00fcbersichtliche Webinhalte automatisch in wertvolle, analysebereite Erkenntnisse umwandelt.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"practical-workflow-n8n-lead-generation-funnel-auto\">Praktischer Workflow: n8n-Automatisierung der Lead-Generierung<\/h2>\n\n\n\n<p>Lass uns diese Konzepte zusammenfassen, um einen praktischen Workflow f\u00fcr die n8n-Lead-Generierung zu erstellen. Ziel ist es, potenzielle Kunden \u00fcber eine Verzeichnis-Webseite zu finden und sie einer Lead-Liste hinzuzuf\u00fcgen. Dadurch wird eine Aufgabe automatisiert, die manuell Stunden dauern w\u00fcrde.<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>Verzeichnis durchsuchen:<\/strong> Beginne damit, ein lokales Branchenverzeichnis zu scrapen (z. B. eine Liste von Marketingagenturen in einer bestimmten Stadt). Verwende den <strong>HTTP-Request<\/strong> oder die Scraping-Knoten von Drittanbietern und <strong>HTML<\/strong>-Knoten, um den Firmennamen und die Webseiten-URL f\u00fcr jeden Eintrag zu extrahieren.<\/li>\n\n\n\n<li><strong>Kontakt-E-Mail finden:<\/strong> Verwende f\u00fcr jede von dir durchsuchte Unternehmenswebseite einen Dienst wie Hunter.io, um eine \u00f6ffentlich aufgef\u00fchrte E-Mail-Adresse zu finden. n8n verf\u00fcgt \u00fcber einen dedizierten <strong>Hunter<\/strong>-Knoten, den du f\u00fcr diesen Zweck verwenden kannst.<\/li>\n\n\n\n<li><strong>Filtern und Anreichern:<\/strong> F\u00fcge einen <strong>IF<\/strong>-Knoten hinzu, um alle Unternehmen herauszufiltern, f\u00fcr die du keine E-Mail finden konntest. F\u00fcr die g\u00fcltigen Leads kannst du sogar einen <strong>OpenAI<\/strong>-Knoten verwenden, um ihre Webseite zu besuchen (unter Verwendung der Scraping-Technik aus Schritt 1) \u200b\u200bund eine personalisierte Er\u00f6ffnungszeile f\u00fcr eine E-Mail entwerfen, die auf Informationen ihrer &#8222;\u00dcber uns&#8220;-Seite basiert.<\/li>\n\n\n\n<li><strong>Zur Lead-Liste hinzuf\u00fcgen:<\/strong> Verwende den <strong>Google Sheets<\/strong>&#8211; oder <strong>Airtable<\/strong>-Knoten, um den Firmennamen, die Webseite und die Kontakt-E-Mail-Adresse an deine Master-Lead-Liste anzuh\u00e4ngen.<\/li>\n<\/ol>\n\n\n\n<p>Dieser Workflow automatisiert den gesamten Top-of-Funnel-Prozess, erspart deinem Vertriebsteam Stunden der manuellen Akquise und erm\u00f6glicht es ihm, sich auf den Aufbau von Beziehungen zu konzentrieren.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"n8n-scaling-how-to-build-robust-and-scalable-web-s\">n8n-Skalierung: Aufbau robuster und effizienter Web-Scraping-Workflows<\/h2>\n\n\n\n<p>Wenn dein n8n-Web-Scraping-Projekt von wenigen Seiten auf Hunderte oder Tausende anw\u00e4chst, muss sich dein Workflow-Design weiterentwickeln. Ein einfacher, linearer Workflow f\u00fchrt schnell zu Leistungsengp\u00e4ssen oder wird blockiert. F\u00fcr eine erfolgreiche n8n-Skalierung musst du modulare und resiliente Workflows erstellen, welche die von dir ausgewerteten Server respektvoll behandeln.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Verwalte Parallelit\u00e4t, um \u00dcberlastung zu vermeiden<\/h3>\n\n\n\n<p>Ein h\u00e4ufiger Fehler besteht darin, eine Liste mit 1.000 URLs abzurufen und diese sofort an einen HTTP-Request-Knoten zu \u00fcbergeben. Standardm\u00e4\u00dfig versucht n8n, alle 1.000 Anfragen parallel auszuf\u00fchren, was zum Absturz deiner n8n-Instanz f\u00fchren kann und mit ziemlicher Sicherheit zur Blockierung deiner IP-Adresse f\u00fchrt.<a rel=\"noreferrer noopener nofollow\" target=\"_blank\" href=\"https:\/\/pixeljets.com\/blog\/web-scraping-in-n8n\/\"><\/a><\/p>\n\n\n\n<p>Der richtige Ansatz besteht darin, die Parallelit\u00e4t zu kontrollieren.<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Loop-Over-Items-Knoten verwenden:<\/strong> F\u00fcge vor deinem HTTP-Request-Knoten einen Loop-Over-Items-Knoten ein. Konfiguriere ihn auf eine kleine Ausf\u00fchrungsgr\u00f6\u00dfe, z. B. 5 oder 10. Dadurch wird sichergestellt, dass n8n immer nur eine kleine Anzahl von URLs gleichzeitig bearbeitet.<\/li>\n\n\n\n<li><strong>Wait-Knoten hinzuf\u00fcgen:<\/strong> Nachdem jede Ausf\u00fchrung verarbeitet wurde, kannst du einen Wait-Knoten hinzuf\u00fcgen, um den Workflow f\u00fcr einige Sekunden anzuhalten. Diese Drosselung ist n\u00fctzlich, um Limit\u00fcberschreitungen zu vermeiden und den Eindruck eines nat\u00fcrlicheren Benutzers zu erwecken.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-grosse-workflows-in-sub-workflows-unterteilen\">Gro\u00dfe Workflows in Sub-Workflows unterteilen<\/h3>\n\n\n\n<p>Ein einzelner, umfangreicher Workflow, der alles erledigt (URLs abruft, Seiten durchsucht, Daten bereinigt, in einer Datenbank speichert) ist schwer zu debuggen und zu warten. Eine viel bessere Vorgehensweise f\u00fcr komplexe Scraping-Aufgaben besteht darin, kleinere, modulare Sub-Workflows zu erstellen.<a href=\"https:\/\/zeeshan.p2pclouds.net\/books\/development\/5\/n8n-guide-16-game-changing-lessons-from-zeeshanali-website.pdf\" target=\"_blank\" rel=\"noreferrer noopener nofollow\"><\/a><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Master Workflow:<\/strong> Ein &#8222;Master&#8220; Workflow, der den Gesamtprozess orchestriert. Seine Aufgabe besteht lediglich darin, die Liste der URLs abzurufen und diese dann jeweils an einen Sub-Workflow zu \u00fcbergeben.<\/li>\n\n\n\n<li><strong>Sub-Workflow Scraping:<\/strong> Dieser Workflow wird durch den &#8222;Master&#8220; mit einem <strong>Execute Sub-Workflow<\/strong>-Knoten ausgel\u00f6st. Es nimmt eine einzelne URL als Eingabe, f\u00fchrt den Scraping durch, bereinigt die Daten und gibt dann das strukturierte Ergebnis zur\u00fcck.<\/li>\n<\/ul>\n\n\n\n<p>Dieser modulare Aufbau erleichtert die Fehlerbehebung bei n8n erheblich. Wenn ein bestimmter Teil des Prozesses fehlschl\u00e4gt, musst du nur diesen einen kleinen, fokussierten Workflow debuggen.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Implementiere eine robuste Fehlerbehandlung<\/h3>\n\n\n\n<p>Bei jeder gro\u00df angelegten Scraping-Aufgabe sind Misserfolge unvermeidlich. M\u00f6glicherweise ist eine Webseite nicht verf\u00fcgbar, ihr Layout \u00e4ndert sich oder dein Proxy f\u00e4llt aus. Dein Workflow muss damit umgehen k\u00f6nnen, ohne dass er ganz zum Stillstand kommt.<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Verwende Continue-on-Fail:<\/strong> F\u00fcr jeden Knoten, der ausfallen kann (wie der <strong>HTTP-Request<\/strong> oder der <strong>HTML<\/strong>-Knoten), gehe zu seinem <em>Einstellungen<\/em>-Tab und w\u00e4hle auf der Registerkarte &#8222;Bei Fehler&#8220; die Option &#8222;Weiter (mit Fehlerausgabe)&#8220; aus.<\/li>\n\n\n\n<li><strong>Fehlerpfad erstellen:<\/strong> Dadurch wird eine zweite &#8222;Fehler&#8220;-Ausgabe auf dem Knoten erzeugt. Verbinde dies mit einem separaten Zweig deines Workflows, der den Fehler protokolliert. Du kannst es beispielsweise mit einem <strong>Google Sheets<\/strong>-Knoten verbinden, der so konfiguriert ist, eine neue Zeile an ein Fehlerprotokoll-Dokument anzuh\u00e4ngen und dabei die fehlgeschlagene URL sowie die spezifische Fehlermeldung abspeichert. Auf diese Weise kannst du fehlerhafte Elemente sp\u00e4ter \u00fcberpr\u00fcfen und erneut verarbeiten.<\/li>\n<\/ul>\n\n\n\n<p>Durch die \u00dcbernahme dieser Skalierungspraktiken kannst du n8n-Web-Scraping-Workflows erstellen, die nicht nur leistungsstark, sondern auch stabil, effizient und einfach zu verwalten sind, wenn dein Datenbedarf w\u00e4chst.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"n8n-web-scraping-faq\">n8n Web-Scraping FAQ<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Ist Web-Scraping legal?<\/strong><br>Es handelt sich um eine rechtliche Grauzone. Um auf dem rechten Weg zu bleiben, \u00fcberpr\u00fcfe immer die <code>robots.txt<\/code>-Datei der Webseite, \u00fcberlaste niemals einen Server mit zu vielen Anfragen und vermeide das Scrapen pers\u00f6nlicher Daten oder urheberrechtlich gesch\u00fctzter Inhalte. Sei im Zweifelsfall besonders vorsichtig.<\/li>\n\n\n\n<li><strong>Wie gehe ich mit Webseiten um, die eine Anmeldung erfordern?<\/strong><br>Wenn Webseiten eine Anmeldung erfordern, musst du eine Session verwalten. Du kannst dies tun, indem du dich zun\u00e4chst mit deinem Browser anmeldest und dessen Entwicklertools (normalerweise unter der Registerkarte &#8222;Netzwerk&#8220; oder &#8222;Anwendung&#8220;) verwendest, um den Sitzungscookie zu finden. Anschlie\u00dfend kannst du diesen Cookie-Wert kopieren und als Header in den Einstellungen deines <strong>HTTP-Request<\/strong> Knotens hinzuf\u00fcgen. Dadurch sehen deine Anfragen so aus, als k\u00e4men sie von deiner angemeldeten Browsersitzung.<\/li>\n\n\n\n<li><strong>Was passiert, wenn sich das Layout der Webseite \u00e4ndert?<\/strong><br>Dies ist die gr\u00f6\u00dfte Herausforderung und eine unvermeidliche Realit\u00e4t beim Web-Scraping. Wenn eine Webseite ihre Seiten neu gestaltet, werden deine CSS-Selektoren wahrscheinlich unbrauchbar und dein Workflow wird fehlschlagen. Die einzige L\u00f6sung besteht darin, zu deinem <strong>HTML<\/strong>-Knoten zur\u00fcckzukehren und die Selektoren an das neue Layout anzupassen. F\u00fcr die Erstellung robuster Scraper muss man in Kauf nehmen, dass sie f\u00fcr die Gew\u00e4hrleistung eines reibungslosen Betriebs gelegentlich gewartet werden m\u00fcssen.<\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Bist du bereit, deine Datenerfassung von jeder Webseite zu automatisieren? Dieser umfangreiche Guide zeigt dir, wie du mit n8n scrapen kannst. Wir beginnen mit den Grundlagen zur Verwendung von HTTP-Request und HTML-Knoten f\u00fcr die Datenextraktion von einfachen Seiten und pr\u00e4sentieren eine Schritt-f\u00fcr-Schritt-Anleitung zur Behebung des h\u00e4ufigen 403-Forbidden Fehlers. Anschlie\u00dfend behandeln wir fortgeschrittene Techniken zum Scraping dynamischer, JavaScript-lastiger Webseiten mithilfe leistungsstarker Community-Knoten. Du lernst au\u00dferdem wichtige Best Practices f\u00fcr die Skalierung deiner Scraping-Workflows, den eleganten Umgang mit Fehlern und die Umwandlung von Rohdaten in wertvolle Erkenntnisse mit KI kennen.<\/p>\n","protected":false},"author":63,"featured_media":25407,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"inline_featured_image":false,"_uag_custom_page_level_css":"","site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"set","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"footnotes":""},"categories":[1399],"tags":[3201,3185,3203,3202,3200,3199,3195,3198,3197,3196],"ppma_author":[1492],"class_list":["post-25697","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tutorials","tag-daten-scraping","tag-n8n-de","tag-n8n-fehlerbehebung","tag-n8n-fortgeschrittenes-scraping","tag-n8n-html-scraping-de","tag-n8n-http-request-de","tag-n8n-skalierung","tag-n8n-web-scraping-de","tag-web-scraping-de","tag-wie-man-mit-n8n-scrapt"],"uagb_featured_image_src":{"full":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/09\/blog-head_the-ultimate-n8n-web-scraping-guide_EN.jpg",1200,630,false],"thumbnail":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/09\/blog-head_the-ultimate-n8n-web-scraping-guide_EN-150x150.jpg",150,150,true],"medium":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/09\/blog-head_the-ultimate-n8n-web-scraping-guide_EN-600x315.jpg",600,315,true],"medium_large":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/09\/blog-head_the-ultimate-n8n-web-scraping-guide_EN-768x403.jpg",768,403,true],"large":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/09\/blog-head_the-ultimate-n8n-web-scraping-guide_EN.jpg",1200,630,false],"1536x1536":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/09\/blog-head_the-ultimate-n8n-web-scraping-guide_EN.jpg",1200,630,false],"2048x2048":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/09\/blog-head_the-ultimate-n8n-web-scraping-guide_EN.jpg",1200,630,false]},"uagb_author_info":{"display_name":"Christopher Carter","author_link":"https:\/\/contabo.com\/blog\/de\/author\/christophercarter\/"},"uagb_comment_info":0,"uagb_excerpt":"Bist du bereit, deine Datenerfassung von jeder Webseite zu automatisieren? Dieser umfangreiche Guide zeigt dir, wie du mit n8n scrapen kannst. Wir beginnen mit den Grundlagen zur Verwendung von HTTP-Request und HTML-Knoten f\u00fcr die Datenextraktion von einfachen Seiten und pr\u00e4sentieren eine Schritt-f\u00fcr-Schritt-Anleitung zur Behebung des h\u00e4ufigen 403-Forbidden Fehlers. Anschlie\u00dfend behandeln wir fortgeschrittene Techniken zum Scraping&hellip;","authors":[{"term_id":1492,"user_id":63,"is_guest":0,"slug":"christophercarter","display_name":"Christopher Carter","avatar_url":"https:\/\/secure.gravatar.com\/avatar\/63db81672a5ce4c1e8ee39753d00251d561b5b3a9967febf1c4f662024cef00f?s=96&d=mm&r=g","0":null,"1":"","2":"","3":"","4":"","5":"","6":"","7":"","8":""}],"_links":{"self":[{"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/posts\/25697","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/users\/63"}],"replies":[{"embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/comments?post=25697"}],"version-history":[{"count":3,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/posts\/25697\/revisions"}],"predecessor-version":[{"id":25702,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/posts\/25697\/revisions\/25702"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/media\/25407"}],"wp:attachment":[{"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/media?parent=25697"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/categories?post=25697"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/tags?post=25697"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/ppma_author?post=25697"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}