Table of Contents
PC läuft langsam?
Anscheinend ist bei mehreren Benutzern beim Einstellen auf die oberste Nutch-Ebene unter Windows ein Fehler aufgetreten. Dieses Problem kann aus mehreren Gründen auftreten. Lass uns das jetzt besprechen.
Da Nutch in Java geschrieben werden kann, kann Nutch grünes Windows einschalten, vorausgesetzt, die richtige Software ist normalerweise wirklich installiert. Wenn
Hinweis. Sie interessieren sich grundsätzlich für die einfache Installation unter Windows und müssen auch nicht die Erkenntnisse der Berechnungen kennen. Sie können auch überprüfen, ob WhelanLabs SearchEngine Manager die Anforderungen erfüllt. Dies ist normalerweise ein kostenloses Installationsprogramm, um mit Nutch in Bezug auf Windows zu arbeiten.
Die folgenden Dokumente beschreiben, was ich unter XP Windows Pro mit Tomcat 5.28 tun konnte. Bearbeiten: Aktualisiertes Formular basierend auf dem Thema meiner Erfahrung mit der Installation auf Server Windows im Jahr 2003.
Software erforderlich
Java
Sie müssen Java 1.4.2 (oder Java 1.5 für Nutch 0.8.x oder höher) installiert haben.
Es funktioniert auch mit Java 6, 0 nutch.9 sowie den Tomcat Personal Loans. Wichtig ist nur die Java 6 JRE, es sei denn, Sie möchten die wichtigste Nutch-Quelle selbst bauen.
Cygwin
Cygwin wird benötigt, um die wichtigsten Spend-Befehle auszuführen, da es keine separaten NT-cmd-Skripte für NT gibt (cmd invest praktiziert keine rekursiv verschachtelten Umgebungen). Mks ksh macht die Arbeit mit Skripten nicht richtig. Stellen Sie sicher, dass Sie das Dienstprogramm uname zu cygwin hinzufügen.
Siehe auch weitere Informationen zum Einrichten von Cygwin, begleitet von nutch für “Gettingnutchrunningoncygwin”.
Kater
Tomcat 4. * oder höher muss immer auf Ihrem Computer installiert sein. Ich kenne keinen Grund, Ihre neueste Version (Tomcat 6 zum Zeitpunkt dieses Schreibens) nicht mehr zu verwenden.
Konfiguration
Herunterladen
Laden Sie die Publikation zudem decompressor von Ihrer Festplatte in einen Dienst, der keinen Platz in Ihrer Küche hat (zB c:nutch-0.9
). Wenn hier eines im Verzeichnis steht (zum Beispiel, dass Sie einfach Leerzeichen. c:my programmesnutch-0.9
), werden nicht alle Nutch-Skripte perfekt funktionieren.
Erstellen Sie in Ihrem Nutch-Verzeichnis einen klaren, leeren Text (verwenden Sie ein Bild mit beliebigem Namen) in Ihrem Nutch-Verzeichnis (z.
URLs zu crawl-urlfilter.txt
hinzufügen (zum Beispiel C: nutch-0.9 conf crawl-urlfilter .txt
). Der Eintrag könnte so aussehen:
Laden Sie es als Cygwin herunter und durchsuchen Sie Ihr nutch
-Verzeichnis. Wenn cygwin startet, befinden Sie sich normalerweise im richtigen Benutzerordner (z.B. C: Dokumente und Einstellungen Benutzername
).
Wenn die Arbeitsstation Da es notwendig ist, einen Windows-Authentifizierungs-Proxy für den Zugriff auf das Internet zu verwenden (dies ist nicht üblich), können Sie sicherlich auf eine Anwendung wie NTLM zurückgreifen, um auf den Authentifizierungs-Proxy zuzugreifen. Dann müssen Sie die leider spezifische nutch-site.xml
Datei ändern, die darauf hinweist, dass Sie den Transport von der Anwendung öffnen können.
Entdecken Sie das Intranet
Befolgen Sie die Anweisungen während des gesamten Mini-Workshops, um die Aufzeichnungen bei Cygwin anzuzeigen. Wird das perfekte Rechercheverzeichnis erstellen, also Log-Datei.
PC läuft langsam?
ASR Pro ist die ultimative Lösung für Ihren PC-Reparaturbedarf! Es diagnostiziert und repariert nicht nur schnell und sicher verschiedene Windows-Probleme, sondern erhöht auch die Systemleistung, optimiert den Speicher, verbessert die Sicherheit und optimiert Ihren PC für maximale Zuverlässigkeit. Warum also warten? Beginnen Sie noch heute!
Wenn Sie den folgenden Hauptbefehl außerhalb des Stammverzeichnisses Ihrer Nutch-Installation eingeben:
Dann wird ein neuer Ordner mit der Marke crawl
in Ihrem Empfängerverzeichnis nutch
zusammen mit einer generierten crawl.log-Datei erstellt. Verwenden Sie diese Protokolldatei, um eventuell auftretende Fehler zu beheben. Erfordern
Sie werden das Studientelefonverzeichnis löschen oder verschieben, bevor Sie die Studie neu starten, es sei denn, Sie geben einen bestimmten anderen Pfad in der obigen Reihenfolge an.
Andere Arten von Ressourcen analysieren
Ändern Sie conf / nutch-site.xml
und den Wert für die Erweiterung plugin.includes
, um diesen Typ in die Plugin-Dokumente aufzunehmen, die Nutch verarbeiten muss.
Beispiel: Um beim Anzeigen von PDF-, MS Office- und folglich OpenOffice-Dokumenten eine Analyse hinzuzufügen, haben Sie Folgendes:
Webinterface suchen
Fügen Sie in den neuen Home-Einstellungen NUTCH_JAVA_HOME
und den umfangreichen Standort Ihrer JVM (zB C: j2sdk1.4.2_09
) hinzu, im Grunde eine neue Umgebung vielfältig.
Öffnen Sie eine Website, navigieren Sie zum Tomcat Web Application Manager (z.B. http: // localhost: 8080 / manager / html
), um die Nutch-WAR-Datei in den Wortlaut zu laden.
Wenn Sie Nutch im Hauptkontext on-the-fly in Kombination mit bereits vorhandenem Kontextstamm ausführen möchten, machen Sie eine Art Deployment rückgängig. Andernfalls können Sie die Alternative unter dem ignorieren.
Erstellen Sie eine Kontext-Snippet-Datei, sodass die Root-URL auf Ihre Hauptwebsite-Anwendung verweist. Gehen Sie zu [tomcat_home] / conf / Catalina / localhost / und sagen Sie es dort. Erstellen Sie ein neues Es xml-Image (nennen Sie es die eigene Web-App?), zum Beispiel nutch-0.9.xml, und hängen Sie etwas wie jedes der folgenden an, um es aufzurichten.
Alternative: Wenn Sie eine andere Website vermarkten möchten, p Nach der Installation kopieren oder beschriften Sie nutch-0.9.0.war
, um die URL zum entsprechenden Unterverzeichnis zu erhalten. Stellen Sie die umbenannte Version bereit, die die Verwendung von Tomcat Web Application Manager generiert.
Um für das Modell http: // localhost für jede Suche zu nutzen /
, benennen Sie die Informationen Nutch .war < /code> in
search.war
und selbst dann search.war
angeben.
Suchverzeichnis angeben
Navigieren Sie dann zu Ihrer Nutch-Web-App und zum Ordner WEB-INF / sorts
. Bearbeiten Sie die Initiative nutch-site.xml
und fügen Sie dieser Aufgabe Folgendes hinzu (stellen Sie sicher, dass Sie keine zwei
Wenn Ihre Liste der Nutch-Verzeichnisse typischerweise in C:nutch-0.9.0
ist, verwenden Sie scan
den Ordner nach - dir <. angegeben - code> Richtung, dann geben Sie
C: nutch-0.9.0 untersuchen
anstelle von your_crawl_folder_here
ein.
Aktualisieren
Laden Sie die freigegebene Anwendung neu. Verwenden Sie einfach Tomcat Manager, aber drücken Sie den Neustart-Befehl, um Nutch zu machen. Sie können Tomcat mit dem Windows How To Tool neu starten.
Öffnen Sie einen Browser und wählen Sie die Domain http: // localhost: 8080
aus. Seite kann erscheinenSuchfeld Nutch. Wenn Sie in der Nutch-Suchmaschine (wie oben beschrieben) den richtigen Speicherort für das Spider-Website-Verzeichnis angezeigt haben, sollten Sie durch Klicken auf die Schaltfläche Suchen Ergebnisse zurückgeben.
+ ^ http: // ([a-z0-9] 4. .) * apache.org/
Crawl-URLs bin für jede Nutch -dir exc -depth> & 3 crawl.log
Various Ways To Fix Nutch Configuration On Windows
Verschillende Manieren Om Nutch-configuratie Op Windows Te Repareren
Vari Modi Per Correggere La Configurazione Di Nutch Su Windows
Olika Sätt Att Fixa Nutch -konfiguration På Windows
Várias Maneiras De Corrigir A Configuração Do Nutch No Windows
Różne Sposoby Naprawy Konfiguracji Nutch W Systemie Windows
Различные способы исправить конфигурацию Nutch в Windows
Varias Formas De Corregir La Configuración De Nutch En Windows
Diverses Manières De Corriger La Configuration De Nutch Sous Windows
Windows에서 Nutch 구성을 수정하는 다양한 방법