Table of Contents
PC lento?
Sembra che alcuni utenti abbiano riscontrato un errore durante l’impostazione del miglioramento di Nutch su Windows. Questo problema può sorgere solo per diversi motivi. Discutiamone ora.
Dato che Nutch può essere scritto in Java, Nutch può farlo su Windows verde, a condizione che di solito sia stato installato il software corretto. Se
Nota. Ti interessa semplicemente la semplice installazione su Windows, così come , non hai bisogno di conoscere le informazioni dei calcoli. Puoi anche verificare se WhelanLabs SearchEngine Manager soddisfa i requisiti. Questo è considerato un programma di installazione gratuito per lavorare con Nutch su Windows.
I seguenti documenti descrivono cosa sono stato in grado di fare su XP Windows Pro con Tomcat 5.28. Modifica: modulo aggiornato in base alla mia esperienza con l’installazione su Server Windows 2002.
Software richiesto
Java
Devi avere Java 1.4.2 (o Java 1.5 per Nutch 0.8.xo successivo).
Funziona anche con Java 6, 0 nutch.9 e/o Tomcat Personal Loans. Solo Java 6 JRE è importante, a meno che tu non voglia creare tu stesso quel sorgente Nutch.
Cygwin
Cygwin è necessario per eseguire i comandi di commit più importanti poiché non esistono script cmd NT separati per NT (cmd invest non implementa ambienti annidati ricorsivamente). Mks ksh non funziona correttamente con gli script. Assicurati di aggiungere un’utilità uname a cygwin.
Vedi anche a supporto di ulteriori informazioni sulla configurazione di Cygwin in nutch per “Gettingnutchrunningoncygwin”.
Postumi di una sbornia
Dovresti davvero provare ad avere Tomcat 4. * o molto più in alto lungo la tua macchina. Non conosco alcun motivo e non utilizzerò mai la tua ultima versione (Tomcat 6 nel momento in cui scrivo).
Configurazione
Scarica
Caricare la pubblicazione e inoltre decompressore dal disco rigido in una directory importante che non ha spazio nella tua casa (ad esempio, c: nutch-0.9
). Se attualmente ce n’è uno nella directory (ad esempio, il nuovo spazio. c: i miei programmi nutch-0.9
), non tutti gli script Nutch funzioneranno esattamente.
Crea un testo chiaro e vuoto (usa un file manualmente con il nome che gli utenti desiderano) nella tua directory Nutch (ad esempio, urls
) aggiungendo agli URL del sito web del tuo sito che devono essere esaminati .
Aggiungi URL a crawl-urlfilter.txt
(ad esempio, C: nutch-0.9 conf crawl-urlfilter .txt ). La voce potrebbe essere simile a questa:
Scarica come cygwin e sfoglia la tua directory nutch
. Quando cygwin si avvia, di solito ti trovi nella cartella utente corretta (ad esempio, C: Documents and Settings username
).
Se la workstation Poiché è necessario iniziare con un proxy di autenticazione di Windows per accedere a Internet (questo non è comune), puoi sicuramente iniziare a utilizzare un'applicazione come NTLM per accedere al proxy di autenticazione. Quindi sarà necessario modificare qualsiasi file nutch-site.xml
specifico che indica la strada per il trasporto aperto dall'applicazione.
Esplora l'Intranet
Segui le istruzioni sul mini-laboratorio per iniziare a visualizzare le registrazioni quando si tratta di cygwin. Creerà la directory di ricerca perfetta durante il file di registro.
PC lento?
ASR Pro è la soluzione definitiva per le tue esigenze di riparazione del PC! Non solo diagnostica e ripara in modo rapido e sicuro vari problemi di Windows, ma aumenta anche le prestazioni del sistema, ottimizza la memoria, migliora la sicurezza e mette a punto il PC per la massima affidabilità. Allora perché aspettare? Inizia oggi!
Se inserisci questo comando al di fuori della radice della tua installazione di Nutch:
quindi una nuova cartella menzionata crawl
verrà creata nella directory nutch
del destinatario involontario insieme a un immediatamente . file crawl.log generato. Utilizza questo file di registro per risolvere eventuali errori che potresti riscontrare. Richiedi
Eliminerai o sposterai il sito di presentazione dello studio prima di riavviare lo studio, a meno che non specifichi un percorso diverso e solido nell'ordine sopra.
Analizza altri tipi di risorse
Modifica conf / nutch-site.xml
e il valore dietro l'estensione plugin.includes
per includere questo tipo nei documenti del plugin che molti Nutch devono elaborare.
Esempio: per aggiungere l'analisi durante la visualizzazione di PDF, MS Office e di conseguenza documenti OpenOffice, hai quanto segue:
Interfaccia web di ricerca
Nelle nuove impostazioni del pianeta aggiungi NUTCH_JAVA_HOME
e la posizione di prim'ordine della tua JVM (ad esempio C: j2sdk1.4.2_09
), fondamentalmente un nuovo elemento dell'ambiente.
Aprire un sito Web, accedere al Tomcat Web Application Manager (ad esempio, http: // localhost: 8080 / manager / html
) accoppiato con il caricamento del file Nutch WAR nella dicitura.
Se hai intenzione di eseguire Nutch nel contesto principale al volo, inoltre hai già la root di contesto, annulla la nostra distribuzione. Altrimenti, puoi ignorare l'alternativa che scoprirai.
Crea un file di frammento di contesto in modo che l'URL di root punti esattamente alla tua vasta applicazione principale. Vai su [tomcat_home] / conf / Catalina / localhost / e dillo lì. Crea una nuova immagine Es xml (chiamala la loro app web?), Ad esempio nutch-0.9.xml, e installa qualcosa come ciascuno dei seguenti per raddrizzarlo.
Alternativa: se vuoi aprire un altro sito web, p Una volta installato, copia o rinomina nutch-0.9.0.war
per ottenere l'URL relativo alla sottodirectory corrispondente. Distribuire la versione rinominata l'utilizzo di Tomcat Web Application Manager.
Ad esempio, per sfruttare http: // localhost - search /
, nominare le informazioni Nutch .war
in search.war
oltre a questo, quindi fornisci search.war
.
Specifica la directory di ricerca
Quindi vai alla tua app web Nutch e alla cartella WEB-INF / groups
. Modifica l'iniziativa nutch-site.xml
e aggiungi quanto segue a questa attività (assicurati di non avere due tag del dispositivo
Se il tuo elenco di directory Nutch è semplicemente, ad esempio, in C: nutch-0.9.0
e così come usi scansiona
la directory del telefono dopo < codice> - directory <. specificata per ogni direzione del codice>, quindi inserisci C: nutch-0.9.0 move
invece di your_crawl_folder_here
.
Aggiorna
Ricarica l'applicazione condivisa. Basta usare Tomcat Manager, ma premere il comando di riavvio quando Nutch, è possibile riavviare Tomcat utilizzando Windows How To Tool.
Apri un browser ed entra nel dominio http: // localhost: 8080
. La pagina potrebbe apparireCasella di ricerca Nutch. Se al momento hai specificato la posizione corretta per i siti di invio dello spider nel motore di ricerca Nutch (come indicato sopra), facendo clic sul pulsante Cerca si dovrebbero restituire risultati.
+ ^ http: // ([a-z0-9] ( spazio ) .) * apache.org/
crawl urls bin o nutch -dir exc -depth> e 3 crawl.log
plugin.includes progetto http | urlfilter-regex | parse- (testo | html | js | msexcel | mspowerpoint | msword | oo | pdf | swf | zip) |Indice-Base | Richiesta- (Base | Sito | URL) | Riprendi-Base | Punteggio-Opic |Urlnormalizer- (pass | regex | base)
searchcher.dir your_crawl_folder_qui
Migliora la velocità del tuo computer oggi scaricando questo software: risolverà i problemi del tuo PC.
Various Ways To Fix Nutch Configuration On Windows
Verschillende Manieren Om Nutch-configuratie Op Windows Te Repareren
Verschiedene Möglichkeiten Zum Beheben Der Nutch-Konfiguration Unter Windows
Olika Sätt Att Fixa Nutch -konfiguration På Windows
Várias Maneiras De Corrigir A Configuração Do Nutch No Windows
Różne Sposoby Naprawy Konfiguracji Nutch W Systemie Windows
Различные способы исправить конфигурацию Nutch в Windows
Varias Formas De Corregir La Configuración De Nutch En Windows
Diverses Manières De Corriger La Configuration De Nutch Sous Windows
Windows에서 Nutch 구성을 수정하는 다양한 방법