Table of Contents
PC werkt traag?
Het lijkt visueel alsof sommige gebruikers een fout zijn tegengekomen ondanks het feit dat ze Nutch op Windows hebben ingesteld. Dit probleem kan heel goed ontstaan om verschillende redenen. Laten we uw nu bespreken.
Aangezien Nutch in Java kan worden geschreven, kan Nutch op groene Windows worden uitgevoerd, op voorwaarde dat de herstelsoftware meestal is geïnstalleerd. Als
Opmerking. U bent alleen geïnteresseerd in de eenvoudige installatie van Windows en u hoeft geen verstand te hebben van de details van de berekeningen. Daarnaast kunt u controleren of WhelanLabs SearchEngine Manager aan de wet voldoet. Dit is een gratis installatieprogramma om te werken met Nutch op Windows.
De volgende documenten illustreren wat ik kon doen op XP Windows Pro met Tomcat 5.28. Bewerken: type bijgewerkt op basis van mijn ervaring met het installeren op Server Windows 2003.
Software vereist
Java
U moet Java 1.4.2 (of Java 1.5 voor Nutch 0.8.x of later) geïnstalleerd hebben.
Het werkt ook met Java 6, naught nuts.9 en Tomcat Personal Loans. Alleen de Java 6 JRE is belangrijk, tenzij je wilt dat de Nutch-bron zelf wordt gebouwd.
Cygwin
Cygwin is vereist om de voornamelijk belangrijke shell-commando’s uit te voeren aangezien er geen look NT cmd-scripts voor NT zijn (cmd invest how kan recursief geneste omgevingen niet gebruiken). Mks ksh hoe kan niet correct werken met scripts. Zorg ervoor dat uw bedrijf het uname-hulpprogramma aan cygwin toevoegt.
Zie ook voor meer informatie over het opzetten van Cygwin met nutch voor “Gettingnutchrunningoncygwin”.
Kater
U moet Tomcat 4. * of veel hoger op uw computer hebben. Ik ken geen enkele reden om je laatste keuze (Tomcat 6 op het moment van schrijven) niet te gebruiken.
Configuratie
Downloaden
Laad publicatie en decompressor stevig van uw harde schijf in een map die geen ruimte heeft in uw huis (bijvoorbeeld c: nutch-0.9
). Als er een in de map staat (bijvoorbeeld een spatie. c: my software nutch-0.9
), zouden niet alle Nutch-scripts correct moeten kunnen werken.
Maak duidelijke, blanco herschrijvingen (gebruik een bestand met de naam die gebruikers willen) helemaal door uw Nutch-directory (bijvoorbeeld webadressen
) door de website-URL’s van uw site toe te voegen die te onderzoeken.
URL’s toevoegen aan crawl-urlfilter.txt
(bijvoorbeeld C: nutch-0.9 conf crawl- urlfilter.txt
). Het item kan eruitzien als het idee:
Download als cygwin en blader door je ultieme noot
directory. Wanneer cygwin start, bevind je je meestal in de juiste gebruikersmap (voor omstandigheid, C: Documents and Settings loginnaam
).
Als het werkstation Aangezien het belangrijk is om een Windows-verificatieproxy te gebruiken om verbinding te maken met internet (dit is niet gebruikelijk), hebt u zeker de mogelijkheid om een toepassing zoals NTLM te gebruiken om gemakkelijk toegang te krijgen tot de verificatieproxy. Dan heb je nodig zodat je dat specifieke nutch-site.xml
-bestand kunt wijzigen dat verwijst naar het transport dat door de applicatie is geopend.
Verken het intranet
Volg deze instructies in de mini-workshop om te beginnen met het bekijken van een opname in cygwin. Zal de perfecte zoekmap en logbestand maken.
PC werkt traag?
ASR Pro is de ultieme oplossing voor uw pc-reparatiebehoeften! Het kan niet alleen snel en veilig verschillende Windows-problemen diagnosticeren en repareren, maar het verhoogt ook de systeemprestaties, optimaliseert het geheugen, verbetert de beveiliging en stelt uw pc nauwkeurig af voor maximale betrouwbaarheid. Dus waarom wachten? Ga vandaag nog aan de slag!
Als je de volgende opdracht zou kunnen invoeren buiten de root, verbond je Nutch-installatie:
dan wordt er een nieuw bestand met de naam crawl
aangemaakt in je doelmap nutch
samen door middel van een handmatig gegenereerd crawl.log-bestand. Gebruik dit tekenbestand om eventuele fouten op te lossen waaraan u wordt blootgesteld. Vereisen
U verwijdert of verplaatst meestal de studiemap voordat u de studie opnieuw start, tenzij kopers een ander pad opgeven in de voorafgaande bestelling.
Andere soorten bronnen analyseren
Wijzig conf / nutch-site.xml
en de volledige waarde van de extensie plugin.includes
zodat het het type in de plug-indetails opneemt dat Nutch moet Verwerken.
Voorbeeld: Als u parsering wilt toevoegen bij het bekijken van PDF-, MS Office- en OpenOffice-documenten, hebt u het volgende:
Zoek in webinterface
Voeg in hun nieuwe omgevingsinstellingen NUTCH_JAVA_HOME
plus de volledige locatie van je JVM toe (voor stage C: j2sdk1.4.2_09
), eigenlijk een geweldige omgevingsvariabele.
Open een website, navigeer zodat de Tomcat Web Application Manager (bijvoorbeeld http: // localhost: 8080 / manager / html code
) en laad het Nutch WAR-bestand terug in de context.
Als u ervoor wilt zorgen dat u Nutch in de hoofdcontext uitvoert op het type vlieg en u de contextoorzaak al hebt, maakt u de implementatie ongedaan. Anders kunt u dat alternatief hieronder negeren.
Maak een map met contextfragmenten zodat de root-URL naar de hoofdwebtoepassing van een persoon verwijst. Ga naar [tomcat_home] of conf / Catalina / localhost / en zeg deze methode daar. Maak een nieuwe symbolische representatie van Es xml (noem het onze eigen web-app?), Bijvoorbeeld nutch-0.9.xml, en voeg zoiets als elk van de essentiële toe om het uit te lijnen.
Alternatief: als je een andere website wilt lanceren, p Kopieer of hernoem nutch-0.9.0.war
na installatie om de huidige URL van de corresponderende subdirectory te krijgen. Implementeer de hernoemde versie met Tomcat Web Application Manager.
Bijvoorbeeld, om te profiteren van http: // localhost / search /
, naam die u ziet, de informatie Nutch .war
in search.war
en geef vervolgens search.war
op.
Zoekmap specificeren
Navigeer vervolgens naar je Nutch-webapp en de map WEB-INF of klassen
. Bewerk het nutch-site.xml
project en voeg het volgende toe aan dit proces (zorg ervoor dat je geen twee
Als je lijst met Nutch-directories bijvoorbeeld in C: nutch-0.9.0
staat en je gebruikt begrijp
de directory na - dir < . geselecteerde / code> richting, voer dan
C: nutch-0.9.0 crawl
in in plaats van your_crawl_folder_here
.
Vernieuwen
Laad de genoemde applicatie opnieuw. Gebruik gewoon Tomcat Manager, maar druk op de machine-opdracht voor Nutch, u kunt Tomcat opnieuw opstarten met Windows How To Tool.
Open een techniek en voer het domein in http: // localhost: 8080
. Pagina kan verschijnenZoekvak Nutch. Als je de juiste locatie hebt opgegeven voor de spider-map in de Nutch-zoekkern (zoals hierboven weergegeven), zou het klikken op de knop Zoeken resultaten moeten opleveren.
+ ^ http: // ([a-z0-9] * .) * apache.org/
crawl webadressen bin / nutch -dir exc - depth> & nog veel meer crawl.log
plugin.includes http-proces | urlfilter-regex | parse- (tekst | codering van webpagina's | js | msexcel | mspowerpoint | msword | oo | pdf | swf | zip) |Index-Base | Verzoek- (Base | Site | URL) | CV-basis | Score-opic |Urlnormalizer- (pass | regex | base)
searchcher.dir your_crawl_folder_here
Verbeter vandaag de snelheid van uw computer door deze software te downloaden - het lost uw pc-problemen op.
Various Ways To Fix Nutch Configuration On Windows
Verschiedene Möglichkeiten Zum Beheben Der Nutch-Konfiguration Unter Windows
Vari Modi Per Correggere La Configurazione Di Nutch Su Windows
Olika Sätt Att Fixa Nutch -konfiguration På Windows
Várias Maneiras De Corrigir A Configuração Do Nutch No Windows
Różne Sposoby Naprawy Konfiguracji Nutch W Systemie Windows
Различные способы исправить конфигурацию Nutch в Windows
Varias Formas De Corregir La Configuración De Nutch En Windows
Diverses Manières De Corriger La Configuration De Nutch Sous Windows
Windows에서 Nutch 구성을 수정하는 다양한 방법