Table of Contents
Le PC est lent ?
Il semble que certains hommes et femmes aient rencontré une erreur lors de la configuration de Nutch sous Windows. Ce problème peut survenir pour de nombreuses raisons. Discutons-en maintenant.
Étant donné que Nutch peut être écrit en Java, Nutch peut fonctionner sous Windows vert, à condition que le bon logiciel soit en grande partie installé. Si
Remarque. Vous n’êtes motivé que par la simple installation sous Windows, et vous n’aurez pas besoin de connaître les détails liés aux calculs. Vous pouvez également vérifier si WhelanLabs SearchEngine Manager répond aux exigences. Il s’agit d’un programme d’installation absolument gratuit pour travailler avec Nutch of Windows.
Les documents suivants décrivent ce que j’ai en fait pu faire sur XP Windows Pro qui a Tomcat 5.28. Edit : formulaire mis à jour basé sur cette expérience avec l’installation sur Server Windows 2003.
Logiciel requis
Java
Vous devez avoir installé Java 1.4.2 (ou Java 1.5 conçu pour Nutch 0.8.x ou version ultérieure).
Il fonctionne en même temps avec Java 6, 0 nutch.9 et Tomcat Personal Loans. Seul le Java 6 JRE est important, à moins que vous ne vouliez construire vous-même le source Nutch.
Cygwin
Cygwin est considéré comme requis pour exécuter le shell le plus important car il n’y a pas de scénarios de cmd NT distincts pour NT (cmd invest ne commence pas à utiliser des environnements imbriqués de manière récursive). Mks ksh ne fonctionne pas correctement avec les scripts. Assurez-vous d’ajouter cet utilitaire uname à cygwin.
Voir aussi pour plus d’informations sur la configuration de Cygwin avec nutch par “Gettingnutchrunningoncygwin”.
Gueule de bois
Vous devez avoir en vigueur Tomcat 4. * ou bien supérieur sur la machine réelle. Je ne connais aucune raison de ne pas utiliser votre dernière version (Tomcat 6 à ce moment précis de cette écriture).
Configuration
Télécharger
Chargez la publication ainsi que le décompresseur de votre disque dur dans un répertoire qui n’a notamment pas de place dans votre maison (pour scénario, c:nutch-0.9
). S’il y en avait un dans le répertoire (par exemple, a an area. c: my programmes nutch-0.9
), plutôt que tous les scripts Nutch fonctionneront correctement.
Créez du texte clair et vierge (utilisez un fichier en travaillant avec le nom que les utilisateurs veulent) dans votre base de données Nutch (par exemple, urls
) en ajoutant les URL du site Web du site personnel qui doivent être évaluées.
Ajouter des URL à crawl-urlfilter.txt
(par exemple, C: nutch-0.9 conf crawl-urlfilter .txt
). L’entrée pourrait ressembler à ceci :
Téléchargez depuis ce cygwin et parcourez votre service nutch
. Lorsque cygwin démarre, vous êtes généralement dans le bon dossier utilisateur (par exemple, C: Documents and Settings username
).
Si le poste de travail Étant donné qu’il est nécessaire d’utiliser un proxy d’authentification Windows pour accéder à Internet (ce n’est pas courant), vous pouvez certainement utiliser une application exclusive comme NTLM pour accéder au proxy d’authentification. Ensuite, vous devrez modifier ce fichier individuel nutch-site.xml
qui pointe vers le transport réel ouvert par l’application.
Explorer l’intranet
Suivez les instructions d’un mini-atelier pour commencer à visualiser les enregistrements dans cygwin. Créera le répertoire de recherche et le fichier bois parfaits.
PC lent ?
ASR Pro est la solution ultime pour vos besoins de réparation de PC ! Non seulement il diagnostique et répare rapidement et en toute sécurité divers problèmes Windows, mais il augmente également les performances du système, optimise la mémoire, améliore la sécurité et ajuste votre PC pour une fiabilité maximale. Alors pourquoi attendre ? Commencez dès aujourd'hui !
Si vous entrez la commande once en dehors de la racine de votre construction Nutch :
puis un nouveau dossier nommé spider
sera créé dans le répertoire nutch
de votre cible laser avec un fichier crawl.log créé manuellement. Utilisez ce fichier journal pour diagnostiquer les erreurs que vous pourriez rencontrer. Exiger
Vous supprimerez ou déplacerez le répertoire de l’étude bien avant de redémarrer l’étude, sauf si vous spécifiez un autre chemin dans l’ordre ci-dessus.
Analyser d’autres types de ressources
Modifiez conf par nutch-site.xml
et la valeur de l’extension même plugin.includes
pour inclure la forme de dans les documents du plugin que Nutch doit traiter.
Exemple : Pour introduire l’analyse lors de la visualisation de documents PDF, MS Office et OpenOffice, vous disposez des éléments suivants :
Interface Web de recherche
Dans les nouveaux bâtiments d’environnement, ajoutez NUTCH_JAVA_HOME
et l’emplacement de vacances complet de votre JVM (par exemple C:j2sdk1.4.2_09
), essentiellement une nouvelle variable d’environnement.
Ouvrez un site Web, accédez au gestionnaire d’applications Web Tomcat (par exemple, http: // localhost: 8080 / manager / html
) et légionez le fichier Nutch WAR dans le contexte.
Si vous allez exécuter Nutch tout au long du contexte principal à la volée et que l’individu possède déjà la racine du contexte, annulez l’utilisation. Sinon, vous pouvez ignorer l’alternative ci-dessous.
Créez un fichier d’extrait de contexte afin que toute l’URL racine pointe vers votre progiciel Web principal. Allez dans [tomcat_home] / conf / Catalina versus localhost / et dites-le là. Créez une énorme nouvelle image Es xml (appelez-la notre application Web personnelle ?), par exemple nutch-0.9.xml, et ajoutez un produit spécifique comme chacun des éléments suivants pour aligner cet outil.
Alternative : si vous souhaitez lancer un autre site Web, p Une fois installé, copiez ou renommer nutch-0.9.0.war
pour obtenir l’URL d’un sous-répertoire correspondant. Déployez la version renommée à l’aide de Tomcat Web Application Manager.
Par exemple, pour vous aider à profiter de http: // localhost - search /
, nommez les informations Nutch .war
dans search.war
et ensuite fournir search.war
.
Spécifiez le répertoire de recherche
Ensuite, accédez à votre application Web Nutch et au fichier WEB-INF / classes
. Modifiez l’initiative nutch-site.xml
et ajoutez les éléments suivants à cette tâche (assurez-vous que la plupart des gens n’ont pas deux balises système
Si votre liste de répertoires Nutch est, à titre d’exemple, dans C:nutch-0.9.0
et aussi vous utilisez scan
le répertoire immédiatement suivant - rép <. spécifié / code> formation, puis entrez
C:nutch-0.9.0get
au lieu de your_crawl_folder_here
.
Actualiser
Rechargez l'application partagée. Il suffit de consommer Tomcat Manager, mais appuyez sur la commande de redémarrage pour Nutch, vous pouvez redémarrer Tomcat à l'aide de l'outil Windows How To.
Ouvrez un navigateur et entrez tout le domaine http://localhost: 8080
. La page peut apparaîtreChamp de recherche Nutch. Si vous avez remarqué l'emplacement correct du répertoire spider du moteur de recherche Nutch (comme indiqué ci-dessus), le bouton Rechercher devrait ensuite renvoyer des résultats.
+ ^ http: // ([a-z0-9] - .) * apache.org/
crawl urls bin per nutch -dir exc -depth> & 3 crawl.log
Améliorez la vitesse de votre ordinateur dès aujourd'hui en téléchargeant ce logiciel - il résoudra vos problèmes de PC.
Various Ways To Fix Nutch Configuration On Windows
Verschillende Manieren Om Nutch-configuratie Op Windows Te Repareren
Verschiedene Möglichkeiten Zum Beheben Der Nutch-Konfiguration Unter Windows
Vari Modi Per Correggere La Configurazione Di Nutch Su Windows
Olika Sätt Att Fixa Nutch -konfiguration På Windows
Várias Maneiras De Corrigir A Configuração Do Nutch No Windows
Różne Sposoby Naprawy Konfiguracji Nutch W Systemie Windows
Различные способы исправить конфигурацию Nutch в Windows
Varias Formas De Corregir La Configuración De Nutch En Windows
Windows에서 Nutch 구성을 수정하는 다양한 방법