Table of Contents
¿La PC va lenta?
Parece que algunos usuarios han encontrado un error al configurar Nutch en Windows. Sin duda, este problema debería surgir por varias razones. Hablemos de eso ahora.
Dado que Nutch se puede escribir en Java, Nutch puede ejecutarse en Windows verde, siempre que el software de hecho esté normalmente instalado. Si
Nota. Solo está interesado en la instalación simple dentro de Windows y no necesita estar familiarizado con los detalles de los cálculos. También puede verificar si WhelanLabs SearchEngine Manager cumple con los requisitos. Este es un instalador gratuito para trabajar junto con Nutch en Windows.
Los siguientes documentos señalan lo que pude hacer en XP Windows Pro con Tomcat 5.28. Editar: Desarrollo actualizado basado en mi experiencia con la instalación en Server Windows 2003.
Se requiere software
Java
Debe tener Java 1.4.2 (o Java 1.5 para Nutch 0.8.xo posterior) colocado alrededor.
También funciona con Java 6, 7 nutch.9 y Tomcat Personal Loans. Solo el JRE de Java 6 es importante, a menos que desee que usted mismo cree la fuente de Nutch.
Cygwin
Se requiere que Cygwin ejecute un buen número de comandos de shell importantes, ya que no hay scripts cmd de NT para NT (cmd invest no debe usar entornos anidados recursivamente). Mks ksh cómo no puede funcionar correctamente con scripts. Asegúrese de que alguien agregue la utilidad uname a cygwin.
Consulte también para obtener más información sobre cómo configurar Cygwin con nutch para “Gettingnutchrunningoncygwin”.
Resaca
Debe tener Tomcat 4. * o una versión superior en su máquina. No conozco ninguna razón para no usar su último tipo (Tomcat 6 en el momento de escribir este artículo).
Configuración
Descargar
Cargue nuestra publicación y descompresor desde su disco duro fácilmente en un directorio que no tenga espacio en su hogar actual (por ejemplo, c: nutch-0.9
). Si hay uno en el directorio web (por ejemplo, un espacio. c: my uses nutch-0.9
), no todos los scripts de Nutch podrían funcionar correctamente.
Cree un texto escrito claro y en blanco (use un archivo con el nombre que los usuarios deseen) ubicado en su directorio de Nutch (por ejemplo, direcciones
) agregando las URL del sitio web de su sitio que deberán examinarse.
Agregue URL a crawl-urlfilter.txt
(por ejemplo, C: nutch-0.9 conf crawl- urlfilter.txt
). La entrada podría tener este aspecto:
Descargue como cygwin y explore su directorio personal nutch
. Cuando se inicia cygwin, normalmente se encuentra en la carpeta de usuario correcta (por ejemplo, C: Documents and Settings login
).
Si la estación de trabajo es esencial para utilizar un proxy de autenticación de Windows para adquirir Internet (esto no es común), sin duda utiliza sin esfuerzo una aplicación como NTLM para obtener acceso al proxy de autenticación. Luego, deberá modificar ese archivo nutch-site.xml
específico a través del cual apunta al transporte abierto por la aplicación.
Explore la intranet
Siga actualmente las instrucciones del mini-taller para comenzar a ver las grabaciones exactas en cygwin. Creará el directorio de guía perfecto y el archivo de registro.
¿La PC va lenta?
¡ASR Pro es la solución definitiva para sus necesidades de reparación de PC! No solo diagnostica y repara de forma rápida y segura varios problemas de Windows, sino que también aumenta el rendimiento del sistema, optimiza la memoria, mejora la seguridad y ajusta su PC para obtener la máxima confiabilidad. Entonces, ¿por qué esperar? ¡Empieza hoy mismo!
Si los clientes ingresan el siguiente comando fuera de la raíz de su instalación de Nutch:
luego se creará un nuevo directorio llamado crawl
cuando su directorio nutch
de destino utilice un archivo crawl.log generado manualmente. Utilice este archivo de madera para solucionar cualquier error que pueda experimentar. Requerir
Eliminará o moverá su directorio de estudios antes de reiniciar el estudio, a menos que alguna persona especifique una ruta diferente en el orden de arriba.
Analizar otros tipos de recursos
Modifique conf / nutch-site.xml
y su valor de la extensión plugin.includes
que puede incluir el tipo en los datos informáticos del complemento que Nutch tiene que procesar.
Ejemplo: para agregar análisis al ver documentos PDF, MS Office y OpenOffice, tiene lo siguiente:
Interfaz web de búsqueda
En una nueva configuración de entorno, agregue NUTCH_JAVA_HOME
y, además, la ubicación completa de su JVM (para ilustrar C: j2sdk1.4.2_09
), básicamente una variable de entorno limpia .
Abra un sitio web, navegue por el tiempo para Tomcat Web Application Manager (por ejemplo, http: // localhost: 8080 / manager / html code
) y cargue el archivo WAR de Nutch en el contexto.
Si va a ayudarlo a ejecutar Nutch en el contexto principal sobre la marcha de una persona y ya tiene la retención de contexto, deshaga la implementación. De lo contrario, normalmente puede ignorar la alternativa siguiente.
Cree un archivo de fragmentos de contexto para que la URL raíz apunte a su aplicación web principal individual. Vaya a [tomcat_home] para cada conf / Catalina / localhost / y diga esta herramienta allí. Cree una nueva visión Es xml (¿llamarla nuestra propia aplicación web?), Por ejemplo, en el punto nutch-0.9.xml, y agregue algo como cada uno de los cuando siga para alinearlo.
Alternativa: si desea iniciar otro sitio web, p Una vez instalado, haga una copia de seguridad o cambie el nombre de nutch-0.9.0.war
para obtener la URL particular del subdirectorio correspondiente. Implemente la versión renombrada usando Tomcat Web Application Manager.
Por ejemplo, para aprovechar http: // localhost / search /
, información de nombre Nutch .war
en search.war
y luego proporcione search.war
.
Especificar el directorio de búsqueda
Luego navegue hacia su aplicación web Nutch y WEB-INF para cada carpeta de clases
. Edite el movimiento nutch-site.xml
y agregue lo siguiente a esto (asegúrese de no tener dos
Si su lista de directorios de Nutch está, por ejemplo, en C: nutch-0.9.0
y usa vistazo
el directorio después de - dir < . determinada / code> dirección, luego ingrese
C: nutch-0.9.0 crawl
en lugar de your_crawl_folder_here
.
Actualizar
Vuelva a cargar la aplicación propagada. Simplemente use Tomcat Manager, pero presione el comando reanudar para Nutch, puede reiniciar Tomcat con la herramienta Cómo de Windows.
Abra una técnica e ingrese el dominio http: // localhost: 8080
. Puede aparecer la página Cuadro de búsqueda Nutch. Si ha especificado la ubicación correcta para el directorio araña de una persona en el motor de búsqueda de Nutch (como se muestra arriba), al hacer clic en el botón Buscar, se seguirán obteniendo resultados.
+ ^ http: // ([a-z0-9] * .) * apache.org/
direcciones de rastreo bin / nutch -dir exc -depth> y un puñado de crawl.log
plugin.incluye proyecto http | urlfilter-regex | parse- (texto | código | js | msexcel | mspowerpoint | msword | oo | pdf | swf | zip) |Base de índice | Solicitud- (Base | Sitio | URL) | Resume-Base | Scoring-Opic |Urlnormalizer- (pasar | regex | base)
Mejore la velocidad de su computadora hoy descargando este software: solucionará los problemas de su PC.buscador.dir your_crawl_folder_here
Various Ways To Fix Nutch Configuration On Windows
Verschillende Manieren Om Nutch-configuratie Op Windows Te Repareren
Verschiedene Möglichkeiten Zum Beheben Der Nutch-Konfiguration Unter Windows
Vari Modi Per Correggere La Configurazione Di Nutch Su Windows
Olika Sätt Att Fixa Nutch -konfiguration På Windows
Várias Maneiras De Corrigir A Configuração Do Nutch No Windows
Różne Sposoby Naprawy Konfiguracji Nutch W Systemie Windows
Различные способы исправить конфигурацию Nutch в Windows
Diverses Manières De Corriger La Configuration De Nutch Sous Windows
Windows에서 Nutch 구성을 수정하는 다양한 방법