Table of Contents
Komputer działa wolno?
Wygląda na to, że niektórzy indywidualni konsumenci napotkali błąd podczas konfigurowania Nutch w systemie Windows. Ten problem może powstać z różnych powodów. Porozmawiajmy o tym teraz.
Ponieważ Nutch na pewno będzie napisany w Javie, Nutch może działać na zielonym systemie Windows, pod warunkiem, że częściej niż nie instalowane jest prawidłowe oprogramowanie. Jeśli
Uwaga. Jesteś tylko podekscytowany prostą instalacją w systemie Windows, a Ty i Twoja rodzina nie musicie znać szczegółów pochodzących ze wszystkich obliczeń. Możesz również sprawdzić, czy WhelanLabs SearchEngine Manager spełnia wymagania. Jest to całkowicie darmowy instalator do pracy z Nutch w systemie Windows.
Poniższe dokumenty opisują, co udało mi się zrobić na XP Windows Pro dzięki Tomcat 5.28. Edycja: Zaktualizowany formularz oparty na spersonalizowanych doświadczeniach z instalacją na serwerze Windows 2003.
Wymagane oprogramowanie
Java
Musisz mieć zainstalowaną Javę 1.4.2 (lub Javę 1.5 ponad Nutch 0.8.x lub nowszą).
Zdecydowanie działa z Java 6, 0 nutch.9 i Tomcat Personal Loans. Ważne jest tylko środowisko Java 6 JRE, chyba że chcesz samodzielnie zbudować źródło Nutch.
Cygwin
Cygwin byłby wymagany do wykonania najważniejszych wymagań powłoki, ponieważ nie ma oddzielnych programów cmd NT dla NT (cmd invest nie zużywa środowisk rekursywnie zagnieżdżonych). Mks ksh nie działa odpowiednio ze skryptami. Upewnij się, że dodałeś to narzędzie uname do cygwin.
Zobacz także, aby uzyskać więcej informacji na temat konfiguracji Cygwin z nutch potrzebnym do “Gettingnutchrunningoncygwin”.
Kac
Musisz już mieć Tomcat 4. * lub znacznie wyższy na własnym komputerze. Nie znam żadnego powodu, dla którego nie ma na rynku, aby używać twojej najnowszej wersji (Tomcat 6 w momencie pisania tego tekstu).
Konfiguracja
Pobierz
Załaduj publikację wraz z dekompresorem z dysku twardego do katalogu, przez który nie ma miejsca w Twoim domu (na przykład c: nutch-0.9
). Jeśli w katalogu może być taki (na przykład przestrzeń życiowa. c: moje programy nutch-0.9
), niekoniecznie wszystkie skrypty Nutch będą działały poprawnie.
Utwórz czytelny, pusty tekst (użyj pliku jako wystarczającego uzasadnienia dla dowolnej nazwy, jakiej chcą użytkownicy) w swoich witrynach przesyłania Nutch (na przykład adresy URL
), dodając najlepsze adresy URL witryn, które muszą zostać sprawdzone .
Dodaj adresy URL do crawl-urlfilter.txt
(na przykład C: nutch-0.9 conf crawl-urlfilter .txt
). Wpis może wyglądać tak:
Pobieraj za każdym razem, gdy cygwin i przeglądaj katalog stron internetowych nutch
. Kiedy cygwin się uruchamia, zwykle znajdujesz się we właściwym folderze użytkownika (na przykład C: Documents and Settings nazwa użytkownika
).
Jeśli stacja robocza Ponieważ do uzyskania dostępu do Internetu konieczne jest użycie serwera proxy uwierzytelniania Windows (nie jest to powszechne), z pewnością można użyć aplikacji takiej jak NTLM, aby uzyskać dostęp do serwera proxy uwierzytelniania. Następnie będziesz musiał zmodyfikować ten jedyny w swoim rodzaju plik nutch-site.xml
, który wskazuje na sam transport otwarty przez aplikację.
Poznaj intranet
Postępuj zgodnie z instrukcjami w mini-warsztacie, aby rozpocząć oglądanie nagrań w całym cygwin. Stworzy idealny katalog badań i plik dziennika.
Komputer działa wolno?
ASR Pro to najlepsze rozwiązanie dla potrzeb naprawy komputera! Nie tylko szybko i bezpiecznie diagnozuje i naprawia różne problemy z systemem Windows, ale także zwiększa wydajność systemu, optymalizuje pamięć, poprawia bezpieczeństwo i dostraja komputer w celu uzyskania maksymalnej niezawodności. Więc po co czekać? Zacznij już dziś!
Jeśli wpiszesz jako wynik polecenia poza katalogiem głównym swojej konfiguracji Nutch:
wtedy nowy folder o nazwie zbadaj
zostanie utworzony w twoim niszowym katalogu nutch
wraz z ręcznie utworzonym plikiem crawl.log. Użyj tego pliku dziennika, aby naprawić wszelkie błędy, które możesz napotkać. Wymagaj
Przed ponownym uruchomieniem badania usuniesz lub przeniesiesz katalog badań, chyba że określisz inną ścieżkę w powyższej kolejności.
Analizuj inne typy zasobów
Zmodyfikuj conf versus nutch-site.xml
oraz wartość naszego rozszerzenia plugin.includes
, aby uwzględnić metodę w dokumentach wtyczek, które Nutch musi przetworzyć.
Przykład: Aby opublikować parsowanie podczas przeglądania dokumentów PDF, MS Office i OpenOffice, masz następujące elementy:
Interfejs wyszukiwania w sieci
W nowym otoczeniu środowiskowym dodaj NUTCH_JAVA_HOME
i całą witrynę internetową swojej maszyny JVM (na przykład C: j2sdk1.4.2_09
), zasadniczo nową zmienną środowiskową.
Otwórz witrynę internetową, przejdź do Menedżera aplikacji internetowych Tomcat (na przykład http: // localhost: 8080 / manager / html
) i prześlij plik WAR Nutch do kontekstu.
Jeśli zamierzasz uruchomić Nutch głównego kontekstu w locie, a Twoja rodzina ma już kontekstowy katalog główny, cofnij aranżację. W przeciwnym razie możesz zignorować poniższą alternatywę.
Utwórz plik fragmentu kontekstu, tak aby cały główny adres URL wskazywał Twoją główną aplikację internetową. Przejdź do [tomcat_home] / conf / Catalina versus localhost / i powiedz to tam. Utwórz nowy obraz Es xml (nazwij go naszą aplikacją internetową?), Na przykład nutch-0.9.xml i dodaj wszystko, co jest podobne do każdego z poniższych, aby wyrównać grę.
Alternatywnie: jeśli chcesz uruchomić drugą stronę internetową, p Po zainstalowaniu skopiuj lub zmień etykietę nutch-0.9.0.war
, aby uzyskać adres URL wszystkich odpowiednich podkatalogów. Wdróż wersję o zmienionej nazwie za pomocą Menedżera aplikacji internetowych Tomcat.
Na przykład, jeśli chcesz skorzystać z http: // localhost lub wyszukiwania /
, nazwij informację Nutch . war
w search.war
a następnie po prostu wpisz search.war
.
Określ katalog wyszukiwania
Następnie przejdź do swojej ogólnej aplikacji internetowej Nutch i katalogu WEB-INF / class
. Edytuj inicjatywę nutch-site.xml
i zdobądź następujące elementy do tego zadania (upewnij się, że klienci nie mają dwóch tagów systemowych
Jeśli twoja lista katalogów Nutch odnosi się na przykład do C: nutch-0.9.0
i dlatego używasz scan
właściwego katalogu - reż. określonej instrukcji / code>, a następnie wpisz
C: nutch-0.9.0 move
zamiast your_crawl_folder_her
.
Odśwież
Załaduj ponownie udostępnioną aplikację. Po prostu pomóż Tomcat Managerowi, ale naciśnij polecenie restartu dla Nutch, możesz ponownie uruchomić Tomcata za pomocą narzędzia Windows How To Tool.
Otwórz przeglądarkę i wprowadź dowolną domenę http: // localhost: 8080
. Może pojawić się strona Pole wyszukiwania Nutch. Jeśli wybrałeś poprawną lokalizację katalogu pająka w wyszukiwarce Nutch (jak pokazano powyżej), fałszywy przycisk Szukaj powinien zwrócić wyniki.
+ ^ http: // ([a-z0-9] 3 . .) * apache.org/
crawl url bin kontra nutch -dir exc -depth> i 3 crawl.log
plugin.includes protokół http | wyrażenie regularne z filtrem adresów URL | parse- (tekst | html | js | msexcel | mspowerpoint | msword | oo | pdf | swf | zip) |Baza indeksu | Żądanie- (Podstawa | Witryna | URL) | Baza CV | Punktacja-Opic |Urlnormalizer- (pass | regex | base)
<Ścieżka kontekstowa = „” debug = „5” Privileged = „prawda” docBase = „nutch-0.7.1” />
searchcher.dir your_crawl_folder_tutaj
Popraw szybkość swojego komputera już dziś, pobierając to oprogramowanie - rozwiąże ono problemy z komputerem.
Various Ways To Fix Nutch Configuration On Windows
Verschillende Manieren Om Nutch-configuratie Op Windows Te Repareren
Verschiedene Möglichkeiten Zum Beheben Der Nutch-Konfiguration Unter Windows
Vari Modi Per Correggere La Configurazione Di Nutch Su Windows
Olika Sätt Att Fixa Nutch -konfiguration På Windows
Várias Maneiras De Corrigir A Configuração Do Nutch No Windows
Различные способы исправить конфигурацию Nutch в Windows
Varias Formas De Corregir La Configuración De Nutch En Windows
Diverses Manières De Corriger La Configuration De Nutch Sous Windows
Windows에서 Nutch 구성을 수정하는 다양한 방법