[hbase] Nutch 크롤링 데이터에서 데이터를 추출하는 방법은 무엇입니까?

카테고리 없음

[hbase] Nutch 크롤링 데이터에서 데이터를 추출하는 방법은 무엇입니까?

필살기쓰세요 2021. 1. 14. 23:49

기본적으로 Hbase는 저장되는 데이터 유형을 이해하지 못합니다. HBase 셸에서 readdb 명령 ( http://wiki.apache.org/nutch/bin/nutch%20readdb )을 사용하여 웹 페이지 테이블에서 데이터를 추출 할 수 있다고 생각 합니다.

-------------------

아시다시피 크롤링 된 데이터는 세그먼트에 저장됩니다. readseg 명령을 사용하여 실제로 이러한 데이터를 추출 할 수 있습니다 (예 :

bin/nutch readseg -dump /work/apache-nutch-1.12/crawl/segments/20161005134205 my_dump_dir

여기서 my_dump_dir 은 생성되고 덤프를 포함하는 디렉토리입니다.

그런 다음 my_dump_dir에서 dump (크롤링 및 구문 분석 된 데이터 포함-non_encoded) 및 .dump.crc (일부 바이너리 추측 )의 두 파일을 찾을 수 있습니다 . 그들은 볼 덤프 텍스트 편집기 및 구조를 볼 수 있습니다. 필요한 경우 파싱 할 수도 있습니다.

-------------------

nutch dump 명령을 사용할 수 있습니다.

구문은 다음과 같습니다.

bin/nutch dump -outputDir <path_of_output_dir> -segment <segments_dir>

예:

bin/nutch dump -outputDir /tmp/tt03 -segment crawl/crawldb/segments

출처
https://stackoverflow.com/questions/39915889