[Hadoop] VirtualBox 에 HDP Sandbox 환경 구축

Spring Framework

[Hadoop] VirtualBox 에 HDP Sandbox 환경 구축

헤르메스의날개 2021. 12. 2. 01:15

728x90

Hadoop 강의을 들으면서 실습환경을 구성하는 내용을 기록하고자 했습니다.

하둡단일노드버전이 설치되어 있는 호튼웍스 샌드박스를 이용해서 실습환경을 구성할 예정입니다.

1. VirtualBox ( 6.1.3 Version )를 다운받아 설치합니다.

https://www.virtualbox.org/

Oracle VM VirtualBox

Welcome to VirtualBox.org! News Flash Important May 17th, 2021We're hiring! Looking for a new challenge? We're hiring a VirtualBox senior developer in 3D area (Europe/Russia/India). New November 22nd, 2021VirtualBox 6.1.30 released! Oracle today released a

www.virtualbox.org

2. Hortonworks Sandbox 를 다운로드 합니다.

https://www.cloudera.com/downloads/hortonworks-sandbox.html

Hortonworks Sandbox

Hortonworks Sandbox can help you get started learning, developing, testing and trying out new features on HDP and Cloudera DataFlow (Ambari).

www.cloudera.com

VirtualBox용 2.5.0 버전을 다운로드 했습니다. ( 용량이 10G 정도 되네요. )

3. VirtualBox에 호튼웍스 샌드박드 등록 ( HortonWorks Sandbox Import )

4. 실행하기

5. Ambari 접속 ( http://127.0.0.1:8080/#/login)

maria_dev/maria_dev

6. Moveielens 데이터 다운로드 ( https://grouplens.org/datasets/movielens/ )

1998년 4월 기준 1700개 영화, 1000명 관람객 기준, 10,000개 평점 Dataset 이라고 합니다.

7. Hive View

8. 데이터 업로드 ( 관람객 데이터, 영화 평점 데이터 )

톱니바퀴 선택 > Delimiter 를 '9 TAB' 를 선택 > Close ( 반드시 파일선택보다 먼저 실행해야 함.)

Upload Table > 파일선택 > u.data ( 관람객 데이터 ) 선택

Table name : udata 으로 변경

Upload Table 을 클릭하면 Upload Progress 팝업이 오픈되면서 데이터가 업로드 됩니다.

톱니바퀴 선택 > Delimiter 를 '124 |' 를 선택 > Close ( 반드시 파일선택보다 먼저 실행해야 함.)

Upload Table > 파일선택 > u.item ( 영화 평점 데이터 ) 선택

Table name : uItem 으로 변경

9. Query 실행

select movie_id, count(rating) as ratingcount
 from udata
 group by movie_id
order by ratingcount desc;

"영화에 대해 평점을 준 데이터가 많다는 의미는 영화가 그만큼 좋았다"라는 의미

728x90