[Hadoop] VirtualBox 에 HDP Sandbox 환경 구축
Hadoop 강의을 들으면서 실습환경을 구성하는 내용을 기록하고자 했습니다.
하둡단일노드버전이 설치되어 있는 호튼웍스 샌드박스를 이용해서 실습환경을 구성할 예정입니다.
1. VirtualBox ( 6.1.3 Version )를 다운받아 설치합니다.
2. Hortonworks Sandbox 를 다운로드 합니다.
https://www.cloudera.com/downloads/hortonworks-sandbox.html
VirtualBox용 2.5.0 버전을 다운로드 했습니다. ( 용량이 10G 정도 되네요. )
3. VirtualBox에 호튼웍스 샌드박드 등록 ( HortonWorks Sandbox Import )
4. 실행하기
5. Ambari 접속 ( http://127.0.0.1:8080/#/login)
maria_dev/maria_dev
6. Moveielens 데이터 다운로드 ( https://grouplens.org/datasets/movielens/ )
1998년 4월 기준 1700개 영화, 1000명 관람객 기준, 10,000개 평점 Dataset 이라고 합니다.
7. Hive View
8. 데이터 업로드 ( 관람객 데이터, 영화 평점 데이터 )
톱니바퀴 선택 > Delimiter 를 '9 TAB' 를 선택 > Close ( 반드시 파일선택보다 먼저 실행해야 함.)
Upload Table > 파일선택 > u.data ( 관람객 데이터 ) 선택
Table name : udata 으로 변경
Upload Table 을 클릭하면 Upload Progress 팝업이 오픈되면서 데이터가 업로드 됩니다.
톱니바퀴 선택 > Delimiter 를 '124 |' 를 선택 > Close ( 반드시 파일선택보다 먼저 실행해야 함.)
Upload Table > 파일선택 > u.item ( 영화 평점 데이터 ) 선택
Table name : uItem 으로 변경
9. Query 실행
select movie_id, count(rating) as ratingcount
from udata
group by movie_id
order by ratingcount desc;
"영화에 대해 평점을 준 데이터가 많다는 의미는 영화가 그만큼 좋았다"라는 의미