일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- AJAX
- ubuntu
- JavaScript
- jpa
- git
- myBatis
- Thymeleaf
- Tomcat
- SpringBoot
- Eclipse
- Python
- Core Java
- Source
- JDBC
- Spring Boot
- maven
- error
- Open Source
- 오픈소스
- 문서
- spring
- Docker
- oracle
- STS
- Exception
- MySQL
- IntelliJ
- 설정
- MSSQL
- PostgreSQL
- Today
- Total
헤르메스 LIFE
[Hadoop] VirtualBox 에 HDP Sandbox 환경 구축 본문
Hadoop 강의을 들으면서 실습환경을 구성하는 내용을 기록하고자 했습니다.
하둡단일노드버전이 설치되어 있는 호튼웍스 샌드박스를 이용해서 실습환경을 구성할 예정입니다.
1. VirtualBox ( 6.1.3 Version )를 다운받아 설치합니다.
2. Hortonworks Sandbox 를 다운로드 합니다.
https://www.cloudera.com/downloads/hortonworks-sandbox.html
VirtualBox용 2.5.0 버전을 다운로드 했습니다. ( 용량이 10G 정도 되네요. )
3. VirtualBox에 호튼웍스 샌드박드 등록 ( HortonWorks Sandbox Import )
4. 실행하기
5. Ambari 접속 ( http://127.0.0.1:8080/#/login)
maria_dev/maria_dev
6. Moveielens 데이터 다운로드 ( https://grouplens.org/datasets/movielens/ )
1998년 4월 기준 1700개 영화, 1000명 관람객 기준, 10,000개 평점 Dataset 이라고 합니다.
7. Hive View
8. 데이터 업로드 ( 관람객 데이터, 영화 평점 데이터 )
톱니바퀴 선택 > Delimiter 를 '9 TAB' 를 선택 > Close ( 반드시 파일선택보다 먼저 실행해야 함.)
Upload Table > 파일선택 > u.data ( 관람객 데이터 ) 선택
Table name : udata 으로 변경
Upload Table 을 클릭하면 Upload Progress 팝업이 오픈되면서 데이터가 업로드 됩니다.
톱니바퀴 선택 > Delimiter 를 '124 |' 를 선택 > Close ( 반드시 파일선택보다 먼저 실행해야 함.)
Upload Table > 파일선택 > u.item ( 영화 평점 데이터 ) 선택
Table name : uItem 으로 변경
9. Query 실행
select movie_id, count(rating) as ratingcount
from udata
group by movie_id
order by ratingcount desc;
"영화에 대해 평점을 준 데이터가 많다는 의미는 영화가 그만큼 좋았다"라는 의미
'Spring Framework' 카테고리의 다른 글
Spring Boot 설정파일 암호화 (0) | 2022.05.29 |
---|---|
[QueryDSL] STS에서 Gradle 사용 시 QueryDSL QClass 생성 설정 (0) | 2022.03.27 |
[Spring Boot] HikariCP를 이용한 Multi Database Connection 샘플 (0) | 2021.07.19 |
[SpringBoot] H2 Database 연결하기 (0) | 2021.07.17 |
[Logging] Log4j, Logback, Log4j2 로 MyBatis SQL 쿼리 남기기 (0) | 2021.06.17 |