SQL on Hadoop – Anlyzing Big Data with Hive

Deskripsi

Dalam pelatihan ini peserta akan belajar Hive Query Language unto diaplikasikan dalam menyelesaikan masalah – masalah yang umum terjadi pada Big Data. Pelatihan Big Data ini meliputi distributed computing, Hadoop, dan MapReduce fundamentals.

Pelatihan ini mengasumsikan semua orang sebagai pemula, dan mengajarkan semua dasar-dasar Big Data, Hadoop dan arsitekturnya yang kompleks.

Tujuan

Setelah mengikuti pelatihan ini peserta akan menguasai :

  • Memahami berbagai tren teknologi, pasar Big Data dan berbagai peran pekerjaan dalam Big Data
  • Memahmi untuk apa Hadoop, dan bagaimana cara kerjanya
  • Memahami arsitektur Hadoop yang kompleks dan komponennya
  • Menginstalasi Hadoop
  • Memahami bagaimana MapReduce, Hive, dan Pig dapat digunakan untuk menganalisis kumpulan data besar

Target Peserta

Pelatihan ini dapat diikuti oleh siapa saja (siswa, pengembang, manajer) yang tertarik untuk mempelajari Big Data.

Syarat

Memiliki basic pemahaman dan pengalaman tentang UNIX dan SQL.

Introduction to Hadoop   

  • Distributed Computing Challenges
  • Hadoop File System (HDFS)
  • MapReduce
  • Word Count Example
  • Demo: Basic Hadoop Commands and Environment Setup

Introduction to Hive  

  • Hive Architecture
  • Hive Principles – Schema on Read
  • Hive Principles – The Hive Warehouse
  • Hive Query Language Basics – SELECT and Sub Queries
  • Creating Databases and Tables with HiveQL
  • Demo: Working with Hive Tables and Loading Data into Warehouse
  • Loading Data – Hive Managed and External Tables
  • Demo: External Tables and Create Table Alternatives
  • Hive Query Language
  • Data Types
  • Type Conversions
  • Managed Partitioned Tables
  • External Partitioned Tables
  • Demo: Table Partitioning
  • Multi Inserts and Dynamic Partition Inserts
  • Demo: Loading Data Use Case
  • Data Retrieval – Group By and Functions
  • Sorting and Controlling Data Flow
  • The CLI and Variable Substitution

Advanced Hive QL

  • Bucketing
  • Bucket and Block Sampling
  • Joins
  • Joins in Depth and Join Optimizations
  • Map-side Joins for Bucketed Tables
  • Distributed Cache
  • UDTFs, Explode and Lateral View
  • Demo: Extending Hive – Creating Your own UDF
  • Demo: Extending Hive – Compiling and Testing Custom UDF
  • Extending Hive – Custom UDF Recap
  • Demo: Hive Initialization File
  • Accessing The Distributed Cache
  • Hadoop Streaming and Transform()
  • Windowing and Analytics Functions
  • Demo: Putting it All Together Using Transform
  • Demo: Analytics Functions
  • Demo: Ranking Functions

Storage and The Eco-System

  • Create Table Statement – File Formats and SerDes
  • HCatalog
  • Sqoop
  • DistCP
  • Hadoop Eco-System Projects
  • References and Resources

Waktu Pelaksanaan 2 Hari

Complimentary Download

Terima kasih atas ketertarikan Anda pada Edutech Training and Konsultan. Untuk mendownload brosur ini, lengkapi formulir pendaftaran di sebelah kanan.

Jika Anda mengalami masalah dalam menyelesaikan formulir, kirimkan ke email ke : info@edutechsolution.co.id dan kami dapat mengirimkan file brosurnya