Полезные ссылки

Дистрибутив HDP Sandbox

Hortonworks Data Platform (HDP) Sandbox

Публичные наборы данных

  • Google Cloud Platform
  • Amazon Web Services Open Data
  • Five Thirty Eight
  • Awesome Public Datasets
  • Kaggle
  • GroupLens Datasets

Apache Hive

  • Описание командной строки Hive
  • Типы данных Hive
  • Документация по Azure HDInsight

Apache Pig

  • Apache Pig
  • Hadoop, часть 3: Pig, обработка данных
  • Бауманка: Apache Pig
  • Process your data with Apache Pig

Литература

  • Анналин Ын, Кеннет Су - Теоретический минимум по Big Data
  • Александр Сенько - Работа BigData в облаках
  • Ния Нархид и др. - Apache Kafka
  • Мэтью Рассел и Михаил Классен - Data Mining
  • Холден Карау и др. - Изучаем Spark
  • Hadoop Fundamentals