Полезные ссылки
Дистрибутив HDP Sandbox
Hortonworks Data Platform (HDP) Sandbox
Публичные наборы данных
Google Cloud Platform
Amazon Web Services Open Data
Five Thirty Eight
Awesome Public Datasets
Kaggle
GroupLens Datasets
Apache Hive
Описание командной строки Hive
Типы данных Hive
Документация по Azure HDInsight
Apache Pig
Apache Pig
Hadoop, часть 3: Pig, обработка данных
Бауманка: Apache Pig
Process your data with Apache Pig
Литература
Анналин Ын, Кеннет Су - Теоретический минимум по Big Data
Александр Сенько - Работа BigData в облаках
Ния Нархид и др. - Apache Kafka
Мэтью Рассел и Михаил Классен - Data Mining
Холден Карау и др. - Изучаем Spark
Hadoop Fundamentals