Методы и средства обработки больших данных
Назад
Теория
Введение
PySpark
Создание кластера в Azure
Полезные ссылки
Введение
Apache Pig
Apache Hive
MapReduce
Практика
Практическая работа по «MapReduce»
Практическая работа по «PySpark»
Технологии
MapRaduce — устарела
Pig — непопулярна
Spark и PySpark
MlLib
Elastic
Splunk
На базе SQL:
Spark SQL
Hive
Impala
Наборы данных
Kaggle
— чтобы скачивать данные можно использовать API с помощью
библиотеки на Python
.
GitHub
Datahub
AWS
BigQuery
Internet Archive
Литература