Методы и средства обработки больших данных

Теория

Практика

Технологии

MapRaduce — устарела
Pig — непопулярна
Spark и PySpark
MlLib
Elastic
Splunk

На базе SQL:

Spark SQL
Hive
Impala

Наборы данных

Kaggle — чтобы скачивать данные можно использовать API с помощью библиотеки на Python.
GitHub
Datahub
AWS
BigQuery
Internet Archive

Литература