Методы и средства обработки больших данных

Назад

Теория

Практика

  1. Практическая работа по «MapReduce»
  2. Практическая работа по «PySpark»

Технологии

  • MapRaduce — устарела
  • Pig — непопулярна
  • Spark и PySpark
  • MlLib
  • Elastic
  • Splunk

На базе SQL:

  • Spark SQL
  • Hive
  • Impala

Наборы данных

  1. Kaggle — чтобы скачивать данные можно использовать API с помощью библиотеки на Python.
  2. GitHub
  3. Datahub
  4. AWS
  5. BigQuery
  6. Internet Archive

Литература