Проверить работу платформы PySpark.
https://www.kaggle.com/datasets/starblasters8/human-vs-llm-text-corpus https://www.sparkcodehub.com/pyspark/dataframe/create-dataframe-from-csv https://www.sparkcodehub.com/pyspark/dataframe/pyspark-word-count-program
curl -L -o ~/Downloads/human-vs-llm-text-corpus.zip https://www.kaggle.com/api/v1/datasets/download/starblasters8/human-vs-llm-text-corpus
from pyspark.sql.functions import split, explode, col
df = spark.read.csv('data.csv', header=True, inferSchema=True)
words_df = df.withColumn("words", explode(split(col("text"), r"\s+")))
words_df.show()
word_counts_df = words_df.groupBy("words").count()
word_counts_df.show()
hostname)head /proc/cpuinfo)free -h)df -h)через интерфейс командной строки:
mkdir <имя каталога>)nano <имя файла>) и добавить в него текстhadoop fs -put <имя каталога> <путь в HDFS>)hadoop fs -cat <имя файла с результатом>)