برنامه نویسی

PySpark Local Python Windows Notebook را اجرا کنید

مقدمه

PySpark API پایتون برای Apache Spark است، یک سیستم محاسباتی توزیع شده منبع باز که پردازش سریع و مقیاس پذیر داده را امکان پذیر می کند. PySpark به توسعه دهندگان Python اجازه می دهد تا از قابلیت های قدرتمند Spark برای تجزیه و تحلیل داده های بزرگ، یادگیری ماشین و کارهای مهندسی داده بدون نیاز به کاوش در پیچیدگی های جاوا یا اسکالا استفاده کنند.

با PySpark، کاربران می توانند مجموعه داده های بزرگی را در میان خوشه ها پردازش کنند، تبدیل داده های توزیع شده را انجام دهند و الگوریتم های یادگیری ماشین را اجرا کنند. این یکپارچه با چارچوب‌های پردازش داده محبوب مانند Hadoop ادغام می‌شود و از فرمت‌های داده‌های متعدد پشتیبانی می‌کند و آن را به یک ابزار همه کاره در علم داده و تجزیه و تحلیل تبدیل می‌کند.

این مقدمه یک نمای کلی از پیکربندی PySpark را ارائه می‌کند، به شما کمک می‌کند تا به راحتی در رایانه‌های محیطی محلی راه‌اندازی و استفاده کنید.

نصب و راه اندازی

  1. پایتون را در آدرس زیر نصب کنید: https://www.python.org/downloads/
  2. جاوا را نصب کنید ابتدا باید آخرین نسخه جاوا را از آدرس: https://jdk.java.net دانلود کنید. من از جاوا استفاده میکنم 23 برای این پست
  3. PySpark را نصب کنید

ابتدا باید Apache Spark را نیز از این زیر دانلود کنید:

من از https://www.apache.org/dyn/closer.lua/spark/spark-3.5.4/spark-3.5.4-bin-hadoop3.tgz برای ساختن یک آموزش برای این پست استفاده می کنم.

پیکربندی پایتون

  1. جاوا
import os
os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1"
os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]
وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

  1. PySpark
import os
os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3"
os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]
وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

پس از اتمام، می توانید Pyspark را در خط فرمان بررسی کنید:

مثال را با نوت بوک Pyspark امتحان کنید.

import numpy as np
import pandas as pd
spark = SparkSession.builder \
    .appName("Debugging Example") \
    .master("local[*]") \
    .config("spark.eventLog.enabled", "true") \
    .config("spark.sql.shuffle.partitions", "1") \
    .getOrCreate()

spark.sparkContext.setLogLevel("DEBUG")
# Enable Arrow-based columnar data transfers
spark.conf.set("spark.sql.execution.arrow.enabled", "true")

# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

# Create a Spark DataFrame from a pandas DataFrame using Arrow
df = spark.createDataFrame(pdf)
# rename columns
df = df.toDF("a", "b", "c")
df
وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

استفاده کنید df.show(5) برای دیدن خروجی تست با pyspark.
توضیحات تصویر

بیایید نمونه‌ای از داده‌های یادگیری ماشین را امتحان کنیم:

import requests

# URL for the dataset
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

# Download the dataset and save it locally
response = requests.get(url)
with open("iris.data", "wb") as file:
    file.write(response.content)
from pyspark.sql import SparkSession

# Create a SparkSession
spark = SparkSession.builder \
    .appName("Iris Data Analysis") \
    .master("local[*]")\
    .getOrCreate()

# Path to the locally downloaded Iris dataset
iris_data_path = "iris.data"

# Define the schema for the data
columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"]

# Load the data into a DataFrame
df = spark.read.csv(iris_data_path, header=False, inferSchema=True)

# Set column names
df = df.toDF(*columns)

# Show the first few rows of the DataFrame
df.show()

# Stop the SparkSession when done
spark.stop()

وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

توضیحات تصویر

کار می کند! به سلامتی

مرجع

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا