برنامه نویسی

PySpark Local Python Windows Notebook را اجرا کنید

ek3nk4r 2025-01-21

0 3 خواندن این مطلب 2 دقیقه زمان میبرد

PySpark Local Python Windows Notebook را اجرا کنید

پیشنهاد ویژه

خرید فالوور واقعی خرید لایک اینستاگرام خرید ویو اینستاگرام خرید فالوور اینستاگرام

فهرست مطالب

مقدمه

PySpark API پایتون برای Apache Spark است، یک سیستم محاسباتی توزیع شده منبع باز که پردازش سریع و مقیاس پذیر داده را امکان پذیر می کند. PySpark به توسعه دهندگان Python اجازه می دهد تا از قابلیت های قدرتمند Spark برای تجزیه و تحلیل داده های بزرگ، یادگیری ماشین و کارهای مهندسی داده بدون نیاز به کاوش در پیچیدگی های جاوا یا اسکالا استفاده کنند.

با PySpark، کاربران می توانند مجموعه داده های بزرگی را در میان خوشه ها پردازش کنند، تبدیل داده های توزیع شده را انجام دهند و الگوریتم های یادگیری ماشین را اجرا کنند. این یکپارچه با چارچوب‌های پردازش داده محبوب مانند Hadoop ادغام می‌شود و از فرمت‌های داده‌های متعدد پشتیبانی می‌کند و آن را به یک ابزار همه کاره در علم داده و تجزیه و تحلیل تبدیل می‌کند.

این مقدمه یک نمای کلی از پیکربندی PySpark را ارائه می‌کند، به شما کمک می‌کند تا به راحتی در رایانه‌های محیطی محلی راه‌اندازی و استفاده کنید.

نصب و راه اندازی

پایتون را در آدرس زیر نصب کنید: https://www.python.org/downloads/
جاوا را نصب کنید ابتدا باید آخرین نسخه جاوا را از آدرس: https://jdk.java.net دانلود کنید. من از جاوا استفاده میکنم 23 برای این پست
PySpark را نصب کنید

ابتدا باید Apache Spark را نیز از این زیر دانلود کنید:

من از https://www.apache.org/dyn/closer.lua/spark/spark-3.5.4/spark-3.5.4-bin-hadoop3.tgz برای ساختن یک آموزش برای این پست استفاده می کنم.

پیکربندی پایتون

جاوا

import os
os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1"
os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]

PySpark

import os
os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3"
os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]

پس از اتمام، می توانید Pyspark را در خط فرمان بررسی کنید:

مثال را با نوت بوک Pyspark امتحان کنید.

import numpy as np
import pandas as pd
spark = SparkSession.builder \
    .appName("Debugging Example") \
    .master("local[*]") \
    .config("spark.eventLog.enabled", "true") \
    .config("spark.sql.shuffle.partitions", "1") \
    .getOrCreate()

spark.sparkContext.setLogLevel("DEBUG")
# Enable Arrow-based columnar data transfers
spark.conf.set("spark.sql.execution.arrow.enabled", "true")

# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

# Create a Spark DataFrame from a pandas DataFrame using Arrow
df = spark.createDataFrame(pdf)
# rename columns
df = df.toDF("a", "b", "c")
df

استفاده کنید df.show(5) برای دیدن خروجی تست با pyspark.
توضیحات تصویر

بیایید نمونه‌ای از داده‌های یادگیری ماشین را امتحان کنیم:

import requests

# URL for the dataset
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

# Download the dataset and save it locally
response = requests.get(url)
with open("iris.data", "wb") as file:
    file.write(response.content)
from pyspark.sql import SparkSession

# Create a SparkSession
spark = SparkSession.builder \
    .appName("Iris Data Analysis") \
    .master("local[*]")\
    .getOrCreate()

# Path to the locally downloaded Iris dataset
iris_data_path = "iris.data"

# Define the schema for the data
columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"]

# Load the data into a DataFrame
df = spark.read.csv(iris_data_path, header=False, inferSchema=True)

# Set column names
df = df.toDF(*columns)

# Show the first few rows of the DataFrame
df.show()

# Stop the SparkSession when done
spark.stop()