Ayuda con PySpark y entendimiento de Código

Iniciado por lemos.ema, Enero 25, 2021, 10:42:01 AM

Tema anterior - Siguiente tema

0 Miembros y 1 Visitante están viendo este tema.

Enero 25, 2021, 10:42:01 AM Ultima modificación: Enero 25, 2021, 11:22:05 AM por Gabriela
Hola Comunidad hermosa ! :D
tengo un problema a la hora de utilizar PySpark. Entiendo en concepto de que trabaja en clusteres y que puede hacer peticiones a base de datos tipo Hadoop. Estas acciones funcionan en paralelo y esta es la ventaja de trabajar con Frameworks como este. Creo que mucha gente tiene bastantes dudas de como utilizarlo ya que en Internet no hay mucha información clara y hay mucha gente preguntando (por lo que creo que este post le va a ser de gran ayuda a muchos)

Pero a la hora de introducir todos esos conceptos en la practica estoy medio perdido. Yo uso Python por ende les dejo el codigo en Python:

Código: python
from pyspark.sql.types import StructType, StructField, FloatType, BooleanType
from pyspark.sql.types import DoubleType, IntegerType, StringType
import pyspark

from pyspark import SQLContext



conf = pyspark.SparkConf()

sc = pyspark.SparkContext.getOrCreate(conf=conf)
sqlcontext = SQLContext(sc)

schema = StructType([
    StructField("sales", IntegerType(),True),
    StructField("sales person", StringType(),True)
])

data = ([(10, 'Walker'),
        ( 20, 'Stepher')
        ])
       
df=sqlcontext.createDataFrame(data,schema=schema)

df.show()


Corre lo mas bien pero me surgen muchas preguntas en cuanto al código.

1)-¿Dónde elijo la cantidad de nodos que usaré? ¿Y dónde se ejecutan, en esta misma computadora que tiene particiones de memoria? Porque teóricamente los RDD tienen que trabajar en Paralelo no ? (esa es la gracia de Spark)

¿Dónde elijo la cantidad de memoria que usaré? Y si quiero usar memoria y disco a la vez?
3)Si quiero acceder a una base de datos de Hadoop, ¿cómo puedo hacerlo?

Podrían contestar con un código y un paréntesis al lado explicando las leneas y para que funcionan. Saludos y muchas Gracias