em Spark, adicionando uma coluna constante a um quadro de dados com um valor específico para cada linha de linhas pode ser alcançada usando vários métodos. Crie um valor literal, que pode ser usado como o segundo argumento do dataframe.withcolumn para adicionar uma coluna constante:
para colunas mais complexas, funções como matriz, mapa e struct podem ser usadas para construir os valores de coluna desejados:
from pyspark.sql.functions import lit df.withColumn('new_column', lit(10))
typeDlit (spark 2.2)
from pyspark.sql.functions import array, map, struct df.withColumn("some_array", array(lit(1), lit(2), lit(3))) df.withColumn("some_map", map(lit("key1"), lit(1), lit("key2"), lit(2)))
como alternativa ao uso de valores literais, é possível criar uma função definida (udf) que retorna um valor constante para constante pyspark.sql.functions importar udf, iluminado def add_ten (linha): retornar 10 add_ten_udf = udf (add_ten, integertype ()) df.withcolumn ('new_column', add_ten_udf (lit (1.0)))
import org.apache.spark.sql.functions.typedLit df.withColumn("some_array", typedLit(Seq(1, 2, 3))) df.withColumn("some_struct", typedLit(("foo", 1, 0.3)))note:
os valores constantes também podem ser passados como argumentos para udfs ou sql funções usando os mesmos construtores.
Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.
Copyright© 2022 湘ICP备2022001581号-3