In Spark können Sie einen Datenfrequenz mit einem bestimmten Wert für jede Zeile hinzufügen. Mit verschiedenen Methoden können Sie mit verschiedenen Methoden erreicht werden.
von pyspark.sql.functions importieren lit lit importieren df.withColumn('new_column', lit(10))
from pyspark.sql.functions import lit df.withColumn('new_column', lit(10))
from pyspark.sql.functions import array, map, struct df.withcolumn ("slow_array", Array (beleuchtet (1), beleuchtet (2), beleuchtet (3))) df.withcolumn ("son_map", map (lit ("key1"), lit (1), lit ("key2"), lit (2))
from pyspark.sql.functions import array, map, struct df.withColumn("some_array", array(lit(1), lit(2), lit(3))) df.withColumn("some_map", map(lit("key1"), lit(1), lit("key2"), lit(2)))
mit einem udf
import org.apache.spark.sql.functions.typedLit df.withColumn("some_array", typedLit(Seq(1, 2, 3))) df.withColumn("some_struct", typedLit(("foo", 1, 0.3)))
Die konstanten Werte können auch als Argumente an UDFs oder SQL -Funktionen verwendet werden, die dieselben Konstruktionen verwenden.
Haftungsausschluss: Alle bereitgestellten Ressourcen stammen teilweise aus dem Internet. Wenn eine Verletzung Ihres Urheberrechts oder anderer Rechte und Interessen vorliegt, erläutern Sie bitte die detaillierten Gründe und legen Sie einen Nachweis des Urheberrechts oder Ihrer Rechte und Interessen vor und senden Sie ihn dann an die E-Mail-Adresse: [email protected] Wir werden die Angelegenheit so schnell wie möglich für Sie erledigen.
Copyright© 2022 湘ICP备2022001581号-3