Data Engineering/spark pyspark
pyspark Array<string> column fill na with empty list
incastle
2021. 7. 12. 18:10
핵심은 F.array().cast('array<string>')을 사용하는 것
list column의 na를 채워줄 때 어떻게 해도 계속 에러가 나서 2시간은 삽질한 것 같다.
import pyspark.sql.functions as F
fill_array = F.array().cast("array<string>")
fill_rule = F.when(F.col('txt_set').isNull().fill_array).otherwise(F.col('txt_set')
cntn_tb = cntn_tb.withColumn('txt_set', fill_rule)