Data Engineering/spark pyspark

pyspark Array<string> column fill na with empty list

incastle 2021. 7. 12. 18:10

핵심은 F.array().cast('array<string>')을 사용하는 것

list column의 na를 채워줄 때 어떻게 해도 계속 에러가 나서 2시간은 삽질한 것 같다. 

import pyspark.sql.functions as F

fill_array = F.array().cast("array<string>")
fill_rule = F.when(F.col('txt_set').isNull().fill_array).otherwise(F.col('txt_set')
cntn_tb = cntn_tb.withColumn('txt_set', fill_rule)