incastle의 콩나물

pyspark Array<string> column fill na with empty list 본문

Data Engineering/spark pyspark

pyspark Array<string> column fill na with empty list

incastle 2021. 7. 12. 18:10

핵심은 F.array().cast('array<string>')을 사용하는 것

list column의 na를 채워줄 때 어떻게 해도 계속 에러가 나서 2시간은 삽질한 것 같다. 

import pyspark.sql.functions as F

fill_array = F.array().cast("array<string>")
fill_rule = F.when(F.col('txt_set').isNull().fill_array).otherwise(F.col('txt_set')
cntn_tb = cntn_tb.withColumn('txt_set', fill_rule)

'Data Engineering > spark pyspark' 카테고리의 다른 글

Pyspark에 대해 알아보자 (1)  (0) 2021.03.28
Comments