incastle의 콩나물
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/eqtHL8/btrkgHuWWV0/leyV6wNWhTtRgv5PKHHWw0/img.jpg)
Google Brain - Ventilator Pressure Prediction대회가 끝나고 승자의 커널들을 보다 처음보는 개념이 있어서 공유한다. Auxiliary Target이라는 건데 직역하면 '보조 타겟' 이다. 이 대회의 Target value는 pressure이라는 numeric 변수이고, sequence형태의 데이터를 predict해야한다. TensorFlow Transformer - [0.112] Explore and run machine learning code with Kaggle Notebooks | Using data from vent-transformer www.kaggle.com 이 때 pressure 값만 target으로 예측하는 것 외에도 'pressure.diff()' 및..
핵심은 F.array().cast('array')을 사용하는 것 list column의 na를 채워줄 때 어떻게 해도 계속 에러가 나서 2시간은 삽질한 것 같다. import pyspark.sql.functions as F fill_array = F.array().cast("array") fill_rule = F.when(F.col('txt_set').isNull().fill_array).otherwise(F.col('txt_set') cntn_tb = cntn_tb.withColumn('txt_set', fill_rule)
BUT, if you're appending in a large number of loops. It's faster to append list first and convert to array than appending NumPy arrays. 큰 숫자를 loop를 돌리면, list에 append한 다음에 마지막에 numpy로 바꿔주는 게 더 빠르다 In [8]: %%timeit ...: list_a = [] ...: for _ in xrange(10000): ...: list_a.append([1, 2, 3]) ...: list_a = np.asarray(list_a) ...: 100 loops, best of 3: 5.95 ms per loop In [9]: %%timeit ....: arr_a = n..
spark.apache.org/docs/latest/api/python/getting_started/quickstart.html Quickstart — PySpark 3.1.1 documentation This is a short introduction and quickstart for the PySpark DataFrame API. PySpark DataFrames are lazily evaluated. They are implemented on top of RDDs. When Spark transforms data, it does not immediately compute the transformation but plans how to compute spark.apache.org 해당 문서를 번역하면..