목록Data Engineering (4)
incastle의 콩나물
Bandit이란? - bandit은 Python 코드에서 일반적인 보안 문제를 찾기 위해 설계된 도구입니다. - 이를 위해 Bandit은 각 파일을 처리하고 이 파일에서 AST를 만들고 AST 노드에 대해 적절한 플러그인을 실행합니다. - - Bandit이 모든 파일 스캔을 마치면 보고서를 생성합니다. 사용법 ## severity-level : low, medium, high 중 특정 level 이상의 보안 항목만 보고 싶을 때 ## o : save file path ## f : save file format (csv, json 등 다양하게 있음) ## b : baseline_report 설정 bandit -r . o [save_report_path] --severity-level [level] -f j..
django, flask등의 python 기반의 웹 프레임워크는 어떻게 서버와 통신을 하는가? 서버와 통신을 할 때 사용되는 인터페이스로서 CGI, WSGI, ASGI 등이 사용된다. CGI(Common gateway Interface) 웹서버와 외부 프로그램을 연결해주는 표준화된 프로토콜 클라이언트의 요청이 있을 때마다 프로세스를 추가 생성 삭제 작업을 반복해서 비효율적이다. (오버헤드 심함 + 메모리) WSGI(Web Server Gateway Interface) WSGI는 모든 요청을 한 프로세스에서 처리를 한다. 많은 요청을 콜백으로 받아 처리를 함, CGI는 매 요청마다 Fork 등의 함수를 통해 커널 리소스를 추가/반납함 ASGI(Asynchronous Server Gateway Interfa..
핵심은 F.array().cast('array')을 사용하는 것 list column의 na를 채워줄 때 어떻게 해도 계속 에러가 나서 2시간은 삽질한 것 같다. import pyspark.sql.functions as F fill_array = F.array().cast("array") fill_rule = F.when(F.col('txt_set').isNull().fill_array).otherwise(F.col('txt_set') cntn_tb = cntn_tb.withColumn('txt_set', fill_rule)
spark.apache.org/docs/latest/api/python/getting_started/quickstart.html Quickstart — PySpark 3.1.1 documentation This is a short introduction and quickstart for the PySpark DataFrame API. PySpark DataFrames are lazily evaluated. They are implemented on top of RDDs. When Spark transforms data, it does not immediately compute the transformation but plans how to compute spark.apache.org 해당 문서를 번역하면..