본업에서 가장 큰 공수를 차지하는 일부터 정리한다. 국정 과제 2기부터 참여하고 있다. 2년마다 refresh를 해야 하는 모델이다. 주 스택은 PySpark로 구성되어 있다. 개발환경은 Azure DataLake를 스토리지로 사용하고 별도 컨테이너 블롭을 SharePoint로 동기화 하기위한 파워셸 스크립트를 활용하여 사용자 입력 데이터들을 받아온다. 파이프라인 구성은 Databricks에 되어있고 시나리오 런타임은 클러스터 상황에 따라 보통 1시간에서 2시간 정도 소요된다. PySpark 코드들은 배치식으로 구성되어 메인 코드에서 별도 컨피그와 함수들을 호출해온다. 브론즈레벨 인풋들을 처리해 parquet 아웃풋으로 실버레벨 중간값들과 골드레벨 최종값을 저장한다. 지난 1기 감사 지적사항을 해결하는 ..