글또9기10기:영국직장:데이터과학

런던직장: 엑셀모델 파이썬화

채유나 chaeyoonaaa 2024. 11. 8. 21:46
반응형

본업에서 가장 큰 공수를 차지하는 일부터 정리한다. 국정 과제 2기부터 참여하고 있다. 2년마다 refresh를 해야 하는 모델이다.

주 스택은 PySpark로 구성되어 있다. 개발환경은 Azure DataLake를 스토리지로 사용하고 별도 컨테이너 블롭을 SharePoint로 동기화 하기위한 파워셸 스크립트를 활용하여 사용자 입력 데이터들을 받아온다. 파이프라인 구성은 Databricks에 되어있고 시나리오 런타임은 클러스터 상황에 따라 보통 1시간에서 2시간 정도 소요된다. PySpark 코드들은 배치식으로 구성되어 메인 코드에서 별도 컨피그와 함수들을 호출해온다. 브론즈레벨 인풋들을 처리해 parquet 아웃풋으로 실버레벨 중간값들과 골드레벨 최종값을 저장한다.




지난 1기 감사 지적사항을 해결하는 것이 가장 중요한 우선순위이며 그 중 상당수는 메인 모델 밖에서 개발된 엑셀 모델 (+ 수동 복사된 결과값)들을 파이썬화하여 자동화하는데 있다.

NHS England's modelling for the Long Term Workforce Plan - NAO report

Weaknesses in modelling for NHS England’s Long Term Workforce Plan need addressing to improve future strategic workforce planning.

www.nao.org.uk

그 중에서 내가 리딩하는 부분은 Community pharmacy workforce supply modelling이고 여기서 커뮤니티란 일반 길거리에서 볼 수 있는 약국 체인들을 의미한다. 수요와 공급을 함께 모델링했던 지난 1기 담당자들과 협업하면서 도메인 관련 지식들을 배우고 있다. 수요 부분은 가설 세울 부분이 많아서 기존 담당자들이 한번 더 역할을 유지하기로 하였고 공급 부분은 분리해왔다. 엑셀파일 안에서도 여기저기 다른 시트를 참조하는 방식의 모델 구조가 이해되지 않아 수요와 공급 파트를 나누는 것만도 도움을 받아야했다.


파이썬 모델로 가져오기위해 한창 스크립트 작업을 하는 중이다.


반응형