데이터 사이언스 업무 경계는 운영 조직별로 도메인별로 차이가 있어보인다. 고전적인 머신러닝, 통계 모델로 분석 모델링을 하는 업무가 주로 이루어지면서 크게는 DB관리와 같은 데이터 엔지니어링 역할을 포함하는지와, 대시보드 등 분석 결과를 담아내는 프로덕트 제작을 포함하는지 여부로 나눌 수 있다. 내가 근무중인 조직은 유저들이 접속하는 웹 기반 (혹은 모바일 app기반) 서비스들은 개발팀에서 담당하고 데이터 웨어하우스 아키텍처를 포함한 인프라는 관련 플랫폼 담당팀에서 담당하게 한다. 대신 데이터 사이언티스트들이 자신이 분석한 내용에 대한 보고서 작성까지 완료하도록 되어 있는데, 그 중에서도 시공간 데이터를 포함한 내용들은 종종 태블로 대시보드 형태로 전달이 되곤 한다.
[참고로 England 지도 shape 파일은 ONS(영국 통계청)에서 관리한다.]
담당 분석 프로젝트에 따라 지역 경계선을 나누고 그 안에 해당하는 관련 데이터들을 매핑하는 방식으로 시각화를 하는 편이다. 이 때 분석 과제에 따라 지역 그룹이 달라지는데 마스터 shape 파일에서 예외되는 사항들이 생길 경우 커스터마이징을 해야 하는 경우가 종종 있다. 예를 들어 아래 잉글랜드 맵(왼쪽 그림)에서 세부 지역 경계로 나눠진 로컬 지역들 중 일부분을 오른쪽과 같이 묶어 표시해야 하는 식이다.
이를 위해 유용하게 사용할 수 있는 프로그램이 QGIS다. 지도에 위치한 도형을 벡터로 인식하고 새로운 벡터를 더하거나 기존 벡터를 합하는 방식으로 프로그램을 활용할 수 있다. 공식 독스는 다음을 참조할 수 있다.
https://docs.qgis.org/3.28/en/docs/user_manual/introduction/getting_started.html
이 글에서는 몇 가지 간단한 사용 예시들을 설명하고자 한다. 우선 QGIS 프로그램을 설치하고 나면 Project 단위로 작업 그룹을 관리할 수 있는 것을 확인할 수 있다. Layers는 벡터로 구성된 선과 (도형의) 면을 관리하는 영역이다. 각각의 Attributes 및 Symbol을 관리할 수 있다.
Attributes 들은 특히 태블로 대시보드에서 매핑 정보로 활용할 수 있는 영역이므로 가능한 구분이 용이한 이름과 설정들을 사용하는 것이 유리하다. 예를 들어 예시의 지도 shape file의 경우 각 영역을 구분하는 object가 아이디와 이름으로 구분되고 해당 좌료들이 매치되어 있을을 알 수 있다. 이 중 ID와 Name에 해당하는 부분이 (아래 오른쪽) 태블로 소스파일 관리에서 데이터와 연결할 때 활용할 수 있다.
Symbology에서는 색상과 투명도 등 비쥬얼 요소에 대한 부분을 담당하고 있다. 각 레이어의 symbology 설정들이 지도에 시각적으로 나타나는 것을 아래 캡쳐와 같이 확인할 수 있다. 이러한 특징은 GIS데이터를 공간적 측면으로 표현하는 다른 방법들에 비해 비교적 수월하다는 장점이 있다.
원하는 작업 프로젝트의 레이어에서 해당 지도 안의 피쳐(feature)를 선택하고 병합(merge)하는 방식이 가장 기본 활용법이다. 한 가지 요령이라면 기본 계층 베이스를 과거 오래된 shape 파일로 깔아두고 새로 만들게 될 영역의 가이드가 되는 레이어를 하나 더 중첩한 다음 그 안에서 합칠 조각들을 찾아서 선택하는 방식이다. 이 때 작은 피쳐 여러 개를 병합하면서 해당 attributes를 무엇으로 통일할 것인지 설정 또한 추가로 해주어야 한다.
모든 과정에 맞게 수정한 파일은 export 하여 새로운 shape 파일로 저장하고 이를 태블로에서 불러오면 된다. 여기서는 북부 잉글랜드의 지역 경계선 일부를 합한 것(아래 그림 오른쪽 노란색 영역)으로 예시를 볼 수 있다.
이렇게 커스터마이징한 지도를 활용하는 이유는 나의 분석 레포트를 받아보는 사람들이 [본인 담당 지역]에 초점을 맞춰 데이터를 보기 원하기 때문이다. 특히 지역간 자원의 이동에 대한 이야기를 할 때면 (예를 들어 런던에서 켄트로) 지리적 정보에 대한 이해가 필수여서 지도 형식의 대시보드를 주로 활용하곤 하는데 경계판단에 참조할 시안들이 확정되지 않은 상황에서 초안 작성을 하는 경우가 있고, 이 때는 받는 사람의 입장에 맞는 여러 가지 커스터마이징을 하는 편이다. 본인의 업무 영역이 시공간 데이터를 함께 다룬다면 QGIS를 활용해 shape 파일을 수정하는 것으로 분석상황에 맞는 지도를 만들 수 있는 장점이 있으니 활용하길 추천한다.
'글또9기10기:영국직장:데이터과학' 카테고리의 다른 글
글또9기 | 노력과 변명 사이 #tkinter (0) | 2024.02.20 |
---|---|
글또9기 | 2024 깃헙 사용 성장목표 (0) | 2024.01.21 |
글또9기 | Pandas와 Numpy (2) | 2023.12.10 |
GCP Professional Cloud Database Engineer 준비과정 (2) | 2023.09.18 |
GCP Professional Cloud Database Engineer 준비시작 (0) | 2023.09.10 |