국내/해외 잡 마켓에서 통용되는 기준이 다를 수 있다. 업의 영역만으로도 워낙 포괄적이라 하나로 정의하기 어렵더라. 지난 3년간 개인 주요 업무실적을 바탕으로 직무 구분을 해보겠다. 2024년 회고 내용 중 가장 큰 비중을 차지하는 내용이 직무 변경이어서 그것을 쓰다보니 확장된 개인 기록이다.
1년차 데이터과학자: Python vs R
나의 대학원 졸업 ~ 입사 전 프로그래밍 스펙은 Python 50, R 40, 기타 10이었다. 석사 학위를 취득할 때 머신러닝 과목은 MATLAB으로, 시각화 분석 과목은 Elm으로 평가 받은 내용이 기타 언어 자격에 들어간다. 학위 논문 등에 추가로 코드를 읽을 줄 알고 쓸 수 있는 능력을 취업 과정에서 증명해야 했는데 그 당시 실력은 시간이 충분히 주어진다면 왠만큼 Python과 R 사이에서 1:1 상호 매칭이 되게끔 번역할 수 있는 정도였다. 이러한 기본을 바탕으로 데이터과학 전공 학생들을 위한 교재 출판 과정에 기여한 이력도 가지고 있었다.
현업 초반까지 R Studio를 켤 일이 있다가 ... 입사 1년 기념일까지 때맞춰 끝난 프로젝트를 정점으로 더 이상 R 프로그래밍을 사용하지 않는다. 내부 관리기준에 맞춘 최초의 '완결' 보고이기도 했다.
(영국 공기업 기준으로) 입사 후 초반 3개월동안 집중적으로 의료/헬스케어 도메인 지식을 익히는 시기가 있었다. 그 후 1년차까지 역할은 Python 또는 R 프로그래밍 코드를 구현하는 코더에 가까웠다. 개발자 직무 정의와는 달랐다. 로컬 머신에서 단독 스크립트 작업이 대부분이었고, 엑셀 또는 SQL로 작업할 수 있는 내용을 '프로그래밍화'하는 목적이 분명했다.
2년차 데이터과학자: Azure DataLake/DevOps, Databricks, Tableau server dashboard
나는 (석사 졸업 후) 신입 입사였기 때문에, 작은 과제들을 통해 도메인 이해가 어느 정도 잡힌 이후에 본격적인 서비스 요구사항을 받은 것이 자연스러운 것 같아 일반화해도 괜찮겠다 싶다. 2년차 근무부터 클라우드 기반 중앙 집중 시스템 요구사항이 폭발적으로 늘었다. 이전까지 주어진 데이터 플랫폼은 Microsoft SQL Server Management Studio (SSMS)이 전부였고 내가 활용할 도구 선택 자유도가 높았다. 예를 들어 Python의 경우 기본형(.py)으로 작성하던지 IPYNB로 작성하던지 SSMS과 연결만 하면되고 경우에 따라 로컬 머신으로 pull down받은 csv 파일을 import하는 방식으로 사용해도 상관없었다.
요구사항들이 바뀐 시점이 우연일 수도 있다. 계약직 1년 근무를 마치고 정규직 전환을 하며 주니어 타이틀을 뗀 시기다. 재직중인 회사 (영국 공기업 통폐합 절차에 따라) 내부적으로 조직개편이 크게 있었고 Data Science professionals 모두가 한 그룹으로 인사 통합 절차를 거치며 일어난 변화가 더 크게 있었던 시기였기 때문이다. 그래도 주변 졸업생들 사정이 크게 다르지 않았다. 회사마다 다른 부분은 있지만 데이터과학자의 역할 정의가 체계적으로 확정되어 있지는 않다. 처음 얼마간 깍두기가 할 수 있는 일도 많지 않다. (내가 영국 회사로 데이터과학자 커리어를 시작해서) 국내 상황과 다를 부분은 사수 제도가 없는 점이다. 라인 매니저 또는 멘토가 있어 전반적인 근무 상황을 살펴주고 연차 사용 등 행정 절차 승인을 하긴 하나 업무 방법 지도를 하지 않는다. 무척 낮은 직급 (현장실습생) 또는 미성년자의 경우에나 업무 섀도잉이라는 개념을 적용한다. 그러니 JD에 명시된 바에서 벗어나지 않으면서 깍두기를 훈련하는 방법 중에 하나로 기존 조직에서 사용하던 데이터 모델(또는 분석 방식)을 프로그래밍 언어로 번역하는 업무를 주었던 것 같다. 유지보수 업무에서 1년 후 내부 진급을 거치며 기존에 존재하던 기술부채들을 해결한다거나 다음 단계로 규모 확장을 한다던지 등으로 자연스럽게 중앙 시스템 요구사항에 맞춰 개발 역량을 높여갈 수 있었다.
3년차 데이터과학자: PySpark, LLM (Gen AI)
이때까지 나의 업무는 Deterministic model이 대다수를 차지한다. 주요 업무 이해 관계자들이 모델 컨트롤을 하여 독자적인 함수를 구현해야 하는 내용이 많았다. 2년차까지는 분석 결과를 태블로 대시보드로 전달되어야 하는 내용도 있어 잡 마켓 JD기준 Product Data Scientist가 나의 현업을 설명하는데 가장 가까웠다. 3년차는 아직 진행중이니 온전히 정의할 수 없지만 직무 변경이 확연하게 일어났다고 느끼는 시점이 더 이상 Pandas 코드 작성을 발행하지 않는다는 것을 깨달으면서였다. 간단한 EDA를 수행할 때 여전히 선호하기도 하고 동료 코드 리뷰는 참여한다. 하지만 이제는 병렬 프로그래밍 기법 등 좀 더 계산 효율적인 코드 작성을 공부하고 적용하는 시기다.
자연스럽게 LLM 또는 Gen AI 모델 탐색이 늘었고 해당 내용을 어떻게 정규업무로 잘 레버리지 할까 다른 종류의 고민을 하기도 한다. 자기개발 시간으로 할당된 시간을 좀 더 실용적으로 사용하고 있다. 주 5일 37.5시간 근무를 기준으로 업무 현황집계한 내용이 아래와 같다.
내가 재직중인 부서는 평상시 풀타임 정규직 근로자 1명의 프로젝트 근무 가능시간을 70%로 둔다. 추가로 공식적인 팀 미팅이나 행정 관련 소모시간을 10%로 둔다. 커뮤니케이션은 여기저기 중복일 수 있지만, 해당 추가시간은 스탠드업처럼 '정기적으로 열리는' 미팅과 이를 실행하기 위한 시간들 (예를 들어 티켓 보드 상태 변경 등)을 합쳐서 별도 분류한 것이다. 나머지 20%는 부재중인 시간을 보호하기 위해 마련되어 있다. 연차, 병가, 교육 훈련시간 모두가 여기에 해당한다. 유동적이긴 해도 20% 범위 내에서 결근이 너무 많은 경우 희망 교육 신청에서 배제될 수도 있다. 훈련 과정 신청시에는 자기개발이냐 계발이냐 카테고리를 분명하게 한다. 3년차가 되면서 활용한 20% 시간을 살펴보니 가시적인 성과를 얻어 복기한 내용만 크게 두 건이다.
2022년 11월 ChatGPT가 공개되던 시점에 나는 데이터과학 석사학위를 받았다. 그 전까지 이미 데이터과학 업의 정의는 머신러닝과 딥러닝모델을 포함할 뿐만 아니라 시각적 분석까지 더하는 포괄적 학문이어서 잡마켓이 세분화되어 있었다. (영국 런던 기준) Data Engineer, Data Analyst, BI Analyst, Data Scientist, Product Data Scientist, Applied Data Scientist, AI/ML Engineer, MLOps Engineer, NLP researcher 등이다. 같은 잡 타이틀 안에서 도메인에 따라 활용 데이터/분석 능력이 다르게 요구받았다. 예를 들어 Computer Vision 전공과 Text Processing 전공 지원자는 다른 조건으로 채용평가를 한다. 여기에 LLM + Gen AI 모델로 세상이 변하며 추가되는 잡마켓 요구사항들을 직간접적으로 영향받고 있는 중이다. 같은 회사에 3년차 재직중인데 연차별 직무 구분을 바탕으로 그동안 변화와 성장을 정리할 수 있었다. 남은 3년차 기간은 글또 10기를 시작하며 다짐한 대로 + 4년차 초반까지 스탯을 쌓는 것으로 흘러가지 않을까 싶다. 이로써 2024년 회고 겸 2025년 계획을 다시 점검해보며 한 해를 마친다.
'글또9기10기:영국직장:데이터과학' 카테고리의 다른 글
글또 10기 | Palantir 데이터분석 경연 복기 (4) | 2024.12.21 |
---|---|
글또 10기 | 헬스케어 AI 해커톤 복기 (4) | 2024.12.15 |
런던직장: 설계협의 (0) | 2024.11.20 |
런던직장: 출근길 낭만 (2) | 2024.11.19 |
런던직장: 주말공부3 (2) | 2024.11.18 |