영국직장:데이터과학 25

글또9기 | 2024 깃헙 사용 성장목표

2년차 데이터 과학자로 진로 고민이 한창 들었던 때 (실제 이직을 시도했던) 이유 중 하나는 현재 업무 개발환경이 개인 역량에 의존도가 높고 테크니컬한 부분에 동료 평가(리뷰) 기회가 적었기 때문이었다. [퇴근 후 불켜진 빌딩 사이를 지나며 했던 생각들] 사내 데이터 사이언티스트 직책을 가진 팀원들은 파이썬/또는 R 프로그래밍을 중급 수준으로 활용하며 깃과 같은 버전 컨트롤에 대한 이해 등을 하고 있다. 다만, 팀 특성 + 적은 인원의 한계로 [분석가] 역할을 하는 사람 1인을 두고 다른 역할(주로 정책가나 PM, 가끔은 다른 모델러 등)을 가진 분들이 추가로 붙어 목표 결과물을 딜리버리 하는 경우가 대부분이다. 최소 모델을 더 발전시키지 못하거나 기술부채가 쌓이는 문제가 있다. 상대적으로 협업 도구 활..

글또9기 | 태블로 지도 커스터마이징

데이터 사이언스 업무 경계는 운영 조직별로 도메인별로 차이가 있어보인다. 고전적인 머신러닝, 통계 모델로 분석 모델링을 하는 업무가 주로 이루어지면서 크게는 DB관리와 같은 데이터 엔지니어링 역할을 포함하는지와, 대시보드 등 분석 결과를 담아내는 프로덕트 제작을 포함하는지 여부로 나눌 수 있다. 내가 근무중인 조직은 유저들이 접속하는 웹 기반 (혹은 모바일 app기반) 서비스들은 개발팀에서 담당하고 데이터 웨어하우스 아키텍처를 포함한 인프라는 관련 플랫폼 담당팀에서 담당하게 한다. 대신 데이터 사이언티스트들이 자신이 분석한 내용에 대한 보고서 작성까지 완료하도록 되어 있는데, 그 중에서도 시공간 데이터를 포함한 내용들은 종종 태블로 대시보드 형태로 전달이 되곤 한다. [참고로 England 지도 shap..

글또9기 | Pandas와 Numpy

데이터 사이언티스트로 가장 많이 사용하는 기본 두 가지 라이브러리다: Pandas와 Numpy. 최근 Pandas를 좀 더 선호하게 되면서, 특히 Databricks에서 Pyspark로 프로그래밍 빈도가 늘어나면서, 그동안 두 가지 각각 장단점이 있다고만 생각했던 부분에 확실한 필요 조건을 알게되었다. 내용을 설명하기 위한 예제를 정의하고 관련 코드를 붙인다. [문제와 조건 정의] 사이즈가 36x6인 어떤 행렬matrix을 가지고 있다고 가정하자. 각 성분component은 0 또는 1이다. 각 열마다 어떤 특정 조건 가중치weights를 적용한다고 한다. 즉, 1x6 벡터 weights를 36x6 matrix에 곱하는 연산이다. 이 때 binary matrix의 특성으로 곱의 결과 값 skew가 벌어지..

GCP Professional Cloud Database Engineer 준비과정

업보 청산이 쉬운게 아니다. 이번달 말 최초 시험 응시를 해야 하는데 공부를 하면 할 수록 하루 이틀 차이로 결과가 바뀔 문제가 아닌 것 같아 마음에 비가 주륵주륵 내리는 중이다. 돈 아까운 줄 모르고 200달러 기회를 소홀히 하게 된 것 같아 아쉽지만 한편으로는 그 시간에 했던 다른 일들에 대해 후회가 없다. 오히려 시작하겠다는 선택을 잘못 내린 것에 교훈을 얻는 중이다. kick-off이후 인트로 (Fundamentals) 강의를 수강했던 시기가 5월 8일 뱅홀이었다. 잊고 있었는데 그 주간에 유럽을 가려 계획했다가 허리디스크가 재발했던 시기다. 하고 싶었던 것을 하는 대신 쓸모 있는 일을 하는 하루를 보내는 데 보람을 느꼈던 때가 아니었나 싶다.하루만에 몰아서 듣는 수업 과정이라 8시간 꼬박 강의링..

GCP Professional Cloud Database Engineer 준비시작

지난 4월, 직장인 대상 GCP 자격증 취득 지원이 있어 지원했다; 그리고 지금 9월, 과거의 업보에 시달리고 있다. 어차피 무료니까 '하면 좋을 일'에서 '나에게 필요 없는데도 해야 하는 일'로 바뀐 탓이다. 평소에 나는 데이터 사이언스 공부를 하면서 ML modelling을 할 때 클라우드 컴퓨팅, 정확하게는 distributed computing framework for large-scale data processing과 관련하여 관심이 있었다. GCP 입문은 지난 2020-21년 석사과정 중에서 Big Data라는 수업 과제들 때문에 하게 되었다. 그 이전에는 Google colab를 실행해보면서 Google drive를 mount하고 저장된 데이터를 import 또는 완료된 데이터를 export..