전체 글 37

글또9기 | 2024 깃헙 사용 성장목표

2년차 데이터 과학자로 진로 고민이 한창 들었던 때 (실제 이직을 시도했던) 이유 중 하나는 현재 업무 개발환경이 개인 역량에 의존도가 높고 테크니컬한 부분에 동료 평가(리뷰) 기회가 적었기 때문이었다. [퇴근 후 불켜진 빌딩 사이를 지나며 했던 생각들] 사내 데이터 사이언티스트 직책을 가진 팀원들은 파이썬/또는 R 프로그래밍을 중급 수준으로 활용하며 깃과 같은 버전 컨트롤에 대한 이해 등을 하고 있다. 다만, 팀 특성 + 적은 인원의 한계로 [분석가] 역할을 하는 사람 1인을 두고 다른 역할(주로 정책가나 PM, 가끔은 다른 모델러 등)을 가진 분들이 추가로 붙어 목표 결과물을 딜리버리 하는 경우가 대부분이다. 최소 모델을 더 발전시키지 못하거나 기술부채가 쌓이는 문제가 있다. 상대적으로 협업 도구 활..

글또9기 | 태블로 지도 커스터마이징

데이터 사이언스 업무 경계는 운영 조직별로 도메인별로 차이가 있어보인다. 고전적인 머신러닝, 통계 모델로 분석 모델링을 하는 업무가 주로 이루어지면서 크게는 DB관리와 같은 데이터 엔지니어링 역할을 포함하는지와, 대시보드 등 분석 결과를 담아내는 프로덕트 제작을 포함하는지 여부로 나눌 수 있다. 내가 근무중인 조직은 유저들이 접속하는 웹 기반 (혹은 모바일 app기반) 서비스들은 개발팀에서 담당하고 데이터 웨어하우스 아키텍처를 포함한 인프라는 관련 플랫폼 담당팀에서 담당하게 한다. 대신 데이터 사이언티스트들이 자신이 분석한 내용에 대한 보고서 작성까지 완료하도록 되어 있는데, 그 중에서도 시공간 데이터를 포함한 내용들은 종종 태블로 대시보드 형태로 전달이 되곤 한다. [참고로 England 지도 shap..

글또9기 | Pandas와 Numpy

데이터 사이언티스트로 가장 많이 사용하는 기본 두 가지 라이브러리다: Pandas와 Numpy. 최근 Pandas를 좀 더 선호하게 되면서, 특히 Databricks에서 Pyspark로 프로그래밍 빈도가 늘어나면서, 그동안 두 가지 각각 장단점이 있다고만 생각했던 부분에 확실한 필요 조건을 알게되었다. 내용을 설명하기 위한 예제를 정의하고 관련 코드를 붙인다. [문제와 조건 정의] 사이즈가 36x6인 어떤 행렬matrix을 가지고 있다고 가정하자. 각 성분component은 0 또는 1이다. 각 열마다 어떤 특정 조건 가중치weights를 적용한다고 한다. 즉, 1x6 벡터 weights를 36x6 matrix에 곱하는 연산이다. 이 때 binary matrix의 특성으로 곱의 결과 값 skew가 벌어지..

개발 번역 후반기 🇬🇧🇰🇷

과거의 내가 만들어놓은 업보 청산에 숨가쁘게 달렸다. 올해가 100일도 채 남지 않은 시점에서 도저히 안될 것 같은 일들은 버리기 시작했다. 이미 투자해놓은 것들이 충분히 깔려있어 조금만 마무리하면 되는 것들을 최대한 수확하고 있다. 그 중 최고봉이 개발 번역에 대한 일이다. 괜찮은 커뮤니티에서 많은 걸 배운 봉사 활동을 이제 그만 정리하고자 한다. 1년 정도 활동 기간동안 총 11개의 개인 번역글을 발행하여 프로필을 채웠고 1개의 커뮤니티 책을 공동 번역/감수하는 데 참여하였다. 올해 들어 글또8기 활동을 하며 틈틈히 그동안의 과정을 정리해두었고 글을 쓰는 동안 내가 왜 번역활동을 시작하였는지, 그로 인해 얻은 것들은 무었이었는지, 배운 것들로 앞으로 가져갈 교훈은 무엇이었는지 등을 가다듬는 시간을 가..

GCP Professional Cloud Database Engineer 준비과정

업보 청산이 쉬운게 아니다. 이번달 말 최초 시험 응시를 해야 하는데 공부를 하면 할 수록 하루 이틀 차이로 결과가 바뀔 문제가 아닌 것 같아 마음에 비가 주륵주륵 내리는 중이다. 돈 아까운 줄 모르고 200달러 기회를 소홀히 하게 된 것 같아 아쉽지만 한편으로는 그 시간에 했던 다른 일들에 대해 후회가 없다. 오히려 시작하겠다는 선택을 잘못 내린 것에 교훈을 얻는 중이다. kick-off이후 인트로 (Fundamentals) 강의를 수강했던 시기가 5월 8일 뱅홀이었다. 잊고 있었는데 그 주간에 유럽을 가려 계획했다가 허리디스크가 재발했던 시기다. 하고 싶었던 것을 하는 대신 쓸모 있는 일을 하는 하루를 보내는 데 보람을 느꼈던 때가 아니었나 싶다.하루만에 몰아서 듣는 수업 과정이라 8시간 꼬박 강의링..

GCP Professional Cloud Database Engineer 준비시작

지난 4월, 직장인 대상 GCP 자격증 취득 지원이 있어 지원했다; 그리고 지금 9월, 과거의 업보에 시달리고 있다. 어차피 무료니까 '하면 좋을 일'에서 '나에게 필요 없는데도 해야 하는 일'로 바뀐 탓이다. 평소에 나는 데이터 사이언스 공부를 하면서 ML modelling을 할 때 클라우드 컴퓨팅, 정확하게는 distributed computing framework for large-scale data processing과 관련하여 관심이 있었다. GCP 입문은 지난 2020-21년 석사과정 중에서 Big Data라는 수업 과제들 때문에 하게 되었다. 그 이전에는 Google colab를 실행해보면서 Google drive를 mount하고 저장된 데이터를 import 또는 완료된 데이터를 export..

두 개의 글쓰기 모임을 마치며 | 글또 8기, 영글

글또 8기는 몇 분 차이로 아쉽게 인증 기준을 넘긴 글을 마지막으로 끝냈다. 2주에 한 번씩 괜찮은 글을 쓴다는 건 생각보다 힘든 일이었다. 한 번이었나? 네이버 블로그로 제출한 회차가 있었고 나머지는 모두 티스토리로 기록했다. 글또에서 글쓰기는 예치금을 내고 글을 쓰면 돌려받는 방식이다. 패스 두번을 모두 사용한 이후 제출을 놓쳤던 거라 예치금 만원이 차감되었다. 대신 커피드백 세번에 모두 참가 인정이 되어 최종 10만 5천원으로 입금되었다. 물론 돈으로 환산할 수 없는 무형의 가치들을 많이 얻었지만, 처음 참여할 때 동기는 다른 사람이 볼만한 글을 제대로 (강제로라도) 쓰고 싶다는 데 있었기 때문에 예치금 제도가 도움이 되긴 했다. 영글 | 영국에서 글쓰기는 브런치에 발행했다. https://brun..

글또 | 티스토리 블로그 GA분석

글또 이전부터 구글 애널리틱스(Googld Analytics)가 연결되어 있었다. 2021년 8월 GAIQ 자격증을 합격한 다음 웹사이트 유저 분석 포트폴리오를 만들고자 했고, 티스토리 블로그가 가장 쉬운 선택이었다. 데이터 수집을 위해 유입 데이터가 꾸준히 생성될만한 컨텐츠 주제 [데이터사이언티스트 석사 유학과 영국 생활]를 선정했고 2023년 1월, 글또 8기 시작 이전까지 매주 30-40여명의 방문자 이벤트가 발생하고 있었다. [데이터사이언스]구글 애널리틱스 활용기록 #취준포폴21년 8월 영국취업 준비하며 티스토리 블로그를 만들어 Google Analytics 연동했다. 그리고 23년 1월 오...blog.naver.com 글또 8기 5개월동안 (오늘 이번글을 포함) 10개의 글을 작성했다. GA를..

글또 | 강의만들기 1년

글또에서 강의 만들기 채널이 열려 참여하고 있다. 처음 시작은 4월 말 공지에서부터였다. 본격적으로 채널 소집이 된 건 6월 중순, 그리고 7월 2일까지 1차 기획안 제출 목표가 세워졌다. 강의 만들기에 대한 생각은 작년, 2022년부터 꾸준히 가져오고 있었다. 지금까지 벌써 2개의 MySQL 강의를 만들어 공개했다; 유데미 | 데이터와 SQL 입문반 (2023.1월 ~) 프로그래머스 | 쉬운 SQL 프로그래머스 문제 함께풀기 (2023.3월 ~) 강의 퀄리티는 더 개선해야 할 부분이 많다. 다만, "강의 만들기"라는 목표 자체는 그만큼 진지하게 생각하고 꾸준히 시간을 투자해 노력하고 있다. 유데미가 좋았던 건 한글 강의지만 글로벌 플랫폼 등록이기 때문에 영국 직장에 공유 가능했고 CV(이력서) 한 줄 ..

글또 | 알고리즘 스터디 30일 기록

"프로그래머스 Lv1 나만 어려운건가" 회의감이 들 때였다. 알고리즘 공부 중요한 거 말해 뭐할까, 그런데 어려우니까 계속하는게 정말 쉽지 않았다. 2년차에 접어드는 데이터사이언티스트 근무에서 더이상 스스로를 "비기너"라고 내려치고 싶지 않지만, 프로그래밍 실력을 논하기엔 정말 애매한 상황이다. 그나마 SQL은 문제 풀기가 조금 수월한데 주력 언어인 파이썬으로는 주피터노트북을 벗어나 IDE 콘솔을 마주하는 것 자체가 편하지 않아 외면하고 싶었다. 그런데 작년 취준 당시 글로벌기업에서 인터뷰 기회가 왔을 때 형편없이 참패한 경험이 자꾸 생각났다. 면접관과 1:1 세션으로 라이브 코딩이었고 풀이 환경은 Coderpad에서 면접관이 제공하는 데이터로 풀어야 하는, 그러나 전형적인 알고리즘 유형들이었다. 씁쓸한..