전체 글 21

글또 9기 | 회사 업무로 학회 발표까지

담당 프로젝트 진행사항을 정리해 국내 학회에 초록을 제출했습니다. 짧은 15분 발표와 포스터 세션을 지원했고 심사에 잘 통과 되었으면 하는 바람입니다; https://haca-conference.nhs.uk/ Home - HACA Health and Care Analytics Conference live-haca.pantheonsite.io 논문 출판과는 연결할 수 없는, 세미나?장에 가까운 성격을 띄는 학회입니다. 영국 내 헬스케어 관련 공공기관들이 협연하였고 제가 소속한 NHS England 또한 큰 비중을 차지하는 출연기관입니다. 때문에 팀 자원에서 발표 지원을 적극 장려하는 분위기로 컨플루언스 페이지를 별도로 꾸릴 정도였습니다. 어느 팀에서는 애초부터 초록 제출에 대한 지라 티켓을 더해두었다고 합..

글또 9기 | 개발자 교양을 위한 독서

1. How to Read Numbers 2. Hello World 3. The Art of Statistics​ 4. Why won't You Apologize? 5. Invisible Women 6. So Good They Can't Ignore You 7. Weapons of Math Destruction 8. Naked Statistics 9. How to Make the World Add Up ​ 10. Dataclysm​ ​[이전에 읽었던 책들 중 좋았던 순위별 정렬, 볼드체 제목들이 데이터 전공관련] 그리고 2024년 :-) 사라진 개발자들 세계대전으로 전쟁에 참여했던 남성들을 대신하여 여성들이 (이전까지 허용되지 않았던) 그들의 직업활동을 대신했는데요. 이 책은 애니악 프로젝트 당시 기여도..

글또9기 | 노력과 변명 사이 #tkinter

tkinter 는 파이썬에서 모-던하게 그래픽으로 GUI를 생성할 수 있게 하는 패키지입니다. 공식닥스 여기를 참고하고 튜토리얼 몇 개 (추천1 Basic 5시간, 추천2 Full 18시간)를 시작하게 된 계기는 텍스트 프로세싱으로 해결할 수 없는 인풋 한계가 너무 커지면서 입니다. 본디 의료 도메인 특성상 세부 의과 분류가 매우 정확해야 하는데 제가 담당하는 정책 분야에서 (예를 들어 예산 등 리소스 분배 등으로) 의과 분류에 더한 지엽적 논의 사항이 더해지며 모델에 컨트롤 해야 하는 내용이 너무 많습니다. 바꿔 말해, 전처리 비중이 몹시 크고 수작업으로 하드코딩해야 하는 부분이 많습니다. 쉽게 말해 입력값 맵핑 요소가 너무 많습니다. 엑셀로 비유하자면 사용자 입력값(A열)을 모델이 사용하는 클래스(B..

글또9기 | 2024 깃헙 사용 성장목표

2년차 데이터 과학자로 진로 고민이 한창 들었던 때 (실제 이직을 시도했던) 이유 중 하나는 현재 업무 개발환경이 개인 역량에 의존도가 높고 테크니컬한 부분에 동료 평가(리뷰) 기회가 적었기 때문이었다. [퇴근 후 불켜진 빌딩 사이를 지나며 했던 생각들] 사내 데이터 사이언티스트 직책을 가진 팀원들은 파이썬/또는 R 프로그래밍을 중급 수준으로 활용하며 깃과 같은 버전 컨트롤에 대한 이해 등을 하고 있다. 다만, 팀 특성 + 적은 인원의 한계로 [분석가] 역할을 하는 사람 1인을 두고 다른 역할(주로 정책가나 PM, 가끔은 다른 모델러 등)을 가진 분들이 추가로 붙어 목표 결과물을 딜리버리 하는 경우가 대부분이다. 최소 모델을 더 발전시키지 못하거나 기술부채가 쌓이는 문제가 있다. 상대적으로 협업 도구 활..

글또9기 | 태블로 지도 커스터마이징

데이터 사이언스 업무 경계는 운영 조직별로 도메인별로 차이가 있어보인다. 고전적인 머신러닝, 통계 모델로 분석 모델링을 하는 업무가 주로 이루어지면서 크게는 DB관리와 같은 데이터 엔지니어링 역할을 포함하는지와, 대시보드 등 분석 결과를 담아내는 프로덕트 제작을 포함하는지 여부로 나눌 수 있다. 내가 근무중인 조직은 유저들이 접속하는 웹 기반 (혹은 모바일 app기반) 서비스들은 개발팀에서 담당하고 데이터 웨어하우스 아키텍처를 포함한 인프라는 관련 플랫폼 담당팀에서 담당하게 한다. 대신 데이터 사이언티스트들이 자신이 분석한 내용에 대한 보고서 작성까지 완료하도록 되어 있는데, 그 중에서도 시공간 데이터를 포함한 내용들은 종종 태블로 대시보드 형태로 전달이 되곤 한다. [참고로 England 지도 shap..

글또9기 | Pandas와 Numpy

데이터 사이언티스트로 가장 많이 사용하는 기본 두 가지 라이브러리다: Pandas와 Numpy. 최근 Pandas를 좀 더 선호하게 되면서, 특히 Databricks에서 Pyspark로 프로그래밍 빈도가 늘어나면서, 그동안 두 가지 각각 장단점이 있다고만 생각했던 부분에 확실한 필요 조건을 알게되었다. 내용을 설명하기 위한 예제를 정의하고 관련 코드를 붙인다. [문제와 조건 정의] 사이즈가 36x6인 어떤 행렬matrix을 가지고 있다고 가정하자. 각 성분component은 0 또는 1이다. 각 열마다 어떤 특정 조건 가중치weights를 적용한다고 한다. 즉, 1x6 벡터 weights를 36x6 matrix에 곱하는 연산이다. 이 때 binary matrix의 특성으로 곱의 결과 값 skew가 벌어지..

개발 번역 후반기 🇬🇧🇰🇷

과거의 내가 만들어놓은 업보 청산에 숨가쁘게 달렸다. 올해가 100일도 채 남지 않은 시점에서 도저히 안될 것 같은 일들은 버리기 시작했다. 이미 투자해놓은 것들이 충분히 깔려있어 조금만 마무리하면 되는 것들을 최대한 수확하고 있다. 그 중 최고봉이 개발 번역에 대한 일이다. 괜찮은 커뮤니티에서 많은 걸 배운 봉사 활동을 이제 그만 정리하고자 한다. 1년 정도 활동 기간동안 총 11개의 개인 번역글을 발행하여 프로필을 채웠고 1개의 커뮤니티 책을 공동 번역/감수하는 데 참여하였다. 올해 들어 글또8기 활동을 하며 틈틈히 그동안의 과정을 정리해두었고 글을 쓰는 동안 내가 왜 번역활동을 시작하였는지, 그로 인해 얻은 것들은 무었이었는지, 배운 것들로 앞으로 가져갈 교훈은 무엇이었는지 등을 가다듬는 시간을 가..

GCP Professional Cloud Database Engineer 준비과정

업보 청산이 쉬운게 아니다. 이번달 말 최초 시험 응시를 해야 하는데 공부를 하면 할 수록 하루 이틀 차이로 결과가 바뀔 문제가 아닌 것 같아 마음에 비가 주륵주륵 내리는 중이다. 돈 아까운 줄 모르고 200달러 기회를 소홀히 하게 된 것 같아 아쉽지만 한편으로는 그 시간에 했던 다른 일들에 대해 후회가 없다. 오히려 시작하겠다는 선택을 잘못 내린 것에 교훈을 얻는 중이다. kick-off이후 인트로 (Fundamentals) 강의를 수강했던 시기가 5월 8일 뱅홀이었다. 잊고 있었는데 그 주간에 유럽을 가려 계획했다가 허리디스크가 재발했던 시기다. 하고 싶었던 것을 하는 대신 쓸모 있는 일을 하는 하루를 보내는 데 보람을 느꼈던 때가 아니었나 싶다.하루만에 몰아서 듣는 수업 과정이라 8시간 꼬박 강의링..

GCP Professional Cloud Database Engineer 준비시작

지난 4월, 직장인 대상 GCP 자격증 취득 지원이 있어 지원했다; 그리고 지금 9월, 과거의 업보에 시달리고 있다. 어차피 무료니까 '하면 좋을 일'에서 '나에게 필요 없는데도 해야 하는 일'로 바뀐 탓이다. 평소에 나는 데이터 사이언스 공부를 하면서 ML modelling을 할 때 클라우드 컴퓨팅, 정확하게는 distributed computing framework for large-scale data processing과 관련하여 관심이 있었다. GCP 입문은 지난 2020-21년 석사과정 중에서 Big Data라는 수업 과제들 때문에 하게 되었다. 그 이전에는 Google colab를 실행해보면서 Google drive를 mount하고 저장된 데이터를 import 또는 완료된 데이터를 export..