전체 글 37

런던직장: 가장 중요한 일

아침에 베타테스트 종료 설문을 보내놓고 출근길에 올랐다. 편도선염이 낫지 않은 상태였고 약국에 들렀다 스탠드업 미팅에 아슬아슬 들어설 수 있었다. 돌아가면서 담당티켓을 코멘트하는 방식이 나와는 참 맞지 않다고 또다시 생각했다. 짧은 몇 마디로 모든 고민과 질의응답을 함축해야 하는 시간이 너무 어렵다. 긴 시간 들여 논의해야 되는 부분들이 한가득인데 해소되지 않은 채로 티켓 순회하는 건 제대로 동작하는 프로젝트가 아닌듯하다. 무늬만 애자일을 추구하고 있는 건 아닌가 스탠드업을 추가로 만들어낸 동료에게 불만이 생긴 걸 어떻게 잘 해소해야 할지 고민해야 할 것 같다. 겨울이 오는 소리가 어둑어둑한 저녁으로 다가온다. 가장 중요한 일을 정리해두고자 하는 마음이 앞서 나간다. 개인 과제를 마무리하였으니 본업에서 ..

런던직장: 엑셀모델 파이썬화

본업에서 가장 큰 공수를 차지하는 일부터 정리한다. 국정 과제 2기부터 참여하고 있다. 2년마다 refresh를 해야 하는 모델이다. 주 스택은 PySpark로 구성되어 있다. 개발환경은 Azure DataLake를 스토리지로 사용하고 별도 컨테이너 블롭을 SharePoint로 동기화 하기위한 파워셸 스크립트를 활용하여 사용자 입력 데이터들을 받아온다. 파이프라인 구성은 Databricks에 되어있고 시나리오 런타임은 클러스터 상황에 따라 보통 1시간에서 2시간 정도 소요된다. PySpark 코드들은 배치식으로 구성되어 메인 코드에서 별도 컨피그와 함수들을 호출해온다. 브론즈레벨 인풋들을 처리해 parquet 아웃풋으로 실버레벨 중간값들과 골드레벨 최종값을 저장한다. 지난 1기 감사 지적사항을 해결하는 ..

런던직장: 월간 해커톤 고민중

사내 해커톤 대회에 참여한다. 신규 런칭한 데이터 분석 플랫폼을 홍보하기 위한 행사 중 하나다. KPMG와 Palantir에서 컨설턴트로 참여하고 있어 공동으로 오퍼레이션을 맡았다. 한달 동안 주 2-3시간씩 시간을 내어 보도록 사이드잡 형태로 운영되는 형식이다. 총 16명의 참가자가 4개 조로 편성되었다. 소호 스퀘어 근처 사무실에서 오리엔테이션 및 데이터 분석 플랫폼 튜토리얼 진행이 있어 다녀올 수 있었다. 동일한 튜토리얼이 유튜브에도 올라와 있다. 처음 플랫폼에 접속하는 유저들이 분석 파이프라인을 어떻게 세워야하는지 가장 기본들을 다루는 내용이다.(SQL이나 파이썬으로 처리하는 데이터 전처리 과정들을 GUI로 구현하였는데 인터페이스 활용이 낯설어 초반 적응이 필요했다.) 5명의 데이터과학자들 중 리..

글또 10기 | 파이썬 데이터과학자

3년차 데이터과학자로 주 언어는 파이썬을 공부하고 사용한다. R 프로그래밍으로 제한된 현업 과제에 참여한 적 있고, 좀 더 직접적으로 R 코드를 분석하는 일로 돈을 받아 일한 적도 있었다. 그렇지만 함께 근무하는 사람들과 팀에서 파이썬 요구사항이 높다보니 자연스럽게 파이썬 정체성을 좀 더 키우게 된 것 같다. "개발자는 아닌데요 개발 공부를 해야하나요?" 질문에 갇혀 있을 때가 있었다. 개발자의 개발이란 소프트웨어 개발 주기에 맞춘 업무 방식을 포함하여 컴퓨터 공학 배경 지식에 이르는 덩어리 지식이다. 사실 그 무엇이든 내가 배워서 손해보는 것이 없고 잘 해서 나쁜 것이 없음에도 불구하고 말이다. (개발 이외에도) 배울 게 많은데 개발까지 배워야 하는지 불평하거나 우선순위를 따져보자고 한거 같다. 주피터..

글또 10기 | 다짐하기 위한 글

🧭8기 회고 두 개의 글쓰기 모임을 마치며 | 글또 8기, 영글글또 8기는 몇 분 차이로 아쉽게 인증 기준을 넘긴 글을 마지막으로 끝냈다. 2주에 한 번씩 괜찮은 글을 쓴다는 건 생각보다 힘든 일이었다. 한 번이었나? 네이버 블로그로 제출한 회차가 있었고hujiro.tistory.com  🧭9기 회고는 없이 자연스럽게 페이드 아웃, 10기 시작 OT 직후 다짐글을 시작한다.       6개월 동안 (주로) 본업 커리어 성장을 위해 하는 개발 노력들을 작성하려고 한다. 지난주 라인매니저 변동 사항이 있어 👩‍🏫보고했던 내용을 덧붙인다. 노력의 결과가 진급으로 이어질 수 있게 준비하는 일이다. 현재 NHS England에서 Data Scientist 재직중으로  3년차 L2 Practitioner 레..

글또 9기 | 장기휴가 후 우선 업무 파악

세상 일이 참 계획대로 흘러가지 않는다. 우연히, 하필이면, 업무 부재 상황들이 진정되고 나서 급히 대응할 것들을 추려냈다 --- 글이 올라가는 지금은 안정 궤도에 들어가고 있다. 최근 상조휴가로 3주를 쉬었던 것 이외도 실은 직전 2주간 다른 우선 업무 조정이 있었다. 노티스를 낸 시니어 데이터과학자의 업무 인수인계를 받느라 (유지보수 단계의) 나의 메인 프로젝트 refresh 및 delivery가 뒤로 많이 밀린 상황이다. 기존 업무에 새로이 추가가 된 해당 인수인계 상황은 publication된 사안들에 대해 다음 iteration 진행 논의가 kick-off되어 초반에 집중해야 할 일들이 많은 일이다. 당장 휴가에서 돌아온 날, 내 동료들이 가장 먼저 나를 찾은 일 또한 해당 업무 분장과 플젝 매..

글또 9기 | 회사 업무로 학회 발표까지

담당 프로젝트 진행사항을 정리해 국내 학회에 초록을 제출했습니다. 짧은 15분 발표와 포스터 세션을 지원했고 심사에 잘 통과 되었으면 하는 바람입니다; https://haca-conference.nhs.uk/ Home - HACA Health and Care Analytics Conference live-haca.pantheonsite.io 논문 출판과는 연결할 수 없는, 세미나?장에 가까운 성격을 띄는 학회입니다. 영국 내 헬스케어 관련 공공기관들이 협연하였고 제가 소속한 NHS England 또한 큰 비중을 차지하는 출연기관입니다. 때문에 팀 자원에서 발표 지원을 적극 장려하는 분위기로 컨플루언스 페이지를 별도로 꾸릴 정도였습니다. 어느 팀에서는 애초부터 초록 제출에 대한 지라 티켓을 더해두었다고 합..

글또 9기 | 개발자 교양을 위한 독서

1. How to Read Numbers 2. Hello World 3. The Art of Statistics​ 4. Why won't You Apologize? 5. Invisible Women 6. So Good They Can't Ignore You 7. Weapons of Math Destruction 8. Naked Statistics 9. How to Make the World Add Up ​ 10. Dataclysm​ ​[이전에 읽었던 책들 중 좋았던 순위별 정렬, 볼드체 제목들이 데이터 전공관련] 그리고 2024년 :-) 사라진 개발자들 세계대전으로 전쟁에 참여했던 남성들을 대신하여 여성들이 (이전까지 허용되지 않았던) 그들의 직업활동을 대신했는데요. 이 책은 애니악 프로젝트 당시 기여도..

글또9기 | 노력과 변명 사이 #tkinter

tkinter 는 파이썬에서 모-던하게 그래픽으로 GUI를 생성할 수 있게 하는 패키지입니다. 공식닥스 여기를 참고하고 튜토리얼 몇 개 (추천1 Basic 5시간, 추천2 Full 18시간)를 시작하게 된 계기는 텍스트 프로세싱으로 해결할 수 없는 인풋 한계가 너무 커지면서 입니다. 본디 의료 도메인 특성상 세부 의과 분류가 매우 정확해야 하는데 제가 담당하는 정책 분야에서 (예를 들어 예산 등 리소스 분배 등으로) 의과 분류에 더한 지엽적 논의 사항이 더해지며 모델에 컨트롤 해야 하는 내용이 너무 많습니다. 바꿔 말해, 전처리 비중이 몹시 크고 수작업으로 하드코딩해야 하는 부분이 많습니다. 쉽게 말해 입력값 맵핑 요소가 너무 많습니다. 엑셀로 비유하자면 사용자 입력값(A열)을 모델이 사용하는 클래스(B..