데이터과학자 2

글또 10기 | 다짐하기 위한 글

🧭8기 회고 두 개의 글쓰기 모임을 마치며 | 글또 8기, 영글글또 8기는 몇 분 차이로 아쉽게 인증 기준을 넘긴 글을 마지막으로 끝냈다. 2주에 한 번씩 괜찮은 글을 쓴다는 건 생각보다 힘든 일이었다. 한 번이었나? 네이버 블로그로 제출한 회차가 있었고hujiro.tistory.com  🧭9기 회고는 없이 자연스럽게 페이드 아웃, 10기 시작 OT 직후 다짐글을 시작한다.       6개월 동안 (주로) 본업 커리어 성장을 위해 하는 개발 노력들을 작성하려고 한다. 지난주 라인매니저 변동 사항이 있어 👩‍🏫보고했던 내용을 덧붙인다. 노력의 결과가 진급으로 이어질 수 있게 준비하는 일이다. 현재 NHS England에서 Data Scientist 재직중으로  3년차 L2 Practitioner 레..

글또9기 | Pandas와 Numpy

데이터 사이언티스트로 가장 많이 사용하는 기본 두 가지 라이브러리다: Pandas와 Numpy. 최근 Pandas를 좀 더 선호하게 되면서, 특히 Databricks에서 Pyspark로 프로그래밍 빈도가 늘어나면서, 그동안 두 가지 각각 장단점이 있다고만 생각했던 부분에 확실한 필요 조건을 알게되었다. 내용을 설명하기 위한 예제를 정의하고 관련 코드를 붙인다. [문제와 조건 정의] 사이즈가 36x6인 어떤 행렬matrix을 가지고 있다고 가정하자. 각 성분component은 0 또는 1이다. 각 열마다 어떤 특정 조건 가중치weights를 적용한다고 한다. 즉, 1x6 벡터 weights를 36x6 matrix에 곱하는 연산이다. 이 때 binary matrix의 특성으로 곱의 결과 값 skew가 벌어지..