인공지능이 우리 생활에 더 깊숙히 스며들면서, 데이터 사이언티스트가 되고자 하는 사람들도 많아지고 있습니다.
가끔 후배들에게 진로에 대해 조언을 해줄 기회가 있는데, 기회가 될 때마다 블로그에 "데이터 사이언티스트의 길" 이라는 제목으로 적어보려고 합니다. 실무에서 경험하는 현실과 취업을 준비하는 분들의 정보의 차이가 꽤나 많다는 걸 알게 되었고, 저도 더 좋은 조언을 해주고자 기록을 하는 것이니 이 시리즈가 많은 분들에게 도움이 되었으면 하는 바람입니다.
방학 시즌에 할 수 있는 데싸 준비
대학생의 경우 방학때 정말 많은 일들을 할 수 있는데, 데이터 사이언티스트로서 역량을 기르고 싶다면 어떻게 해야할까요?
어떻게 준비하느냐에 따라 크게 2가지, 무엇을 준비하느냐에 따라 2가지로 나누어 볼 수 있겠습니다.
먼저 '어떻게'로 나누면 조직에 속해서 준비하는 것과 혼자 준비하는 것으로 나눌 수 있습니다.
조직에 속하는 경우:
장점:
- 실제 데이터 사이언티스트가 일하는 걸 볼 수 있음
- 시키는 것을 해결하다보면 실력이 늘게 됨
- 네트워킹 측면에서 좋은 선배들을 알게 됨
- 이력에 보증된 한 줄이 추가됨
단점:
- 내가 가고자 하는 방향과 배우는게 다를 경우 의미가 없음
- 하고 싶은 공부만 할 수 없음
- (운이 없다면) 안좋은 조직을 겪을 수 있음
물론, 조직이 정말 좋은 조직이라면 장점 >>> 단점인 경우가 많을 것입니다. 그렇기에 좋은 조직 (소위 네카라쿠배당토 (?)) 의 인턴으로 방학을 보낼 수 있다면 다른 더 좋은 대안이 없다면 90% 이상은 인턴 경험을 하는 것이 좋은 선택지가 될 것입니다. 다만, 영 좋지 않은 조직에 들어갈 수 밖에 없는 상황이라면, 돈이 급한 경우가 아니라면 재고해보는 것이 좋습니다. 3개월이 짧다면 짧은 시간이지만 영 좋지 않은 조직에서는 시간이 너무나 아깝다는 생각이 들 수도 있기 때문입니다.
혼자 준비하는 경우:
장점:
- 내가 하고자 하는 방향대로 준비할 수 있음
- 시간을 자유롭게 사용할 수 있음
- 시간이 얽매어 있지 않으므로 노력한다면 더 다양한 사람들을 만나볼 수 있음
단점:
- 목적없이 시간만 보낼 가능성이 있음
- 뭘 어떻게 준비해야할지 모르면 시간만 낭비하게 됨
적다보니 회사나 연구소 등의 조직에 속하는 것이 훨씬 좋은 것처럼 적게 됐는데, 개인적인 순위를 적어보면
독학(넘사벽 능력자) >>> 탑티어 회사/연구소 >> 독학(부지런하게) > 일반적인 회사/연구소 > 독학(게으르게) >>> 안좋은 회사/연구소
라고 생각합니다.
능력만 있다면 독학이 정말 좋은게, 일주일에 1개 프로젝트를 마무리 짓는다 생각하면 3개월이면 총 12개의 프로젝트를 완성할 수 있기 때문입니다. 일정이 빡빡하다 생각할 수도 있지만 프로젝트 포트폴리오를 만드는 것에만 시간을 투자한다고 생각하면 그렇게 어려운 일정도 아닙니다. 회사/연구소에 속하게 되면 현실적으로 저런 속도는 불가능합니다. 인턴 기간 내에 1~2개의 프로젝트 정도만 마무리하는 것이 현실적이죠. 그래서 의지가 있다면 캐글, 오픈데이터포털 등 데이터야 워낙 웹 상에 많으니 혼자서 시도를 해보는 걸 더 추천하는 편입니다.
'무엇을' 준비하느냐에 따라 나누면 이론적인 역량과 엔지니어링적 역량으로 나눌 수 있습니다.
이론적인 역량이라는 것은 데이터 사이언스에서 기초적인 수학, 통계, 머신러닝, 딥러닝 같은 기법들의 이해, 프레임워크들에 대한 이해, 최신 연구 동향 등이 될 것이고, 엔지니어링 역량은 실제로 머신러닝/딥러닝을 이용해서 데이터 분석, 예측 모델, 그와 관련된 데이터 전처리, 파이프라인 등입니다. 조직에 따라 정말 많은 역량의 차이가 있고, 필요한 부분도 많이 다릅니다. 따라서 이 부분은 참고를 하되, 본인이 하고싶은 방향이 뭔지 고민해보면 좋을 것 같습니다.
제 개인적인 생각은 점점 이론 베이스의 데이터 사이언티스트에서 엔지니어링 역량을 갖춘 데이터 사이언티스트의 시대가 되지 않을까 생각을 해봅니다. 왜냐하면 빅 테크 기업들이 좋은 연구 결과들을 오픈하고, 그걸 기반으로 최신 연구를 끊임없이 내놓는데 그 곳에 있는 사람들은 대부분 미국 박사들입니다. (물론 미국 혹은 SPK 박사급의 인재분들은 이론적으로 깊게 더 하셔야죠) 그게 아닌 대부분의 분들은 이론적으로 연구하거나 추론하는 것보다는 엔지니어링 역량을 갖추고 혼자서 데이터-사이언스-드리븐 한 제품의 피쳐를 만들어 내야 한다는 것이 제 개인적인 의견입니다. 많은 경력자 분들을 면접보면서도 느꼈던 부분이, 전체 프로세스 중 한 부분만 할 줄 아는 엔지니어는 매력이 점점 떨어지는 시대가 되고 있지 않나.. 라는 생각입니다.
극단적으로 생각해서 데이터 엔지니어가 없는 회사에 엔지니어링 역량이 없는 데이터 사이언티스트가 들어오면 할 수 있는게 없습니다. 데이터 웨어하우스 적재, 데이터 마트 설계부터 API 서빙까지 혼자 힘으로 할 수 있어야 다른 사람에게 의존하지 않고 1인분을 해내는 데이터 사이언티스트가 될 수 있기 때문입니다.
물론, 네카라 같이 큰 조직의 경우, 각 역할을 맡고 계신 엔지니어분들이 많기 때문에 (상대적으로) 이러한 역량이 부족해도 괜찮을 수 있습니다. 하지만 그 포지션과 그 팀이 평생 갈 수는 없기 때문에, 의존성을 줄이는 것이 중요합니다.
그럼 컴퓨터 전공하는 학생 입장에서 현실적으로 어떤 준비를 해야 좋을까요?
제가 추천드리는 방법은 데이터 사이언스 모델이 포함된 제품을 하나 만드는 것입니다. 예를 들어, 사진을 3장 선택하면 좋아할만한 인스타그램 사진들을 보여주는 웹사이트를 개발하는 겁니다. 이를 위해서는 AWS, 웹앱을 배포하는 기술, docker, node.js, DB, react/vue 등의 프레임워크, 추천시스템, 시각화 등의 기술이 모두 필요합니다. 난 데이터 사이언티스트할건데 이런게 왜 필요해? 하실 수도 있습니다. 물론, 여러분이 이 모든걸 다 할 필요는 없습니다. 프론트, 서버를 맡아줄 친구를 찾아 사이드 프로젝트를 같이해보는 것도 좋겠죠. 하지만, 이런 과정을 한 번 겪고 나면, 여러분은 시장에서 훨씬 가치있는 데이터 사이언티스트로 포지셔닝할 수 있게 됩니다.
현실적으로 데이터 사이언스, 데이터 엔지니어링 실력을 몇번의 시험과 면접으로 정확하게 측정하는 것은 어렵고, 특히 신입에게 요구하는 것은 그렇게 어려운 것들은 아닐 수 있습니다. 그런데 실제 서비스로 동작하는 웹서비스를 만들었다, 그것도 혼자 했다고 하면, 검증의 문턱이 상대적으로 낮아질 수 밖에 없습니다.
최신 논문 등을 직접 재현해보고, 코드를 깃헙에 공유하는 것도 좋은 방법입니다. 실제로 이러한 방법으로 해외 기업에 스카웃된 사례도 본 적이 있으니 도전해볼 가치가 있는 방법인 것 같습니다. 다만, 제가 해본 적은 없어서, 얼마나 어려운지, 시간이 얼마나 드는지 등은 자세히 알 수 없는 점 양해바랍니다.
각설하고, 여러분이 학생이라면 온라인에 있는 수많은 데이터와 학습자료에 매몰되지 말고, 목표를 하나 정해서 자신만의 프로젝트를 만들기를 권합니다. 캐글도 그런 목표의식을 가지기에 좋은 플랫폼이고, 거기서 팀을 이루어 입상한다면 좋은 데이터 사이언티스트 동료를 얻게 되는 것이니 네트워킹 측면에서도 좋습니다. 만약 캐글에 들어가보니 너무 어렵고, 나와 다른 세상의 이야기 같다면 간단한 제품을 만드는 것에서 시작해보세요. 창업을 준비하는 대학생 팀들도 여러분을 환영할겁니다. 팀 내의 유일한 엔지니어가 당신이라면 그 팀의 CTO가 되는 것입니다. 가서 어떤 제품을 만드는지 들어보고, 그 제품을 완성하기 위해 어떤 기술들이 필요할지 생각해보세요. 만약 설문조사를 받고 시각화 하는 제품이라면 만들지 말고 구글 설문지를 쓰세요! 고급 기술, 신기술에 도전하는 게 아니라 최소한의 기술로 일이 되도록 하는 것이 CTO의 역할입니다.
직접 1:1 상담을 하고 싶다면
'Developer > Data Science' 카테고리의 다른 글
Ubuntu 20.04 (EC2/Lightsail) 초기 세팅 [docker/gitlab runner] (0) | 2021.07.23 |
---|---|
Fast API 로 3시간만에 추천 서버 만들기 (implicit, docker, gitlabCI) (2) | 2021.06.08 |
한달 10만원으로 추천시스템 구축하기 [AWS Personalize 도입 후기 / python SDK] (9) | 2021.04.15 |
AWS EC2/Lightsail 에 Gitlab-runner 세팅하기 (0) | 2021.02.09 |
python scrapy 를 활용한 웹 크롤링/스크래핑 - 1 (2) | 2020.12.21 |