6주차 특강들에 대한 리뷰를 정리해보았다.
예전에도 계속 들어왔던 말이지만, 실제 AI 모델을 서빙까지 하는데 있어 AI modeling이 차지하는 비율은 그리 크지 않다. 실제로는 데이터 수집이나 서빙 환경 구축 단계에서도 많은 리소스(금전적, 시간적)를 소모하게 된다.
새로운 것에 빠르게 적응할 수 있어야 하며 이를 두려워하지 말아야한다. 회사(특히 AI 분야에서)에서 선호하는 인재상은 러닝커브가 좋은 사람이다.
그리고 러닝 커브를 좋게 만들기 위해 기본기를 다지는 것이 역시나 중요할 것 같다. 베이스라인이 좋은 사람은 뭐든지 빠르게 습득할 수 있다.
AI 트렌드 캐치를 위해 많은 커뮤니티를 참고할 수 있는데 Tensorflow KR, 트위터, reddit, 뉴스레터(papers with code) 등이 해당된다.
항상 기술 변화에 민감하게 살자. 남들보다 한 박자 빠르게 뛰어들 수 있는 용기나 혜안, 그리고 무엇보다도 새로운 기술이 나타났을때 비즈니스에서 쓸모가 있는지 파악할 수 있는 역량 등도 중요하다. 이러한 역량을 키우기 위한 습관 1순위가 트렌드를 항상 파악하고 있는 것이다.
기초 과목에 대한 지식도 중요하지만 실전 경험 역시 매우 중요하다. Kaggle이나 데이콘 등에 꾸준히 참여하려고 하자.
자신한테 맞는 분야를 찾기 위해 각자에게 맞는 방법이 있다. 오픈소스를 뜯어보고 contribution을 하거나 Kaggle에 참여하거나 논문을 재구현해보거나 여러가지 방법론이 있으니 직접 해보자.
뭘 좋아하는지 모르겠으면 뭘 싫어하는지를 먼저 생각해보자.
Kaggle 등 경진대회에 꾸준히 참여하면 성과가 나오지 않더라도 실력 향상에 큰 도움이 될 수 있다.
GPU가 없더라도 colab pro 등을 이용하여 우승까지 하는 사람도 있다(…) 환경이 좋지 않더라도 도전해볼만한 가치는 있다.
공부 목적에서는 kaggle notebook만 잘 활용하더라도 꽤 좋은 공부를 할 수 있다.
하이퍼 파라미터는 어떤 데이터를 다루느냐에 따라 조절할 수 있는 반경이 다르다. 다만 이것도 많이 참여하다보면 감각이 생긴다.
뭐든지 완성을 하려고 하자. 쉽게 지칠 수 있기 때문이다. 너무 퀄리티를 높이려고 하지 말고 시작 단계에서 너무 욕심을 부리지 말자.
시작하는 단계에서는 너무 깊이 알려고 하거나 모든걸 이해하려고 하지 말자. 역시 쉽게 지칠 수 있기 때문이다. 만약 한 30% 정도를 조금 봐선 도저히 모르겠다 하면 그 부분은 나중의 나에게 미뤄도 된다.
풀스택을 지향하더라도 자신의 메인 분야를 절대 놓치면 안된다. 서브 분야들은 내가 원하는걸 어느정도 찾아보면서 구현할 수 있을 정도 까지만 스택을 쌓으면 된다.
박성준 마스터님 특강에서는 NLP 분야에 통용되는 상식들을 얻을 수 있었다.
NLP는 BiLM 이후 pre-training에 집중하게 되었다. 즉, 언어 모델만 잘 만들면 모든 task에 사용 가능하다는 점을 발견한 것이다.
좋은 AI 모델은 좋은 데이터로부터 나온다. 그러나 데이터 수집 및 활용에 있어 저작권에 대한 충분한 고려가 필수적이다.
하지만 실제 법으로는 AI 데이터 수집 관련 법이 확실하게 규정된게 아직 없어 특히 NLP 분야에서 여러모로 애매한 것 같다. 이미지는 그래도 관련 법이 좀 있지만 NLP는..
CCL(Creative Commons License)
마스터 클래스를 들어보니 개인정보가 유출될 수 있는 데이터를 활용하여 학습을 한다던가 하면 문제가 될 수 있는 것 같다. 그런데 관련 법이 확실하게 나오지 않아 되게 여러모로 애매한 것 같다.
현재 딥러닝이 실제 퀀트 트레이딩에 깊게 사용되지는 않는다. 실제로는 아직도 선형회귀가 많이 사용된다.
특히 모델을 어느정도 개발했다고 해도 오버피팅이 발생할 확률이 너무나 높으며, 미래 데이터에 대하여 오버피팅이 발생할지 미리 알 수 없다.
가장 쉬운 방법은 내가 무엇을 모델링하는지, 왜 그것이 의미있는지 알고 있는 것이다. (근데 이게 제일 어려운 것인데.. )
뭐든지 문제에 대해 깊이 이해하고 있는 것이 중요하다.
이런 기회가 있을 때 수업 내용을 모두 소화하는 것도 중요하지만, 자신만의 목표에 대한 고민도 계속 해야한다.
데이터를 수집하는데에 있어 이미 bias가 많이 존재할 수 있다. 동시에 데이터가 아닌 모델 자체에서도 예상치 못한 곳에서 bias를 가질 수 있다. - i.e., 이루다 등
모델 개발(efficiency)도 중요하지만, 모델 학습 시 환경적 요소(energy cost, CO2 배출량 등)도 반드시 고려해야한다. GPT-3나 BERT 같은 거대 모델들은 학습을 한 번만 진행해도 배출되는 온실가스량이 엄청날 것.
AI Ethics의 쟁점은 생성 모델의 생성 결과에 대한 것뿐만 아니라, 모델이 환경적/사회적으로 미치는 영향 모든 것을 포괄한다.