IT지식/빅데이터

[IT지식] 빅데이터 직종에서 가장 많이 사용되는 언어는?

매 석 2022. 10. 23. 20:06
반응형

 

1. 각 직종별 프로그래밍 중요도

- 데이터 사이언티스트와 데이터 리서처에게는 코딩 기술 없이는 일의 진행이 불가능할 정도이다.
  연구 결과, 모델 이해, 모델 시험 및 발표 등 모두 코드를 쓸 줄 모르면 실험을 시작할 수도 없다.

- 상황에 따라 데이터 기획자에게 POC(신기술 도입 전 성공 가능성 실험해보는 것)를 요구할 수도 있다.
  이에 프로그래밍 기술을 보유하면 기획 단계에서 더욱 선명한 방향을 제시하고 프로젝트를 성공으로 이끌 수 있다.

- 데이터 엔지니어는 프로그래밍을 다른 직종에 비해 제일 잘해야 한다.
  데이터 엔지니어의 코드와 소프트웨어가 서비스를 지탱하기 때문이다.
  데이터의 효율적인 이동과 저장을 위해 자료구조와 알고리즘에도 익숙해야 한다.

 

2. 데이터 전문가와 프로그래밍 언어

출처:캐글
출처:캐글

위 지표와 같이 데이터 분석에는 파이썬과 R을 가장 많이 사용한다.
그중 파이썬은 문법이 직관적이고 간결해 빠른 시간 안에 배울 수 있는 언어이다.
또한 인터프리터식 언어이기에 컴파일 없이 바로 실행할 수 있고, 가독성이 좋아 개발 시간을 단축할 수 있다.
추가로 확장성 부분에서도 우수하여 언제든지 오픈 소스 패키지를 활용할 수 있다.
이러한 장점이 있기에 많은 데이터 전문가들이 주 언어로 사용한다.
특히 데이터 애널리스트, 사이언티스트, 리서처를 목표로 한다면 반드시 배워야 하는 언어이다.

R의 경우는 인터프리터식 언어로, 피드백이 빠른 장점이 있다.
또한 시스템 개발보다 데이터 분석, 통계 모델링, 컴퓨터 그래픽에 주로 사용되는 언어로, 
통계나 머신러닝 학계에서 인지도가 높다. 파이썬이 더욱 인기가 늘어나는 추세지만,
통계나 머신러닝 논문이 R로 구현되는 때가 많기에 데이터 사이언티스트, 리서처는 R을 이해할 수 있어야 한다.
추가로 다양하고 질 좋은 오픈 소스 통계 패키지로도 유명하다.
회귀분석, 시계열 분석, 머신러닝, 시각화 등 통계나 데이터 마이닝에 유용한 기능도 지원한다.

자바는 컴파일식 언어이기에 코드를 실행시키려면 컴파일 과정을 거쳐야 한다.
이 과정 중에 여러 최적화를 진행하여 인터프리터 언어보다 실행 속도가 빠르다.
객체지향적으로 디자인돼 있고, C, C++보다 관리하기 쉽고, 검증되었기에 참고 자료가 많고,
커뮤니티도 커, 시스템 구축하는 언어로 많이 사용한다.
데이터 엔지니어가 목표라면 자바는 반드시 배워야 한다.
우리나라의 경우 대다수 기업이 자바로 설계한 시스템을 운영하며, 데이터를 송수신하는
시스템을 개발하고 유지하는 데이터 엔지니어는 호환성을 위해서라도 자바를 알아야 한다.
또한 안드로이드 운영체제에서 구동되는 모든 앱은 자바로 만들어야 한다.

자바스크립트는 서버와 웹 브라우저 모두에서 실행하는 코드를 만들 수 있어 인기가 많다.
자바스크립트로 개발되는 애플리케이션이나 서비스를 제공하는 기업이 많기에 데이터 엔지니어가
되고 싶다면 반드시 알아야 한다.
본래 웹 애플리케이션의 스크립트를 담당하던 자바스크립트는 'Node Js'라는 런타임 실행 환경의 등장으로
서버 시스템 개발에도 사용되기 시작했으며, 'React', 'Angular', 'Vue'와 같은 프런트 엔드 프레임워크가 유행하는 등
시스템 전반을 한 가지 언어로 구축할 수 있기에 큰 인기를 끌었다.
자바스크립트는 문법이 간단하고, JSON이라는 강력하고 쉬운 표기법으로 객체를 표현할 수 있고,
비동기 프로그래밍에서도 유리하다.

 

 

+번외. 데이터 전문가와 라이브러리, 프레임워크

출처 : 캐글

 

출처 : 캐글

위 캐글의 조사 지표와 같이, 시각화 라이브러리는 Maplotlib, Seaborn, Plotly 등이 많이 사용되고,

프레임워크는 Scikit-learn, TensorFlow, Keras 등이 자주 사용된다.