IT지식 56

[빅데이터] 웹 크롤링과 웹 크롤러

1. 웹 크롤링 기법 1. HTTP와 HTML을 활용하는 방법 HTTP 통신을 이용해 원하는 웹 페이지의 HTML 소스 코드를 다운로드한 후 이를 적절히 파싱하여 필요한 데이터를 추출하는 것이다. 2. 원하는 데이터가 있는 웹 페이지의 URL 주소를 알기 어려울 때 웹 브라우저를 이용해 사람이 직접 데이터를 받는 모습을 따라하는 프로그램을 만들어 원하는 데이터를 다운로드하는 것이다. 3. 데이터를 다운로드할 수 있도록 만들어진 API를 활용한다. 2. 웹 크롤러 웹 크롤링이나 웹 스크래핑을 수행하는 프로그램을 말한다. 프로그래밍 언어로 크롤러를 구현하는 경우 파이썬을 예시로 들면, 'requests'와 'BeautifulSoup' 패키지를 사용하여, HTML의 소스 코드를 다운로드한 후 파싱해 웹 페이지..

[빅데이터] 데이터 분석 소프트웨어의 장점과 단점

1. 데이터 분석 소프트웨어란? - 데이터 수집, 처리, 분석, 시각화, 결과 배포까지 데이터 분석의 모든 과정을 코딩 없이 수행할 수 있게 해주는 소프트웨어를 말한다. 즉 노드라는 점을 이용해 키보드로 하는 코딩을 마우스 클릭이나 드래그 앤 드롭으로 대신한다. 2. 데이터 분석 소프트웨어의 장 단점 - 장점 : 분석 목표나 방식이 어느 정도 정해져 있고, 분석 난이도가 높지 않을 때, 반복적으로 수행될 때, 짧은 시간 내에 결과를 도출하고 공유할 때 효율적으로 수행할 수 있다. - 단점 : 자유성이 떨어지고, 고난도의 데이터 분석을 수행하는 데 한계가 있다. 3. 데이터 분석 소프트웨어 종류 - KNIME, RapidMiner, Orange, SAS 등이 있다. 각각의 사용 편의성, 데이터 분석을 위한..

인공지능 머신러닝과 알고리즘 (Feat. 퍼셉트론 알고리즘, 활성화 함수)

1. 머신러닝이란? - 컴퓨터 시스템이 사용하는 알고리즘과 통계적 모델에 대한 과학적인 연구다. 컴퓨터는 명시적인 지시 사항들을 이용하는 대신에 모델과 추론에 의존하여 효과적으로 작업을 수행한다. 머신러닝은 인공지능의 하위 집합으로 간주된다. 즉 컴퓨터 프로그램이 수행하는 작업 T가 경험 E를 통해서 성능 P만큼 향상된 것으로 측정될 때, 우리는 컴퓨터 프로그램이 학습한다고 말한다. 2. 퍼셉트론 알고리즘 - 신경망 알고리즘의 기초이다. 퍼셉트론은 신경 세포를 인공적으로 모델링한 것으로, 신경 세포처럼 다른 신경 세포로부터 정보를 받아서 새로운 정보를 생성한 후, 또 다른 신경 세포로 전달한다. x1과 x2는 입력 신호, y는 출력 신호, w1, w2는 가중치를 나타낸다. 가중치는 결합 하중이라고도 하며..

데이터 시각화 - 유형 및 특징(그래프, 히스토그램, 대시보드 등)

1. 데이터 시각화란? 말 그대로 데이터를 눈으로 볼 수 있게 여러 형태로 표현하는 것을 말한다. 즉 데이터 수치에서는 찾을 수 없던 새로운 인사이트를 얻을 수도 있으며, 데이터를 보는 사용자나, 필요한 분석에 따라 사용하는 유형이 달라진다. 2. 데이터 시각화의 유형 1. 그래프 그래프는 가장 대표적인 시각화 방법으로, 그래프 중에서도 '꺾은선그래프'를 가장 많이 사용한다. 주로 시간에 따른 데이터의 변화나 경향성을 강조하고 싶을 때 사용하는 시각화 방법으로, 데이터를 꺾은선그래프로 표현하기 위해서는 가로축에 '시간', 세로 축에 설명하려는 값을 정리해야 한다. 여러 종류를 표현하기 위해서는 다양한 색상으로 표시한다. 2. 히스토그램 히스토그램도 그래프를 활용한 시각화 방법에서 많이 사용하는 유형 중 ..

데이터 기획자 - 업무, 필요 능력, 전망 한번에 정리

1. 데이터 기획자란? - 빅데이터 비즈니스 사이클의 계획과 원활한 운영을 책임지는 사람이다. 목표를 설계하고, 그 목표를 실행하기 위한 데이터, 시스템, 인력을 효율적으로 운영해야 한다. 그리고 간단한 시각화나 분석을 통해 프로젝트의 방향을 정하고, 데이터 기술의 동향을 파악해 적절한 기술이 프로젝트에 적용되고 있는지는 살펴야 한다. 2. 데이터 기획자의 업무 - 빅데이터 프로젝트를 이끄는 사람으로, 요구사항을 제시하는 클라이언트와 소통하는 역할을 합니다. 클라이언트의 이해도에 맞게 요구사항을 빅데이터 전문 영역의 언어로 다시 구체화해서 최종적으로 서로 합의하여 요구사항을 설정 후 프로젝트를 시작한다. 프로젝트를 위해서는 인적 자원, 전산 자원, 프로젝트 가용 예산 등 사용할 수 있는 빅데이터 자원을 ..

알고리즘 공부 게임처럼 하기 (Feat 백준, solved.ac)

1. 백준 회원가입 하기 Baekjoon Online Judge Baekjoon Online Judge 프로그래밍 문제를 풀고 온라인으로 채점받을 수 있는 곳입니다. www.acmicpc.net 2. solved.ac 설정하기 1. 설정 -> solved.ac -> 사용하기 2. 추가적으로 보기 설정에서 개인 취향에 맞게 설정해준다. 3. 결과 확인 1. 아래 사진과 같이 문제를 "브론즈-실버-골드-플래티넘-다이아-루비" 총 6단계로 나눈다. 브론즈부터 올라갈수록 문제의 난이도는 점점 올라간다. 2. 추가로 문제를 풀어서 성공할 때마다 경험치를 얻어 자신의 티어가 올라간다. 현재 226문제를 풀고 실버3까지 올라왔다. 3. 또한 자신의 학교나 회사의 이메일을 인증하고 자신의 소속에서의 랭킹도 확인할 수 ..

IT지식/나머지 2022.10.16

데이터 리서처 - 업무, 필요 능력 한번에 정리

1. 데이터 리서처란? - 데이터를 분석하기 위한 새로운 알고리즘과 방법론을 연구, 개발하는 일을 담당한다. (연구+논문) 2. 데이터 리서처의 업무 1. 데이터 분석 관련 알고리즘 개발 데이터 리서처의 연구 성과는 논문과 학회에서 활발하게 발표된다. 개발한 알고리즘이 곧바로 실무에 적용되는 경우도 있지만, 당장 적용되지 않더라도 미래에 중요한 가치를 창출할 수 있다. 데이터 분석 알고리즘은 '데이터를 좀 더 효율적으로 다루거나 더 높은 예측 성능을 내기 위한 여러 동작의 모임'을 말한다. 2. 최신 연구 공부 및 알고리즘 구현 기업의 연구 인력으로서 최신 알고리즘의 트렌드를 공부하고 구현하는 것이다. 학계와 현장에서 중요하게 생각하는 성능 지표나 사용한 데이터가 다른 경우, 성능은 뛰어나지만 처리 속도..

[IT지식] 알고리즘 문제를 풀어야 하는 이유

1. 알고리즘이란 ? 알고리즘(algorithm)은 주어진 문제를 논리적으로 해결하기 위해 필요한 절차, 방법, 명령어들을 모아놓은 것이다. 넓게는 사람 손으로 해결하는 것, 컴퓨터로 해결하는 것, 수학적인 것, 비수학적인 것을 모두 포함한다.. 출처 : https://terms.naver.com/entry.naver?docId=3597402&cid=58598&categoryId=59316 2. 알고리즘 문제란 ? 알고리즘 문제란 문제가 주어지면 사용자가 그 문제의 알고리즘을 찾아서 해답을 도출하도록 설계된 문제이다. 즉 문제의 난이도도 천차만별이다. 또한 문제를 보고 머릿속, 필기 등 다양한 방법으로 문제의 알고리즘을 찾고 그 해답을 수 십 가지 프로그래밍 언어 중 하나를 선택하여 해답을 작성한다. 그..

IT지식/나머지 2022.10.14

데이터 사이언티스트 - 업무, 필요 능력, 취업 팁 한번에 정리

1. 데이터 사이언티스트란? - 통계 방법론, 머신러닝 그리고 데이터 마이닝 지식을 바탕으로 정량적이고 과학적인 데이터 분석을 통해 데이터에서 인사이트를 발굴하는 일을 담당한다. 그리고 보다 깊이 있는 분석 기법을 적용함으로써 현재 상황을 묘사하고 분석할 뿐 아니라 미래 상황을 예측하거나 미래에 발생할 수 있는 문제를 예방하기도 한다. (새로운 알고리즘을 습득할 수 있는 이론적인 이해도와 더불어 분석하고자 하는 업종 전반에 대한 지식, 가치 창출, 인사이트 발굴 능력 등을 골고루 갖춰야 한다.) 2. 데이터 사이언티스트의 업무 비즈니스 문제 -> 데이터 분석 문제 -> 분석할 데이터 -> 인사이트 포뮬레이션 전처리/EDA 모델링/검증 1. 포뮬레이션은 해결하고자 하는 비즈니스 문제를 데이터 분석 문제로 ..

[IT지식]정규 표현식 - 기초 및 사용 예시

1. 정규 표현식이란? 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어이다. 정규 표현식은 많은 텍스트 편집기와 프로그래밍 언어에서 문자열의 검색과 치환을 위해 지원하고 있으며, 특히 펄과 Tcl은 언어 자체에 강력한 정규 표현식을 구현하고 있다. 현재 많은 프로그래밍 언어, 텍스트 처리 프로그램, 고급 텍스트 편집기 등이 정규 표현식 기능을 제공한다. 일부는 펄, 자바스크립트, 루비, Tcl처럼 문법에 내장되어 있는 반면 닷넷 언어, 자바, 파이썬, POSIX C, C++ (C++11 이후)에서는 표준 라이브러리를 통해 제공한다. 그 밖의 대부분의 언어들은 별도의 라이브러리를 통해 정규 표현식을 제공한다. 출처: 정규 표현식 - 위키백과, 우리 모두의 백과사전 (wikipedia.o..

IT지식/나머지 2022.10.13