본문 바로가기
데이터분석 부트캠프

데이터분석 부프캠프 14기 - 1주차

by 푸리세상 2024. 4. 26.
728x90

◆ 목차

  • 빅데이터 이해&데이터 리터러시 함양하기
  • 친근한 엑셀로 시작하는 실무 엑셀 데이터 분석 및 기초 수학/통계
  • 엑셀 기초 및 시각화해 보기
  • 데이터 분석

 

 


1일차_Big Data 이해 & Data Literacy 함양하기

by. 오수은 강사님

 

 

 

1. Big Data 분석이란!?

 - 대량의 데이터를 분석하여 비즈니스 가치가 있는 정보를 추출하는 것이라고 할 수 있습니다.

 

☞ 대량의 Data가 있는 것을 예시로 어떤게 있을지 고민해 보니 의료에서는 환자의 개인정보가 Big Data에 해당될 수 있겠다고 생각이 들었습니다. 해당되는 정보는 환자의 개인정보 및 진료에 관한 Data가 있을 것이고 이것을 분석해 본다면 나이층에 따른 어떤 질병이 많이 발생되는지에 관한 분석을 시도해 보면 재미있겠다고 생각이 들었습니다!

 

 

① Big Data분석

    - 통계 관점 : 통계/마이닝 모형 관점

    - 기술 관점 : 빅데이터 처리 및 분석 기술

    - 비즈니스 관점 : 빅데이터 기반의 새로운 Value 창출

 

 

 

 

 

 2. AI Service 활동 영역

 

① NLP(자연어처리) : 인공지능의 한 분야로서 머신러닝을 사용하여 텍스트와 데이터를 처리하고 해석하는 것

② ML(머신러닝) : 많은 양의 데이터를 제공하여 명시적으로 프로그래밍하지 않고 신경망과 딥러닝을 사용하여 시스템이 자율적으로 학습하고 개선할 수 있게 해 주는 것

③ DL(딥러닝) : 인간의 두뇌에서 영감을 얻은 방식으로 데이터를 처리하도록 컴퓨터를 가르치는 것 -> 이걸 인공지능 방식이라 불립니다!

 

☞ 사실 이 3가지는 잘 알지 못하여 각각 어떤 것인지 간단하게 알아보았습니다.

 

 

 

 

 

 

3. 데이터 분석가(Data Analyst)란?

 - 데이터 분석가는 보유한 데이터를 통해 문제를 정의하고 기술을 접목하여 문제를 해결하는 사람

 

 

필요 역량

■ 프로그래밍

 - 데이터 처리 및 핸들링 영역

 - R, Python, SQL

 - 대규모 DB, 플랫폼에 대한 이해

 

■ 통계 ML/DL

 - 예측 가능한 기반 지식이 필요할 것

 - 분석 방법론에 따른 업무 절차

 - 수학적/통계적 기법 관련 알고리즘 이해

 - 문제 해결 및 결과 해석 능력

 

■ Domain Knowledge

 - 특정 산업/업무에 대한 전문 지식

 - 문제 발굴 능력

 

■ Comm.Skill

 - Presentation, 제안, 시각화 등 데이터 기반의 Storytelling 능력

 

 

 

 

 

4. 데이터 분석 Tool 7가지

 

■ Python

 - 쉽고 직관적인 프로그래밍 문법이 장점

 - 수칙연산, 데이터 처리, 시각화까지 모두 처리할 수 있어 데이터 분석 업무에 넓게 활용

 - ML/DL 라이브러리 제공

 

■ R

 - 통계 분석에 유리한 언어, 효과적인 시각화

 - Python에 비해 느린 수행 속도

 

■  EXECL

 

■ SQL

 - 쿼리문으로 대용량의 데이터를 체계적으로 추출하고 관리 가능

 

■ Tableau

 - 다양한 시각화 차트가 제공되는 태블로는 "데이터 스토리텔링"에 특히 효과적입니다.

 - 데이터 분석 업무 자체보다는, 데이터 분석 결과를 통한 사내 커뮤니케이션이나 업무 보고에 활용이 좋음

 

■  Power BI

 - 엑셀을 포함한 MS 애플리케이션 기반으로 활용할 수 있는 협업 툴입니다.

 - 개인적으로 열람했던 데이터를 협업

 

■  Google Analytics

 - 웹 로그 데이터 분석에 범용적으로 쓰이는 대표적인 분석 Tool

 

 

 

 

 

 

 


2일차_친근한 엑셀로 시작하는 실무 Excel Data 분석 및 기초 수학/통계

by. 이동훈 강사님

 

더보기

강사님 말씀 중에 "데이터 분석은 현실에 살고 있는 우리를 더 나은 미래로 나아가게 할 Key"라고 하셨는데 설명을 듣다 보니 이 말이 정말 중요한 말이라고 생각이 들었습니다!!

 

-> 본인이 생각하는 나만의 데이터 분석에 대한 정의를 물어보셨는데 고민 끝에 저는 "데이터를 사용자가 보기 편하도록 분석해 주는 것"이라고 생각했습니다. 

 

 

1. 엑셀을 배워야 하는 이유(조직적 관점)

- 기업에서 가장 많이 활용되는 Tool이기 때문이고 활용하기 용이한 많은 장점을 가지고 있습니다.

- 경험해 보니 직장에서 엑셀을 잘한다면 업무 효율도 올라가고 자신감도 같이 챙길 수 있었습니다!

 

 

 

 

 

2. 엑셀 데이터의 종류

■ 값(Value)

- 텍스트 : 문자 데이터(계산 X)

- 숫자 : 숫자 데이터(계산 O)

 

■ 수식(Fomula)

- 계산식 : 사칙연산/논리연산 등

- 함수 : 데이터를 입력하면 특정 결과를 출력

 

■ 서식(Format)

- 글꼴 서식 : 글꼴색, 글꼴 크기, 굵게, 기울임, 밑줄 등

- 셀 서식 : 셀 배경색, 셀 테두리 등

 

 

3. 엑셀의 기초

 

엑셀의 모든 셀에는 서식이 적용되어 있기 때문에 Ctrl+C/V를 하면 값이나 수식뿐만 아니라 복사한 셀의 서식도 붙여 넣은 셀에 모두 적용!!

 

복사/붙여 넣기를 할 때, 수식 / 값 / 서식을 각각 따로 붙여 넣어야 해요!

    - 수식 : 서식을 제외한 수식 그대로 붙여 넣기

    - 값 : 서식을 제외하고 수식을 값으로 변경해 붙여 넣기

    - 서식 : 값이나 서식을 제외하고 서식만 붙여 넣기

 

 

 

4. 엑셀의 참조

(이게 은근히 헷갈리더라고요/ 중요)

 

엑셀의 행과 열

    - 엑셀은 하나의 행과 하나의 열이 교차하는 지점은 '셀(Cell)'에 데이터를 입력하는 방식의 프로그램

    - 엑셀의 행과 열의 변경(이동) : 행은 상하로, 열은 좌우로 변경됨(이동함)

 

② 엑셀은 상대 참조/절대 참조/혼합참조가 있는데 기본적으로 상대참조를 한다고 합니다.

    - 상대 참조 : 함수를 복사/붙여 넣기 할 때 참조된 셀이 함께 이동하는 참조

1번 행 결과값 Cell 복사

 

 

값은 7이 나왔다, 상대참조를 했기 때문

 

 

 

    - 절대 참조 : 함수를 복사/붙여 넣기 해도 참조된 셀이 이동하지 않는 참조 → 단축키 F4

F4를 클릭하여 $를 넣어 절대 참조 시키기

 

2번째 행에서 3번째 열에 값을 복사넣기 하면 절대 참조이기 때문에 1행값과 같다

 

 

    - 혼합 참조 : 상대참조+절대참조 합쳐진 상태

 

 

 

 

5. 빠른 실행도구모음(Alt+해당번호)/자주 사용할 것

- 엑셀 화면의 왼쪽 상단에 자주 사용하는 기능을 등록해 보다 빠르고 편하게 사용할 수 있도록 해주는 도구 모음

 

■  합계 : Alt + 1

■  수식 붙여 넣기 : Alt + 2

■  값 붙여 넣기 : Alt + 3

■  서식 붙여 넣기 : Alt + 4

■  화면에 보이는 셀 선택 : Alt + 5

■  틀 고정 : Alt + 6

■  병합하고 가운데 맞춤 : Alt + 7

 

☞ 이 7가지는 정말 많이 사용할 것이라고 매우 매우 중요하게 말해주셔서 손에 익도록 연습해야겠어요.

 

 

 

6. 엑셀 단축키

- 단축키를 실제 실습에서 한 번씩 사용해 보니깐 익숙하지 않아서 어렵더라고요! 많은 실습을 통해 조금이라도 익숙해지도록 사용을 해야겠어요!

 

<단축키 정리>

쉼표(,) 단축키 : Ctrl + shift + 1

■ 시간 단축키 : Ctrl + shift + 2

■ 날짜 단축키 : Ctrl + shift + 3

 

■ 열 선택 : Ctrl + Space bar

■ 행 선택 : shift + Space bar

■ 행/열 삽입 : Ctrl + shift + +

■ 행/열 삭제 : Ctrl + -

행/열 마지막으로 이동 : Ctrl + 방향키

연속된 데이터 범위 지정 : Ctrl + shift + 방향키

■ 행 숨기기 : Ctrl + 9

■ 숨긴 행 풀기 : Ctrl + shift + 9 

■ 열 숨기기 : Ctrl + 0

■ 숨겨진 Cell 제외하고 보이는 Cell 선택 : Alt + 5

■ 행고정 : 고정시키고자 하는 행의 아래행을 선택

→ 병합하고 가운데 맞춤 대신 가운데 맞춤으로 하는 방법 : 해당 cell 지정하고 Ctrl+1 -> 맞춤 -> 가로 : 선택 영역의 가운데로

 

 


1. 함수의 원리와 기본 함수

- 복잡한 수식이나 계산을 간단한 명령어로 사용할 수 있게 하는 도구/ 함수에 [데이터를 입력]하면 [결과값을 출력]

  → 함수명(인수1, 인수2, [인수3]...)/ 대괄호가 있는 인수는 생략 가능

 

 

■  SUM

   - 합계

A5 ~ A12 셀들의 값을 모두 더하는것
=SUM(A5:A12)

A5 ~ A12 셀 두개의 값만 더함
=SUM(A5, A12)

 

 

 

■  AVERAGE

   - 평균

 A5 ~ A12 셀들의 평균을 구함
 =AVERAGE(A5:A12)
 
 A5 ~ A12 셀 두개의 평균만 구함
 =AVERAGE(A5, A12)

 

 

■ COUNT

  -  특정 범위에서 "숫자 데이터"가 들어가 있는 셀의 개수 파악

숫자 데이터의 개수를 파악할 셀 범위()/빈값이 있으면 빼고 값이 있는것만 구한다
=COUNT(A1:A10)

 

 

 

■ COUNTA

  -  특정 범위에서 데이터가 들어가 있는 셀(비어있지 않은 셀)의 개수 파악

=COUNTA(A1:A10)

 

 

■ COUNTBLANK

  - 특정 범위에서 비어 있는 셀의 개수 파악

=COUNTBLANK(A1:A5)

 

 

 

■ COUNTIF

  - 특정 범위에서 하나의 조건을 만족하는 셀의 개수 파악

=COUNTIF(A1:A5, "조건(가정)")

 

 

 

 

■ COUNTIFS

  - 특정 범위에서 2개 이상의 조건을 동시에 만족하는 셀의 개수 파악

=COUNTIFS(A1:A8, "조건1", A1:A8, "조건2")

 

 

 

 

2. IF 함수

■ IF 함수의 개념

  - 부등호/등호(>, <, =)를 활용해 조건을 가정하고 조건에 만족하는 값만족하지 않는 값을 다르게 표시

 

 

■ IF 함수 사용

=IF(조건, [조건을 만족할 경우 표시할 값], [조건을 만족하지 않을 경우 표시할 값])

--EX
=IF(F1 >= 70, "통과", "재시험")

 

 

 

■ IF 함수의 중첩

=IF(첫번째 IF의 조건, "첫번째 IF의 조건을 만족할 경우", IF(두번째 IF의 조건, "두번째 IF의 조건을 만족할 경우", "두번째 IF의 조건을 만족하지 않을 경우"))

--EX
=IF(F1 >= 70, "통과", IF(F1 >= 60, "보류", "재시험"))

 

 

 

 

3. VLOOKUP 함수

■ VLOOKUP

  - 공통 기준 열을 기준으로 n번째 있는 데이터를 찾아오는 함수

  - 방대하고 다양한 데이터에서 내가 원하는 데이터를 불러오는 것이 업무의 시작이기 때문

=VLOOKUP(찾을 기준 데이터, 원재 데이터의 범위, 불러올 데이터의 열 번호, [0(False:정확히 일치) or 1(True:근사치일때)])

 

 

■ VLOOKUP 조건

  - 현재 작성 중인 표와 원래 데이터 간의 기준 열이 있어야 가능!

  - 불러오고자 하는 데이터가 원래 데이터의 공통 기준 열 오른쪽에 있어야 함

  - 공통 기준 열에 중복된 데이터가 없어야 가능함

 

 

■ VLOOKUP 원리

  - 원래 데이터의 공통 기준열을 A열이라고 가정하고 n번째 있는 열의 데이터를 불러옴

 

 

 

 

4. MATCH 함수

 

■ MATCH

  - 내가 찾고 싶은 값이 한 행/열에서 몇 번째에 있는지를 숫자로 알려줍니다 → 결과는 숫자만

  - 하나의 열 or 하나의 행만 범위를 잡을 수 있음

=MATCH(내가 찾고 싶은 값, 내가 찾고 싶은 값이 포함된 단일 열/또는 행 범위, 정확히 일치하는 값 or 근사치 여부)

 

 

 

■ MATCH 중복값이 있거나 조건이 2개인 경우

  - 중복값이 없는 새로운 기준의 열을 하나 생성해 주기

 

 

 

 

 

5. SUMIF 함수

■ SUMIF

  - 특정 조건에 맞는 데이터들의 합계 계산

=SUMIF(더할 조건들의 범위, "조건", 더할 값들의 범위")

 

 

■ SUMIFS

  - 2개 이상의 조건을 동시에 만족하는 데이터들의 합계 계산

=SUMIFS(더할 값들의 범위, 더할 조건 범위1, "조건1", 더할 조건 범위2, "조건2")

 

 

 

■ SUMIF와 SUMIFS함수

  - 보통 조건이 1개일 때는 SUMIF, 2개 이상일 땐 SUMIFS 사용

 

 

 

6. 텍스트 위치 찾기

 

■ FIND

  - 긴 텍스트에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력 → 숫자가 나오면 특정 단어가 포함, 오류시 포함되어 있지 않은 것으로 됨

 

  - 띄어쓰기까지 포함하여 문자를 세며 대소문자를 구분

=FIND("찾을 테스트", 긴 텍스트)

=FIND("찾을 텍스트", 긴 텍스트, 문자열을 찾기 시작할 위치)

 

 

 

■ SEARCH

  - 긴 텍스트에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력

  - 띄어쓰기까지 포함하여 문자를 세며 대소문자를 구분하지 않음

 

 

 

 

7. 텍스트 처리 함수

 

■ LEFT/ RIGHT

  - 텍스트의 가장 왼쪽/오른쪽부터 원하는 문자열까지 추출

=LEFT(전체 텍스트, 불러올 문자열 수)

=RIGHT(전체 텍스트, 불러올 문자열 수)

 

 

 

■ MID

  - 텍스트의 중간 시작 위치부터 원하는 문자열까지 추출

=MID(전체 텍스트, 불러올 문자열의 시작 위치, 불러올 문자열 수)

 

 

 

■ LEN

  - 텍스트 문자열의 총길이

 

 

 

8. 날짜 데이터

 

■ 날짜 데이터의 원리

  - 하이픈(-)을 사용해 날짜를 입력하면 서식이 자동으로 [일반]에서 [날짜]로 변경

 

 

 

 

■ 날짜 데이터의 계산

  종료일 - 시작일 = 기간(종료일은 계산에서 제외)

 

 

 

 

 

9. INDEX

 - 특정 범위에서 행 번호와 열 번호로 원하는 데이터를 불러옴

=INDEX(데이터의 전체 범위, 찾고 싶은 데이터의 범위 내 행 번호, 찾고 싶은 데이터의 범위 내 열 번호)

 

 

 

 

 

10. 피벗 테이블

 

■ 피벗 테이블

  - 피벗 테이블은 커다란 표의 데이터를 요약하는 통계표

 

 

 

■ 피벗 테이블 생성

  - Raw Data 선택 -> [삽입] 탭 -> 피벗 테이블

 

 

■ 피벗 테이블을 이용한 EDA(중요!!!)

 

 

 

■ 결론

☞ 어떤 피벗 테이블(자료)을 만들지 고민해 보고 피벗테이블을 만드는 실습을 해보는 게 중요합니다!

☞ 해석하는 것도 많이 해보기!

 

 

 


 

1. 데이터 분석

 

데이터 분석

  - 의사결정을 지원해 주는 도구로서 데이터 분석 기법을 활용해야 할 것입니다!

  - 비즈니스를 더 효율적으로 운영할 수 있도록 도와주는 역할

다양한 데이터 -> 분석기법 활용 -> 문제 발견 -> 원인 파악 -> 해결방안 모색 -> 인사이트 도출

 

-> 궁극적으로는 인사이트 도출이 최종 목표이고 미래 발생할 일들까지 포함하여 생각해 보는 거라고 말씀해 주셨습니다!

 

 

 

데이터 분석 과정

더보기

◆ 데이터 수집 -> 데이터 전처리 -> 데이터 모델링 -> 검증 및 평가 -> 데이터 시각화

 

  1. 데이터 수집 : 업무 상황에서 발생하는 다양한 데이터 수집(현재 발생하고 있는 문제)
  2. 데이터 전처리 : 분석 목적 및 방법에 부합하도록 데이터의 내용, 형태 가공
  3. 데이터 모델링 : 결과 도출을 위한 수식/함수/기능 적용
  4. 검증 및 평가 : 개선 효과 계산, 과거 데이터와 비교, 다양한 방법 간 비교
  5. 데이터 시각화 : 보고서, 대시보드 등의 회의/보고 자료 작성

 

☞  이걸 토대로 나중에 실제 데이터를 분석할 때 참고를 하면 괜찮을 것 같다고 생각이 들어서 적어봤어요!

 

 

Citizen Data Scientist = 데이터 분석을 할 수 있는 직무/산업 전문가

 

 

 

2. 탐색적 데이터 분석(EDA)

 

■ 탐색적 데이터 분석(EDA) 개념

  - 기존의 통계학이 정보의 추출 과정에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어, 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 하는 자료 분석 방법입니다.

 

 

 

■ 탐색적 데이터 분석(EDA) 수행해야 하는 이유

  - 입맛대로 수집되는 데이터는 1도 없음!!!

  - 수집된 데이터의 특성 및 분포를 파악할 필요가 있음

  - 결측치, 이상치의 존재 유무를 파악할 수 없음

  - 탐색적 데이터 분석의 결과를 바탕으로 분석에 필요한 데이터 전처리를 수행할 수 있음

  - 가장 적합한 분석 방법을 결정할 수 있음

 

→ 탐색적 데이터 분석을 잘 수행해야 전반적인 데이터 분석 또한 잘 수행할 수 있습니다.

 

 

 

 

3. 데이터 분석 도구

 

데이터 분석도구 추가 방법

  - 파일탭 → 옵션 → 추가 기능 - → Excel 추가 기능 → 이동버튼 클릭 → 분석도구 팩 체크 → 확인 클릭

 

☞ 설정하고 나니깐 짠! 이렇게 엑셀 데이터탭에 추가되었어요!!

 

 

 

기초 통계량 계산하기

  - 데이터 분석 클릭 → 기술 통계법 선택 후 확인 → 입력범위(열 이름까지) 지정해 주고 첫째 행 이름표 사용 체크!! 꼭 해주기! →  출력 옵션에 범위 지정해 주고 → 요약 통계량 체크 후 확인 클릭!

 

 

 

 

■ 결측치 처리 방법

  - 결측치의 유형 및 비율에 따라 적절한 결측치 처리 방법을 결정해야 함

  - 방법 : 제거   치환   모델 기반 처리

    1) 제거 : 결측치가 발생한 행, 열을 삭제하는 가장 쉽고, 단순한 방식

    2) 치환 : 결측치를 적당한 방법으로 대체하는 것

    3) 모델 기반 처리 : 결측치를 예측하는 새로운 모델을 구성해, 결측치를 채워 나가는 방식

 

 

 

 

■ 이상치

  - 특정 지정된 그룹에 분류되지 못하는 값으로, 정상군의 상한과 하한의 범위를 벗어나 있거나 패턴에서 벗어난 수치

 

 

 

 

■ 상관 분석

  - 두 변수가 어떤 선형적 관계를 갖고 있는지를 분석하는 방법

 

 

 

■ 상관관계

  - 한쪽이 증가하면 다른 쪽도 증가하거나 반대로 감소되는 경향을 인정하는 두 양 사이의 통계적 관계

    -> 상관 계수를 통해 파악

 

 

더보기

■ 실습해 보기

  - 교육자료를 통해 실습 자료들로 기술통계와 상관 분석을 만들어보자!

  - 데이터 탭 -> 데이터 분석 클릭하여 만들기

 

 

4. 데이터 전처리

 

 

■ 개념

  - 데이터의 분석 목적과 방법에 맞게 데이터를 가공 또는 처리하는 과정

 

   1) 데이터 및 변수 형태 변환

   2) 변수 선정

   3) 결측치 및 이상치 처리

   4) 데이터 분류

   5) 데이터 분리 및 결합

   6) 기타 데이터 가공 및 처리

 

 

☞ 데이터 전처리 단계가 시간과 노력이 많이 들고 과정 중 제일 중요한 단계입니다!!!!

 

 

 

 

728x90