데이터분석 부프캠프 14기

728x90

◆ 목차

빅데이터 이해&데이터 리터러시 함양하기
친근한 엑셀로 시작하는 실무 엑셀 데이터 분석 및 기초 수학/통계
엑셀 기초 및 시각화해 보기
데이터 분석

1일차_Big Data 이해 & Data Literacy 함양하기

by. 오수은 강사님

1. Big Data 분석이란!?

- 대량의 데이터를 분석하여 비즈니스 가치가 있는 정보를 추출하는 것이라고 할 수 있습니다.

☞ 대량의 Data가 있는 것을 예시로 어떤게 있을지 고민해 보니 의료에서는 환자의 개인정보가 Big Data에 해당될 수 있겠다고 생각이 들었습니다. 해당되는 정보는 환자의 개인정보 및 진료에 관한 Data가 있을 것이고 이것을 분석해 본다면 나이층에 따른 어떤 질병이 많이 발생되는지에 관한 분석을 시도해 보면 재미있겠다고 생각이 들었습니다!

① Big Data분석

- 통계 관점 : 통계/마이닝 모형 관점

- 기술 관점 : 빅데이터 처리 및 분석 기술

- 비즈니스 관점 : 빅데이터 기반의 새로운 Value 창출

2. AI Service 활동 영역

① NLP(자연어처리) : 인공지능의 한 분야로서 머신러닝을 사용하여 텍스트와 데이터를 처리하고 해석하는 것

② ML(머신러닝) : 많은 양의 데이터를 제공하여 명시적으로 프로그래밍하지 않고 신경망과 딥러닝을 사용하여 시스템이 자율적으로 학습하고 개선할 수 있게 해 주는 것

③ DL(딥러닝) : 인간의 두뇌에서 영감을 얻은 방식으로 데이터를 처리하도록 컴퓨터를 가르치는 것 -> 이걸 인공지능 방식이라 불립니다!

☞ 사실 이 3가지는 잘 알지 못하여 각각 어떤 것인지 간단하게 알아보았습니다.

3. 데이터 분석가(Data Analyst)란?

- 데이터 분석가는 보유한 데이터를 통해 문제를 정의하고 기술을 접목하여 문제를 해결하는 사람

필요 역량

■ 프로그래밍

- 데이터 처리 및 핸들링 영역

- R, Python, SQL

- 대규모 DB, 플랫폼에 대한 이해

■ 통계 ML/DL

- 예측 가능한 기반 지식이 필요할 것

- 분석 방법론에 따른 업무 절차

- 수학적/통계적 기법 관련 알고리즘 이해

- 문제 해결 및 결과 해석 능력

■ Domain Knowledge

- 특정 산업/업무에 대한 전문 지식

- 문제 발굴 능력

■ Comm.Skill

- Presentation, 제안, 시각화 등 데이터 기반의 Storytelling 능력

4. 데이터 분석 Tool 7가지

■ Python

- 쉽고 직관적인 프로그래밍 문법이 장점

- 수칙연산, 데이터 처리, 시각화까지 모두 처리할 수 있어 데이터 분석 업무에 넓게 활용

- ML/DL 라이브러리 제공

■ R

- 통계 분석에 유리한 언어, 효과적인 시각화

- Python에 비해 느린 수행 속도

■ EXECL

■ SQL

- 쿼리문으로 대용량의 데이터를 체계적으로 추출하고 관리 가능

■ Tableau

- 다양한 시각화 차트가 제공되는 태블로는 "데이터 스토리텔링"에 특히 효과적입니다.

- 데이터 분석 업무 자체보다는, 데이터 분석 결과를 통한 사내 커뮤니케이션이나 업무 보고에 활용이 좋음

■ Power BI

- 엑셀을 포함한 MS 애플리케이션 기반으로 활용할 수 있는 협업 툴입니다.

- 개인적으로 열람했던 데이터를 협업

■ Google Analytics

- 웹 로그 데이터 분석에 범용적으로 쓰이는 대표적인 분석 Tool

2일차_친근한 엑셀로 시작하는 실무 Excel Data 분석 및 기초 수학/통계

by. 이동훈 강사님

강사님 말씀 중에 "데이터 분석은 현실에 살고 있는 우리를 더 나은 미래로 나아가게 할 Key"라고 하셨는데 설명을 듣다 보니 이 말이 정말 중요한 말이라고 생각이 들었습니다!!

-> 본인이 생각하는 나만의 데이터 분석에 대한 정의를 물어보셨는데 고민 끝에 저는 "데이터를 사용자가 보기 편하도록 분석해 주는 것"이라고 생각했습니다.

1. 엑셀을 배워야 하는 이유(조직적 관점)

- 기업에서 가장 많이 활용되는 Tool이기 때문이고 활용하기 용이한 많은 장점을 가지고 있습니다.

- 경험해 보니 직장에서 엑셀을 잘한다면 업무 효율도 올라가고 자신감도 같이 챙길 수 있었습니다!

2. 엑셀 데이터의 종류

■ 값(Value)

- 텍스트 : 문자 데이터(계산 X)

- 숫자 : 숫자 데이터(계산 O)

■ 수식(Fomula)

- 계산식 : 사칙연산/논리연산 등

- 함수 : 데이터를 입력하면 특정 결과를 출력

■ 서식(Format)

- 글꼴 서식 : 글꼴색, 글꼴 크기, 굵게, 기울임, 밑줄 등

- 셀 서식 : 셀 배경색, 셀 테두리 등

3. 엑셀의 기초

① 엑셀의 모든 셀에는 서식이 적용되어 있기 때문에 Ctrl+C/V를 하면 값이나 수식뿐만 아니라 복사한 셀의 서식도 붙여 넣은 셀에 모두 적용!!

② 복사/붙여 넣기를 할 때, 수식 / 값 / 서식을 각각 따로 붙여 넣어야 해요!

- 수식 : 서식을 제외한 수식 그대로 붙여 넣기

- 값 : 서식을 제외하고 수식을 값으로 변경해 붙여 넣기

- 서식 : 값이나 서식을 제외하고 서식만 붙여 넣기

4. 엑셀의 참조

(이게 은근히 헷갈리더라고요/ 중요★)

① 엑셀의 행과 열

- 엑셀은 하나의 행과 하나의 열이 교차하는 지점은 '셀(Cell)'에 데이터를 입력하는 방식의 프로그램

- 엑셀의 행과 열의 변경(이동) : 행은 상하로, 열은 좌우로 변경됨(이동함)

② 엑셀은 상대 참조/절대 참조/혼합참조가 있는데 기본적으로 상대참조를 한다고 합니다.

- 상대 참조 : 함수를 복사/붙여 넣기 할 때 참조된 셀이 함께 이동하는 참조

- 절대 참조 : 함수를 복사/붙여 넣기 해도 참조된 셀이 이동하지 않는 참조 → 단축키 F4

2번째 행에서 3번째 열에 값을 복사넣기 하면 절대 참조이기 때문에 1행값과 같다

- 혼합 참조 : 상대참조+절대참조 합쳐진 상태

5. 빠른 실행도구모음(Alt+해당번호)/자주 사용할 것

- 엑셀 화면의 왼쪽 상단에 자주 사용하는 기능을 등록해 보다 빠르고 편하게 사용할 수 있도록 해주는 도구 모음

■ 합계 : Alt + 1

■ 수식 붙여 넣기 : Alt + 2

■ 값 붙여 넣기 : Alt + 3

■ 서식 붙여 넣기 : Alt + 4

■ 화면에 보이는 셀 선택 : Alt + 5

■ 틀 고정 : Alt + 6

■ 병합하고 가운데 맞춤 : Alt + 7

☞ 이 7가지는 정말 많이 사용할 것이라고 매우 매우 중요하게 말해주셔서 손에 익도록 연습해야겠어요.

6. 엑셀 단축키

- 단축키를 실제 실습에서 한 번씩 사용해 보니깐 익숙하지 않아서 어렵더라고요! 많은 실습을 통해 조금이라도 익숙해지도록 사용을 해야겠어요!

<단축키 정리>

■ 쉼표(,) 단축키 : Ctrl + shift + 1

■ 시간 단축키 : Ctrl + shift + 2

■ 날짜 단축키 : Ctrl + shift + 3

■ 열 선택 : Ctrl + Space bar

■ 행 선택 : shift + Space bar

■ 행/열 삽입 : Ctrl + shift + +

■ 행/열 삭제 : Ctrl + -

■ 행/열 마지막으로 이동 : Ctrl + 방향키

■ 연속된 데이터 범위 지정 : Ctrl + shift + 방향키

■ 행 숨기기 : Ctrl + 9

■ 숨긴 행 풀기 : Ctrl + shift + 9

■ 열 숨기기 : Ctrl + 0

■ 숨겨진 Cell 제외하고 보이는 Cell 선택 : Alt + 5

■ 행고정 : 고정시키고자 하는 행의 아래행을 선택

→ 병합하고 가운데 맞춤 대신 가운데 맞춤으로 하는 방법 : 해당 cell 지정하고 Ctrl+1 -> 맞춤 -> 가로 : 선택 영역의 가운데로

1. 함수의 원리와 기본 함수

- 복잡한 수식이나 계산을 간단한 명령어로 사용할 수 있게 하는 도구/ 함수에 [데이터를 입력]하면 [결과값을 출력]

→ 함수명(인수1, 인수2, [인수3]...)/ 대괄호가 있는 인수는 생략 가능

■ SUM

- 합계

A5 ~ A12 셀들의 값을 모두 더하는것
=SUM(A5:A12)

A5 ~ A12 셀 두개의 값만 더함
=SUM(A5, A12)

■ AVERAGE

- 평균

 A5 ~ A12 셀들의 평균을 구함
 =AVERAGE(A5:A12)
 
 A5 ~ A12 셀 두개의 평균만 구함
 =AVERAGE(A5, A12)

■ COUNT

- 특정 범위에서 "숫자 데이터"가 들어가 있는 셀의 개수 파악

숫자 데이터의 개수를 파악할 셀 범위()/빈값이 있으면 빼고 값이 있는것만 구한다
=COUNT(A1:A10)

■ COUNTA

- 특정 범위에서 데이터가 들어가 있는 셀(비어있지 않은 셀)의 개수 파악

=COUNTA(A1:A10)

■ COUNTBLANK

- 특정 범위에서 비어 있는 셀의 개수 파악

=COUNTBLANK(A1:A5)

■ COUNTIF

- 특정 범위에서 하나의 조건을 만족하는 셀의 개수 파악

=COUNTIF(A1:A5, "조건(가정)")

■ COUNTIFS

- 특정 범위에서 2개 이상의 조건을 동시에 만족하는 셀의 개수 파악

=COUNTIFS(A1:A8, "조건1", A1:A8, "조건2")

2. IF 함수

■ IF 함수의 개념

- 부등호/등호(>, <, =)를 활용해 조건을 가정하고 조건에 만족하는 값과 만족하지 않는 값을 다르게 표시

■ IF 함수 사용

=IF(조건, [조건을 만족할 경우 표시할 값], [조건을 만족하지 않을 경우 표시할 값])

--EX
=IF(F1 >= 70, "통과", "재시험")

■ IF 함수의 중첩

=IF(첫번째 IF의 조건, "첫번째 IF의 조건을 만족할 경우", IF(두번째 IF의 조건, "두번째 IF의 조건을 만족할 경우", "두번째 IF의 조건을 만족하지 않을 경우"))

--EX
=IF(F1 >= 70, "통과", IF(F1 >= 60, "보류", "재시험"))

3. VLOOKUP 함수

■ VLOOKUP

- 공통 기준 열을 기준으로 n번째 있는 데이터를 찾아오는 함수

- 방대하고 다양한 데이터에서 내가 원하는 데이터를 불러오는 것이 업무의 시작이기 때문

=VLOOKUP(찾을 기준 데이터, 원재 데이터의 범위, 불러올 데이터의 열 번호, [0(False:정확히 일치) or 1(True:근사치일때)])

■ VLOOKUP 조건

- 현재 작성 중인 표와 원래 데이터 간의 기준 열이 있어야 가능!

- 불러오고자 하는 데이터가 원래 데이터의 공통 기준 열 오른쪽에 있어야 함

- 공통 기준 열에 중복된 데이터가 없어야 가능함

■ VLOOKUP 원리

- 원래 데이터의 공통 기준열을 A열이라고 가정하고 n번째 있는 열의 데이터를 불러옴

4. MATCH 함수

■ MATCH

- 내가 찾고 싶은 값이 한 행/열에서 몇 번째에 있는지를 숫자로 알려줍니다 → 결과는 숫자만

- 하나의 열 or 하나의 행만 범위를 잡을 수 있음

=MATCH(내가 찾고 싶은 값, 내가 찾고 싶은 값이 포함된 단일 열/또는 행 범위, 정확히 일치하는 값 or 근사치 여부)

■ MATCH 중복값이 있거나 조건이 2개인 경우

- 중복값이 없는 새로운 기준의 열을 하나 생성해 주기

5. SUMIF 함수

■ SUMIF

- 특정 조건에 맞는 데이터들의 합계 계산

=SUMIF(더할 조건들의 범위, "조건", 더할 값들의 범위")

■ SUMIFS

- 2개 이상의 조건을 동시에 만족하는 데이터들의 합계 계산

=SUMIFS(더할 값들의 범위, 더할 조건 범위1, "조건1", 더할 조건 범위2, "조건2")

■ SUMIF와 SUMIFS함수

- 보통 조건이 1개일 때는 SUMIF, 2개 이상일 땐 SUMIFS 사용

6. 텍스트 위치 찾기

■ FIND

- 긴 텍스트에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력 → 숫자가 나오면 특정 단어가 포함, 오류시 포함되어 있지 않은 것으로 됨

- 띄어쓰기까지 포함하여 문자를 세며 대소문자를 구분

=FIND("찾을 테스트", 긴 텍스트)

=FIND("찾을 텍스트", 긴 텍스트, 문자열을 찾기 시작할 위치)

■ SEARCH

- 긴 텍스트에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력

- 띄어쓰기까지 포함하여 문자를 세며 대소문자를 구분하지 않음

7. 텍스트 처리 함수

■ LEFT/ RIGHT

- 텍스트의 가장 왼쪽/오른쪽부터 원하는 문자열까지 추출

=LEFT(전체 텍스트, 불러올 문자열 수)

=RIGHT(전체 텍스트, 불러올 문자열 수)

■ MID

- 텍스트의 중간 시작 위치부터 원하는 문자열까지 추출

=MID(전체 텍스트, 불러올 문자열의 시작 위치, 불러올 문자열 수)

■ LEN

- 텍스트 문자열의 총길이

8. 날짜 데이터

■ 날짜 데이터의 원리

- 하이픈(-)을 사용해 날짜를 입력하면 서식이 자동으로 [일반]에서 [날짜]로 변경

■ 날짜 데이터의 계산

종료일 - 시작일 = 기간(종료일은 계산에서 제외)

9. INDEX

- 특정 범위에서 행 번호와 열 번호로 원하는 데이터를 불러옴

=INDEX(데이터의 전체 범위, 찾고 싶은 데이터의 범위 내 행 번호, 찾고 싶은 데이터의 범위 내 열 번호)

10. 피벗 테이블

■ 피벗 테이블

- 피벗 테이블은 커다란 표의 데이터를 요약하는 통계표

■ 피벗 테이블 생성

- Raw Data 선택 -> [삽입] 탭 -> 피벗 테이블

■ 피벗 테이블을 이용한 EDA(중요★!!!)

■ 결론

☞ 어떤 피벗 테이블(자료)을 만들지 고민해 보고 피벗테이블을 만드는 실습을 해보는 게 중요합니다!

☞ 해석하는 것도 많이 해보기!

1. 데이터 분석

■ 데이터 분석

- 의사결정을 지원해 주는 도구로서 데이터 분석 기법을 활용해야 할 것입니다!

- 비즈니스를 더 효율적으로 운영할 수 있도록 도와주는 역할

다양한 데이터 -> 분석기법 활용 -> 문제 발견 -> 원인 파악 -> 해결방안 모색 -> 인사이트 도출

-> 궁극적으로는 인사이트 도출이 최종 목표이고 미래 발생할 일들까지 포함하여 생각해 보는 거라고 말씀해 주셨습니다!

■ 데이터 분석 과정

◆ 데이터 수집 -> 데이터 전처리 -> 데이터 모델링 -> 검증 및 평가 -> 데이터 시각화

데이터 수집 : 업무 상황에서 발생하는 다양한 데이터 수집(현재 발생하고 있는 문제)
데이터 전처리 : 분석 목적 및 방법에 부합하도록 데이터의 내용, 형태 가공
데이터 모델링 : 결과 도출을 위한 수식/함수/기능 적용
검증 및 평가 : 개선 효과 계산, 과거 데이터와 비교, 다양한 방법 간 비교
데이터 시각화 : 보고서, 대시보드 등의 회의/보고 자료 작성

☞ 이걸 토대로 나중에 실제 데이터를 분석할 때 참고를 하면 괜찮을 것 같다고 생각이 들어서 적어봤어요!

Citizen Data Scientist = 데이터 분석을 할 수 있는 직무/산업 전문가

2. 탐색적 데이터 분석(EDA)

■ 탐색적 데이터 분석(EDA) 개념

- 기존의 통계학이 정보의 추출 과정에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어, 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 하는 자료 분석 방법입니다.

■ 탐색적 데이터 분석(EDA) 수행해야 하는 이유

- 입맛대로 수집되는 데이터는 1도 없음!!!

- 수집된 데이터의 특성 및 분포를 파악할 필요가 있음

- 결측치, 이상치의 존재 유무를 파악할 수 없음

- 탐색적 데이터 분석의 결과를 바탕으로 분석에 필요한 데이터 전처리를 수행할 수 있음

- 가장 적합한 분석 방법을 결정할 수 있음

→ 탐색적 데이터 분석을 잘 수행해야 전반적인 데이터 분석 또한 잘 수행할 수 있습니다.

3. 데이터 분석 도구

■ 데이터 분석도구 추가 방법

- 파일탭 → 옵션 → 추가 기능 - → Excel 추가 기능 → 이동버튼 클릭 → 분석도구 팩 체크 → 확인 클릭

☞ 설정하고 나니깐 짠! 이렇게 엑셀 데이터탭에 추가되었어요!!

■ 기초 통계량 계산하기

- 데이터 분석 클릭 → 기술 통계법 선택 후 확인 → 입력범위(열 이름까지) 지정해 주고 첫째 행 이름표 사용 체크!! 꼭 해주기! → 출력 옵션에 범위 지정해 주고 → 요약 통계량 체크 후 확인 클릭!

■ 결측치 처리 방법

- 결측치의 유형 및 비율에 따라 적절한 결측치 처리 방법을 결정해야 함

- 방법 : 제거 → 치환 → 모델 기반 처리

1) 제거 : 결측치가 발생한 행, 열을 삭제하는 가장 쉽고, 단순한 방식

2) 치환 : 결측치를 적당한 방법으로 대체하는 것

3) 모델 기반 처리 : 결측치를 예측하는 새로운 모델을 구성해, 결측치를 채워 나가는 방식

■ 이상치

- 특정 지정된 그룹에 분류되지 못하는 값으로, 정상군의 상한과 하한의 범위를 벗어나 있거나 패턴에서 벗어난 수치

■ 상관 분석

- 두 변수가 어떤 선형적 관계를 갖고 있는지를 분석하는 방법

■ 상관관계

- 한쪽이 증가하면 다른 쪽도 증가하거나 반대로 감소되는 경향을 인정하는 두 양 사이의 통계적 관계

-> 상관 계수를 통해 파악

■ 실습해 보기

- 교육자료를 통해 실습 자료들로 기술통계와 상관 분석을 만들어보자!

- 데이터 탭 -> 데이터 분석 클릭하여 만들기

4. 데이터 전처리

■ 개념

- 데이터의 분석 목적과 방법에 맞게 데이터를 가공 또는 처리하는 과정

1) 데이터 및 변수 형태 변환

2) 변수 선정

3) 결측치 및 이상치 처리

4) 데이터 분류

5) 데이터 분리 및 결합

6) 기타 데이터 가공 및 처리

☞ 데이터 전처리 단계가 시간과 노력이 많이 들고 과정 중 제일 중요한 단계입니다!!!!

728x90

저작자표시 (새창열림)

'데이터분석 부트캠프' 카테고리의 다른 글

Python 주피터 설치 방법 & 가상환경 설정 (0)	2024.05.03
커리어 성장 컨퍼런스_데이터분석 전문 데프콘 강의 후기 (1)	2024.04.30
데이터분석 부프캠프 14기 - 2주차 (0)	2024.04.30
데이터분석 부트캠프 OT (0)	2024.04.22
패스트캠퍼스 데이터 분석가 14기 지원 후기 (1)	2024.03.25

푸리세상

데이터분석 부프캠프 14기 - 1주차

◆ 목차

1일차_Big Data 이해 & Data Literacy 함양하기

1. Big Data 분석이란!?

2. AI Service 활동 영역

3. 데이터 분석가(Data Analyst)란?

4. 데이터 분석 Tool 7가지

2일차_친근한 엑셀로 시작하는 실무 Excel Data 분석 및 기초 수학/통계

1. 엑셀을 배워야 하는 이유(조직적 관점)

2. 엑셀 데이터의 종류

3. 엑셀의 기초

4. 엑셀의 참조

5. 빠른 실행도구모음(Alt+해당번호)/자주 사용할 것

6. 엑셀 단축키

1. 함수의 원리와 기본 함수

2. IF 함수

3. VLOOKUP 함수

4. MATCH 함수

5. SUMIF 함수

6. 텍스트 위치 찾기

7. 텍스트 처리 함수

8. 날짜 데이터

9. INDEX

10. 피벗 테이블

1. 데이터 분석

2. 탐색적 데이터 분석(EDA)

3. 데이터 분석 도구

4. 데이터 전처리

'데이터분석 부트캠프' 카테고리의 다른 글

티스토리툴바

데이터분석 부프캠프 14기 - 1주차

◆ 목차

1일차_Big Data 이해 & Data Literacy 함양하기

1. Big Data 분석이란!?

2. AI Service 활동 영역

3. 데이터 분석가(Data Analyst)란?

4. 데이터 분석 Tool 7가지

2일차_친근한 엑셀로 시작하는 실무 Excel Data 분석 및 기초 수학/통계

1. 엑셀을 배워야 하는 이유(조직적 관점)

2. 엑셀 데이터의 종류

3. 엑셀의 기초

4. 엑셀의 참조

5. 빠른 실행도구모음(Alt+해당번호)/자주 사용할 것

6. 엑셀 단축키

1. 함수의 원리와 기본 함수

2. IF 함수

3. VLOOKUP 함수

4. MATCH 함수

5. SUMIF 함수

6. 텍스트 위치 찾기

7. 텍스트 처리 함수

8. 날짜 데이터

9. INDEX

10. 피벗 테이블

1. 데이터 분석

2. 탐색적 데이터 분석(EDA)

3. 데이터 분석 도구

4. 데이터 전처리

'데이터분석 부트캠프' 카테고리의 다른 글

관련글

티스토리툴바