◆ 목차
- 빅데이터 이해&데이터 리터러시 함양하기
- 친근한 엑셀로 시작하는 실무 엑셀 데이터 분석 및 기초 수학/통계
- 엑셀 기초 및 시각화해 보기
- 데이터 분석
1일차_Big Data 이해 & Data Literacy 함양하기
by. 오수은 강사님
1. Big Data 분석이란!?
- 대량의 데이터를 분석하여 비즈니스 가치가 있는 정보를 추출하는 것이라고 할 수 있습니다.
☞ 대량의 Data가 있는 것을 예시로 어떤게 있을지 고민해 보니 의료에서는 환자의 개인정보가 Big Data에 해당될 수 있겠다고 생각이 들었습니다. 해당되는 정보는 환자의 개인정보 및 진료에 관한 Data가 있을 것이고 이것을 분석해 본다면 나이층에 따른 어떤 질병이 많이 발생되는지에 관한 분석을 시도해 보면 재미있겠다고 생각이 들었습니다!
① Big Data분석
- 통계 관점 : 통계/마이닝 모형 관점
- 기술 관점 : 빅데이터 처리 및 분석 기술
- 비즈니스 관점 : 빅데이터 기반의 새로운 Value 창출
2. AI Service 활동 영역
① NLP(자연어처리) : 인공지능의 한 분야로서 머신러닝을 사용하여 텍스트와 데이터를 처리하고 해석하는 것
② ML(머신러닝) : 많은 양의 데이터를 제공하여 명시적으로 프로그래밍하지 않고 신경망과 딥러닝을 사용하여 시스템이 자율적으로 학습하고 개선할 수 있게 해 주는 것
③ DL(딥러닝) : 인간의 두뇌에서 영감을 얻은 방식으로 데이터를 처리하도록 컴퓨터를 가르치는 것 -> 이걸 인공지능 방식이라 불립니다!
☞ 사실 이 3가지는 잘 알지 못하여 각각 어떤 것인지 간단하게 알아보았습니다.
3. 데이터 분석가(Data Analyst)란?
- 데이터 분석가는 보유한 데이터를 통해 문제를 정의하고 기술을 접목하여 문제를 해결하는 사람
필요 역량
■ 프로그래밍
- 데이터 처리 및 핸들링 영역
- R, Python, SQL
- 대규모 DB, 플랫폼에 대한 이해
■ 통계 ML/DL
- 예측 가능한 기반 지식이 필요할 것
- 분석 방법론에 따른 업무 절차
- 수학적/통계적 기법 관련 알고리즘 이해
- 문제 해결 및 결과 해석 능력
■ Domain Knowledge
- 특정 산업/업무에 대한 전문 지식
- 문제 발굴 능력
■ Comm.Skill
- Presentation, 제안, 시각화 등 데이터 기반의 Storytelling 능력
4. 데이터 분석 Tool 7가지
■ Python
- 쉽고 직관적인 프로그래밍 문법이 장점
- 수칙연산, 데이터 처리, 시각화까지 모두 처리할 수 있어 데이터 분석 업무에 넓게 활용
- ML/DL 라이브러리 제공
■ R
- 통계 분석에 유리한 언어, 효과적인 시각화
- Python에 비해 느린 수행 속도
■ EXECL
■ SQL
- 쿼리문으로 대용량의 데이터를 체계적으로 추출하고 관리 가능
■ Tableau
- 다양한 시각화 차트가 제공되는 태블로는 "데이터 스토리텔링"에 특히 효과적입니다.
- 데이터 분석 업무 자체보다는, 데이터 분석 결과를 통한 사내 커뮤니케이션이나 업무 보고에 활용이 좋음
■ Power BI
- 엑셀을 포함한 MS 애플리케이션 기반으로 활용할 수 있는 협업 툴입니다.
- 개인적으로 열람했던 데이터를 협업
■ Google Analytics
- 웹 로그 데이터 분석에 범용적으로 쓰이는 대표적인 분석 Tool
2일차_친근한 엑셀로 시작하는 실무 Excel Data 분석 및 기초 수학/통계
by. 이동훈 강사님
강사님 말씀 중에 "데이터 분석은 현실에 살고 있는 우리를 더 나은 미래로 나아가게 할 Key"라고 하셨는데 설명을 듣다 보니 이 말이 정말 중요한 말이라고 생각이 들었습니다!!
-> 본인이 생각하는 나만의 데이터 분석에 대한 정의를 물어보셨는데 고민 끝에 저는 "데이터를 사용자가 보기 편하도록 분석해 주는 것"이라고 생각했습니다.
1. 엑셀을 배워야 하는 이유(조직적 관점)
- 기업에서 가장 많이 활용되는 Tool이기 때문이고 활용하기 용이한 많은 장점을 가지고 있습니다.
- 경험해 보니 직장에서 엑셀을 잘한다면 업무 효율도 올라가고 자신감도 같이 챙길 수 있었습니다!
2. 엑셀 데이터의 종류
■ 값(Value)
- 텍스트 : 문자 데이터(계산 X)
- 숫자 : 숫자 데이터(계산 O)
■ 수식(Fomula)
- 계산식 : 사칙연산/논리연산 등
- 함수 : 데이터를 입력하면 특정 결과를 출력
■ 서식(Format)
- 글꼴 서식 : 글꼴색, 글꼴 크기, 굵게, 기울임, 밑줄 등
- 셀 서식 : 셀 배경색, 셀 테두리 등
3. 엑셀의 기초
① 엑셀의 모든 셀에는 서식이 적용되어 있기 때문에 Ctrl+C/V를 하면 값이나 수식뿐만 아니라 복사한 셀의 서식도 붙여 넣은 셀에 모두 적용!!
② 복사/붙여 넣기를 할 때, 수식 / 값 / 서식을 각각 따로 붙여 넣어야 해요!
- 수식 : 서식을 제외한 수식 그대로 붙여 넣기
- 값 : 서식을 제외하고 수식을 값으로 변경해 붙여 넣기
- 서식 : 값이나 서식을 제외하고 서식만 붙여 넣기
4. 엑셀의 참조
(이게 은근히 헷갈리더라고요/ 중요★)
① 엑셀의 행과 열
- 엑셀은 하나의 행과 하나의 열이 교차하는 지점은 '셀(Cell)'에 데이터를 입력하는 방식의 프로그램
- 엑셀의 행과 열의 변경(이동) : 행은 상하로, 열은 좌우로 변경됨(이동함)
② 엑셀은 상대 참조/절대 참조/혼합참조가 있는데 기본적으로 상대참조를 한다고 합니다.
- 상대 참조 : 함수를 복사/붙여 넣기 할 때 참조된 셀이 함께 이동하는 참조
- 절대 참조 : 함수를 복사/붙여 넣기 해도 참조된 셀이 이동하지 않는 참조 → 단축키 F4
- 혼합 참조 : 상대참조+절대참조 합쳐진 상태
5. 빠른 실행도구모음(Alt+해당번호)/자주 사용할 것
- 엑셀 화면의 왼쪽 상단에 자주 사용하는 기능을 등록해 보다 빠르고 편하게 사용할 수 있도록 해주는 도구 모음
■ 합계 : Alt + 1
■ 수식 붙여 넣기 : Alt + 2
■ 값 붙여 넣기 : Alt + 3
■ 서식 붙여 넣기 : Alt + 4
■ 화면에 보이는 셀 선택 : Alt + 5
■ 틀 고정 : Alt + 6
■ 병합하고 가운데 맞춤 : Alt + 7
☞ 이 7가지는 정말 많이 사용할 것이라고 매우 매우 중요하게 말해주셔서 손에 익도록 연습해야겠어요.
6. 엑셀 단축키
- 단축키를 실제 실습에서 한 번씩 사용해 보니깐 익숙하지 않아서 어렵더라고요! 많은 실습을 통해 조금이라도 익숙해지도록 사용을 해야겠어요!
<단축키 정리>
■ 쉼표(,) 단축키 : Ctrl + shift + 1
■ 시간 단축키 : Ctrl + shift + 2
■ 날짜 단축키 : Ctrl + shift + 3
■ 열 선택 : Ctrl + Space bar
■ 행 선택 : shift + Space bar
■ 행/열 삽입 : Ctrl + shift + +
■ 행/열 삭제 : Ctrl + -
■ 행/열 마지막으로 이동 : Ctrl + 방향키
■ 연속된 데이터 범위 지정 : Ctrl + shift + 방향키
■ 행 숨기기 : Ctrl + 9
■ 숨긴 행 풀기 : Ctrl + shift + 9
■ 열 숨기기 : Ctrl + 0
■ 숨겨진 Cell 제외하고 보이는 Cell 선택 : Alt + 5
■ 행고정 : 고정시키고자 하는 행의 아래행을 선택
→ 병합하고 가운데 맞춤 대신 가운데 맞춤으로 하는 방법 : 해당 cell 지정하고 Ctrl+1 -> 맞춤 -> 가로 : 선택 영역의 가운데로
1. 함수의 원리와 기본 함수
- 복잡한 수식이나 계산을 간단한 명령어로 사용할 수 있게 하는 도구/ 함수에 [데이터를 입력]하면 [결과값을 출력]
→ 함수명(인수1, 인수2, [인수3]...)/ 대괄호가 있는 인수는 생략 가능
■ SUM
- 합계
A5 ~ A12 셀들의 값을 모두 더하는것
=SUM(A5:A12)
A5 ~ A12 셀 두개의 값만 더함
=SUM(A5, A12)
■ AVERAGE
- 평균
A5 ~ A12 셀들의 평균을 구함
=AVERAGE(A5:A12)
A5 ~ A12 셀 두개의 평균만 구함
=AVERAGE(A5, A12)
■ COUNT
- 특정 범위에서 "숫자 데이터"가 들어가 있는 셀의 개수 파악
숫자 데이터의 개수를 파악할 셀 범위()/빈값이 있으면 빼고 값이 있는것만 구한다
=COUNT(A1:A10)
■ COUNTA
- 특정 범위에서 데이터가 들어가 있는 셀(비어있지 않은 셀)의 개수 파악
=COUNTA(A1:A10)
■ COUNTBLANK
- 특정 범위에서 비어 있는 셀의 개수 파악
=COUNTBLANK(A1:A5)
■ COUNTIF
- 특정 범위에서 하나의 조건을 만족하는 셀의 개수 파악
=COUNTIF(A1:A5, "조건(가정)")
■ COUNTIFS
- 특정 범위에서 2개 이상의 조건을 동시에 만족하는 셀의 개수 파악
=COUNTIFS(A1:A8, "조건1", A1:A8, "조건2")
2. IF 함수
■ IF 함수의 개념
- 부등호/등호(>, <, =)를 활용해 조건을 가정하고 조건에 만족하는 값과 만족하지 않는 값을 다르게 표시
■ IF 함수 사용
=IF(조건, [조건을 만족할 경우 표시할 값], [조건을 만족하지 않을 경우 표시할 값])
--EX
=IF(F1 >= 70, "통과", "재시험")
■ IF 함수의 중첩
=IF(첫번째 IF의 조건, "첫번째 IF의 조건을 만족할 경우", IF(두번째 IF의 조건, "두번째 IF의 조건을 만족할 경우", "두번째 IF의 조건을 만족하지 않을 경우"))
--EX
=IF(F1 >= 70, "통과", IF(F1 >= 60, "보류", "재시험"))
3. VLOOKUP 함수
■ VLOOKUP
- 공통 기준 열을 기준으로 n번째 있는 데이터를 찾아오는 함수
- 방대하고 다양한 데이터에서 내가 원하는 데이터를 불러오는 것이 업무의 시작이기 때문
=VLOOKUP(찾을 기준 데이터, 원재 데이터의 범위, 불러올 데이터의 열 번호, [0(False:정확히 일치) or 1(True:근사치일때)])
■ VLOOKUP 조건
- 현재 작성 중인 표와 원래 데이터 간의 기준 열이 있어야 가능!
- 불러오고자 하는 데이터가 원래 데이터의 공통 기준 열 오른쪽에 있어야 함
- 공통 기준 열에 중복된 데이터가 없어야 가능함
■ VLOOKUP 원리
- 원래 데이터의 공통 기준열을 A열이라고 가정하고 n번째 있는 열의 데이터를 불러옴
4. MATCH 함수
■ MATCH
- 내가 찾고 싶은 값이 한 행/열에서 몇 번째에 있는지를 숫자로 알려줍니다 → 결과는 숫자만
- 하나의 열 or 하나의 행만 범위를 잡을 수 있음
=MATCH(내가 찾고 싶은 값, 내가 찾고 싶은 값이 포함된 단일 열/또는 행 범위, 정확히 일치하는 값 or 근사치 여부)
■ MATCH 중복값이 있거나 조건이 2개인 경우
- 중복값이 없는 새로운 기준의 열을 하나 생성해 주기
5. SUMIF 함수
■ SUMIF
- 특정 조건에 맞는 데이터들의 합계 계산
=SUMIF(더할 조건들의 범위, "조건", 더할 값들의 범위")
■ SUMIFS
- 2개 이상의 조건을 동시에 만족하는 데이터들의 합계 계산
=SUMIFS(더할 값들의 범위, 더할 조건 범위1, "조건1", 더할 조건 범위2, "조건2")
■ SUMIF와 SUMIFS함수
- 보통 조건이 1개일 때는 SUMIF, 2개 이상일 땐 SUMIFS 사용
6. 텍스트 위치 찾기
■ FIND
- 긴 텍스트에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력 → 숫자가 나오면 특정 단어가 포함, 오류시 포함되어 있지 않은 것으로 됨
- 띄어쓰기까지 포함하여 문자를 세며 대소문자를 구분
=FIND("찾을 테스트", 긴 텍스트)
=FIND("찾을 텍스트", 긴 텍스트, 문자열을 찾기 시작할 위치)
■ SEARCH
- 긴 텍스트에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력
- 띄어쓰기까지 포함하여 문자를 세며 대소문자를 구분하지 않음
7. 텍스트 처리 함수
■ LEFT/ RIGHT
- 텍스트의 가장 왼쪽/오른쪽부터 원하는 문자열까지 추출
=LEFT(전체 텍스트, 불러올 문자열 수)
=RIGHT(전체 텍스트, 불러올 문자열 수)
■ MID
- 텍스트의 중간 시작 위치부터 원하는 문자열까지 추출
=MID(전체 텍스트, 불러올 문자열의 시작 위치, 불러올 문자열 수)
■ LEN
- 텍스트 문자열의 총길이
8. 날짜 데이터
■ 날짜 데이터의 원리
- 하이픈(-)을 사용해 날짜를 입력하면 서식이 자동으로 [일반]에서 [날짜]로 변경
■ 날짜 데이터의 계산
종료일 - 시작일 = 기간(종료일은 계산에서 제외)
9. INDEX
- 특정 범위에서 행 번호와 열 번호로 원하는 데이터를 불러옴
=INDEX(데이터의 전체 범위, 찾고 싶은 데이터의 범위 내 행 번호, 찾고 싶은 데이터의 범위 내 열 번호)
10. 피벗 테이블
■ 피벗 테이블
- 피벗 테이블은 커다란 표의 데이터를 요약하는 통계표
■ 피벗 테이블 생성
- Raw Data 선택 -> [삽입] 탭 -> 피벗 테이블
■ 피벗 테이블을 이용한 EDA(중요★!!!)
■ 결론
☞ 어떤 피벗 테이블(자료)을 만들지 고민해 보고 피벗테이블을 만드는 실습을 해보는 게 중요합니다!
☞ 해석하는 것도 많이 해보기!
1. 데이터 분석
■ 데이터 분석
- 의사결정을 지원해 주는 도구로서 데이터 분석 기법을 활용해야 할 것입니다!
- 비즈니스를 더 효율적으로 운영할 수 있도록 도와주는 역할
다양한 데이터 -> 분석기법 활용 -> 문제 발견 -> 원인 파악 -> 해결방안 모색 -> 인사이트 도출
-> 궁극적으로는 인사이트 도출이 최종 목표이고 미래 발생할 일들까지 포함하여 생각해 보는 거라고 말씀해 주셨습니다!
■ 데이터 분석 과정
◆ 데이터 수집 -> 데이터 전처리 -> 데이터 모델링 -> 검증 및 평가 -> 데이터 시각화
- 데이터 수집 : 업무 상황에서 발생하는 다양한 데이터 수집(현재 발생하고 있는 문제)
- 데이터 전처리 : 분석 목적 및 방법에 부합하도록 데이터의 내용, 형태 가공
- 데이터 모델링 : 결과 도출을 위한 수식/함수/기능 적용
- 검증 및 평가 : 개선 효과 계산, 과거 데이터와 비교, 다양한 방법 간 비교
- 데이터 시각화 : 보고서, 대시보드 등의 회의/보고 자료 작성
☞ 이걸 토대로 나중에 실제 데이터를 분석할 때 참고를 하면 괜찮을 것 같다고 생각이 들어서 적어봤어요!
Citizen Data Scientist = 데이터 분석을 할 수 있는 직무/산업 전문가
2. 탐색적 데이터 분석(EDA)
■ 탐색적 데이터 분석(EDA) 개념
- 기존의 통계학이 정보의 추출 과정에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어, 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 하는 자료 분석 방법입니다.
■ 탐색적 데이터 분석(EDA) 수행해야 하는 이유
- 입맛대로 수집되는 데이터는 1도 없음!!!
- 수집된 데이터의 특성 및 분포를 파악할 필요가 있음
- 결측치, 이상치의 존재 유무를 파악할 수 없음
- 탐색적 데이터 분석의 결과를 바탕으로 분석에 필요한 데이터 전처리를 수행할 수 있음
- 가장 적합한 분석 방법을 결정할 수 있음
→ 탐색적 데이터 분석을 잘 수행해야 전반적인 데이터 분석 또한 잘 수행할 수 있습니다.
3. 데이터 분석 도구
■ 데이터 분석도구 추가 방법
- 파일탭 → 옵션 → 추가 기능 - → Excel 추가 기능 → 이동버튼 클릭 → 분석도구 팩 체크 → 확인 클릭
☞ 설정하고 나니깐 짠! 이렇게 엑셀 데이터탭에 추가되었어요!!
■ 기초 통계량 계산하기
- 데이터 분석 클릭 → 기술 통계법 선택 후 확인 → 입력범위(열 이름까지) 지정해 주고 첫째 행 이름표 사용 체크!! 꼭 해주기! → 출력 옵션에 범위 지정해 주고 → 요약 통계량 체크 후 확인 클릭!
■ 결측치 처리 방법
- 결측치의 유형 및 비율에 따라 적절한 결측치 처리 방법을 결정해야 함
- 방법 : 제거 → 치환 → 모델 기반 처리
1) 제거 : 결측치가 발생한 행, 열을 삭제하는 가장 쉽고, 단순한 방식
2) 치환 : 결측치를 적당한 방법으로 대체하는 것
3) 모델 기반 처리 : 결측치를 예측하는 새로운 모델을 구성해, 결측치를 채워 나가는 방식
■ 이상치
- 특정 지정된 그룹에 분류되지 못하는 값으로, 정상군의 상한과 하한의 범위를 벗어나 있거나 패턴에서 벗어난 수치
■ 상관 분석
- 두 변수가 어떤 선형적 관계를 갖고 있는지를 분석하는 방법
■ 상관관계
- 한쪽이 증가하면 다른 쪽도 증가하거나 반대로 감소되는 경향을 인정하는 두 양 사이의 통계적 관계
-> 상관 계수를 통해 파악
■ 실습해 보기
- 교육자료를 통해 실습 자료들로 기술통계와 상관 분석을 만들어보자!
- 데이터 탭 -> 데이터 분석 클릭하여 만들기
4. 데이터 전처리
■ 개념
- 데이터의 분석 목적과 방법에 맞게 데이터를 가공 또는 처리하는 과정
1) 데이터 및 변수 형태 변환
2) 변수 선정
3) 결측치 및 이상치 처리
4) 데이터 분류
5) 데이터 분리 및 결합
6) 기타 데이터 가공 및 처리
☞ 데이터 전처리 단계가 시간과 노력이 많이 들고 과정 중 제일 중요한 단계입니다!!!!
'데이터분석 부트캠프' 카테고리의 다른 글
Python 주피터 설치 방법 & 가상환경 설정 (0) | 2024.05.03 |
---|---|
커리어 성장 컨퍼런스_데이터분석 전문 데프콘 강의 후기 (1) | 2024.04.30 |
데이터분석 부프캠프 14기 - 2주차 (0) | 2024.04.30 |
데이터분석 부트캠프 OT (0) | 2024.04.22 |
패스트캠퍼스 데이터 분석가 14기 지원 후기 (1) | 2024.03.25 |