관리 메뉴

꿈꾸는 사람.

2021 빅데이터분석기사 필기 후기 (기억나면 문제 추가) 본문

AI

2021 빅데이터분석기사 필기 후기 (기억나면 문제 추가)

현무랑 니니 2021. 4. 17. 19:25
반응형

2021년 4월 17일 빅데이터분석 기사 만들어지고 첫 필기를 치렀다.

통계학과 졸업생이 인공지능을 공부하고 시험치면 합격할 정도의 난이도였다.

 

출제 경향

  • 기본 개념과 절차에 대한 문제가 많았다.
  • 빅데이터 분석기사 첫 시험이라 난이도가 중간 아래 정도로 설정되었나보다.
  • 확률·통계의 기본이 탄탄하지 않으면 2과목에서 과락

1과목은 기념 개념, 절차 등이 주로 출제되었다.

특히, 개인정보보호법 2문제와 비식별화 조치에서 2문제가 출제되었다.

2과목 다수의 통계 관련 문제(5문제 이상)가 나왔고 정확한 수식의 이해와 계산이 필요해 제일 어려웠다.

과락은 이 과목에서 많이 나올 듯하다.

3 ~ 4 과목은 평이한 난이도였으며 confusion matrix에서 다수(3~4)문제가 출제되었다.

 

무난하게 필기는 통과할 수 있겠지만 2과목에서 과락이 변수가 되겠다.

특이 사항

  • 개인정보보호법과 비식별화 조치에서 다수의 문제가 나왔다. (실무에서 데이터 수집에 개인정보보호가 너무 중요해서 많이 나왔다고 아주 아주 억지로 동의해준다.)
  • 데이터 자기결정권까지 포함하고 관련 문제까지 상당히 비중있게 출제되었다.
  • 하둡에코시스템, R, 파이썬, 텐서플로우 등의 소프트웨어 및 프레임워크 등의 문제는 출제되지 않았다.
  • 딥러닝 분야는 기본 개념이 출제되고 상세 모델 등에서 깊이 있는 문제는 나오지 않았다.

다음 시험 예상

기본 개념은 계속 출제되나 비중은 줄어들 것이다.

분석 모형과 분석기법에 대한 문제가 많아질 것이다.

의외로 법과 제도에 대한 문제는 첫 시험과 유사하게 나올 것이다.

 

기출 문제 복원

1과목 빅데이터 분석 기획

 데이터 수집, 변환, 추출하는 기술은?

ETL

 

 딥러닝 설명 중 맞는 것은? 1

 오류역전파 알고리즘을 사용한다.

 드랍아웃은 학습 시 히든노드의 연결을 일정 비율로 끊는 것이다. (?)

    드랍아웃은 학습 시 가중치 입력을 일정 비율로 끊는 것이다. (?)

-> 1번은 확실히 맞고 4번은 내용에 따라 다름. (드랍아웃은 과적합 방지를 위해 노드(퍼셉트론)를 제거하는 것)

 

전사 차원의 데이터를 구축?

데이터 거버넌스

 

데이터 수집 방법이 틀린 것은? 1

① DBMS: 크롤링

② 웹: FTP

③ 센서: OpenAPI

④ 동영상: Streaming

 

● 분석 대상을 알고 분석 방법도 알고 있을 때 ? 4

① 발견

② 통찰

③ 솔루션

④ 최적화

 

● 데이터와 표현 방법(?) 연결이 틀린 것? 

① 텍스트: 단어(1-on-n) 문장

② 음성: 정적함수 y = f(x)

③ 이미지: 픽셀

④ 동영상: 스트리밍

 

 개인정보보호법 ...?

자기정보 결정권

 

 개인정보보호법: 통지하지 않아도 되는 사항? 3

① 동의를 거부할 권리가 있다는 사실

개인정보의 수집ㆍ이용 목적

③ 파기하는 정보

개인정보의 보유 및 이용 기간

 

 개인정보보호법: 동의없이 이용 가능하지 않은 경우? 2

① 위험에 처한 사람의 정보 조회 (개인정보보호법: 사전 동의를 받을 수 없는 경우로서 명백히 정보주체 또는 제3자의 급박한 생명, 신체, 재산의 이익을 위하여 필요하다고 인정되는 경우)

② 입사 지원자에 대해 회사가 범죄 이력 등을 조회

③ ...

 요금 부과를 위해 회사가 정보를 조회

 

 비식별화 조치에 대한 설명 중 ? (아래 지문이 시험 내용과 유사하나 다름)

① K-익명성(특정인임을 추론 할 수 있는지?): 동일한 값을 가진 레코드를 K개 이상

② L-다양성(민감 정보의 다양성을 높여 추론 가능성 낮춤): 최소 하나의 민감정보 포함

③ T-근접성(민감 정보의 분포를 더욱 낮춤): ..

 ..

 

 분석 성숙도 수준에 해당하는 단계가 아닌 것? 4

① 도입  ② 활용  ③ 확산  ④ 인프라

 

 상향식 데이터 발굴 절차? 

?? -> ?? -> ?? -> 데이터 요건 정의

 

진단 분석 (Diagnostic Analysis)?

 

데이터 탐색 기법?

③ EDA

 

불균형 데이터 대처 방안 ...?

① 언더샘플링

② 오버샘플링

③ 

2과목 빅데이터 탐색

변수 선택 기법 중 특정 항목 선택?

① 주성분 분석 ② ?? 필터 기법 래퍼 기법

 

'후진 제거법' 정의를 묻는 문제

- 변수를 하나씩 제거하면서 모형을 만드는 방법은?

 

 박스 플롯으로 알 수 없는 것은? 2

① 최대값 ② 평균 ③ 분산 ④ 이상값

 

 파생변수 생성 방법?

 

기술통계 설명에 맞지 않는 것?

평균

② 분산

④ 

 

 회귀분석 전제조건(??)이 아닌 것?

① 독립성 ② 선형성 ③ 등분산성 ④ 정규성

-> 모두 해당하는데 기억이 잘못된 듯

 

Parallel Chart에 대한 문제

 

 1종 오류와 2종 오류에 관한 문제?

 

 f1 값 계산?

-> F1 score = 2*(Precision * Recall) / (Precision + Recall)

Recall == Sensitivity

 

A사 제품일 확률 50%, B사 제품일 확률 30%, C사 제품일 확률 20%
   A사 제품의 불량률 1%, B사 제품의 불량률 2%, C사 제품의 불량률 3%,
   불량품이 발견되면 A사 제품일 확률은? 1

① 5/17

② 5/16 (?)

③ 5/12 (?)

④ ?/12

 

조건부 확률을 구하는 문제이다.

A사 제품일 확율 X
불량품일 확률 Y

불량품 중 A 사 제품일 확률 = P(X∩Y) / P(Y)
= (50% * 1%) / (50% * 1% + 30% * 2% + 20% * 3% )
= 5 / ( 5+ 6 + 6)
= 5/17

 

한 선수의 연봉이 한 팀의 전체 연봉의 50%를 넘는 경우가 일반적이고 이런 선수가 1~2명씨은 팀에 있다.

이때 팀의 축구선수 연봉 선정에 적합한 값? 2

① 최대값 (?)

② 중앙값

③ 최빈값

④ 최소값 (?)

-> 최빈값을 찍었는데 중앙값이 더 적절해 보입니다.

 

차원의 저주?

 

3 과목 빅데이터 모델링

어떤 알고리즘이나 기법에 대한 질문으로 P(A|x), P(A), P(B) 등을 주고 P(B|x) 찾는 문제?

 

 인공신경망의 목표는?
① 커널 값

② 뉴런 값

③ 가중치

④ 손실

-> 예측을 정확히 하는 것으로 생각해서 손실이 최소인 값을 찾는 것으로 보고 4을 선택했는데 기본이 흔들리네요.

출처: 구글 머신러닝 단기집중 과정
"모델 학습의 목표는 모든 예에서 평균적으로 작은 손실을 갖는 가중치와 편향의 집합을 찾는 것입니다.모델을 학습시킨다는 것은 단순히 말하자면 라벨이 있는 데이터로부터 올바른 가중치와 편향값을 학습(결정)하는 것입니다. 지도 학습에서 머신러닝 알고리즘은 다양한 예를 검토하고 손실을 최소화 하는 모델을 찾아봄으로써 모델을 만들어내는데, 이 과정을 경험적 위험 최소화라고 합니다.

손실은 잘못된 예측에 대한 벌점입니다. 즉, 손실은 한 가지 예에서 모델의 예측이 얼마나 잘못되었는지를 나타내는 수입니다. 모델의 예측이 완벽하면 손실은 0이고 그렇지 않으면 손실은 그보다 커집니다. 모델 학습의 목표는 모든 예에서 평균적으로 작은 손실을 갖는 가중치와 편향의 집합을 찾는 것입니다.
"

 

아래 그림에서 없는 분석 지표? (그림은 문제의 내용을 반영했지만 차이는 이해 바랍니다.)

① 경향(Trend)  ② 계절성  ③ 예측  ④ 잔차

 

25명의 평균 키가 170cm이고 95% 신뢰도, alpha = 0.05인 경우 신뢰구간 찾는 문제?

  Estimate       p-value
.. ..       ..
24 ?       ?

① 

② 

③  -0.2288 + 170 + 0.2288 (?)

④ 

 

 분포가 다른 하나는?

① 포아송 분포 ② 베르누이 분포 ③ 이항분포 ④ F-분포

 

 데이터 분할 방법 중 학습 셋, 검증 셋 테스트 셋으로 분리하는 방법?

홀드 아웃

 

 K-폴드 교차 검증 설명 중 잘못된 것?

① K 개의 데이터 셋 (?)

K-1 개의 데이터 셋을 학습 셋으로 사용. (?)

③ 

④ 

 

아래 그림에 사용되는 모델?

출처: 영문 위키피디아

CNN

 

입력층이 (5,5)이고 필터가 (3,3)이고 stride는 1이며 padding이 0인 제로 패딩이면

출력(Feature map)의 크기는? 2

① (2, 2)

② (3, 3)

③ (4, 4)

④ (5, 5)

-> 정방이므로 높이와 폭이 같다. 출력 크기 = (5 - 3) + 1 = 3

입력 데이터 높이: H
입력 데이터 폭: W
필터 높이: FH
필터 폭: FW
Strid 크기: S
패딩 사이즈: P

출력 높이 = (H + 2P - FH)/S + 1
출력 폭 = (W + 2P - FW)/S + 1

 

 랜덤 포레스트 설명으로 틀린 것은?

 

 하이퍼 파라미터로 맞는 것은? 3

① 가중치

② ?

③ 은닉층의 개수

④ ?

 

 독립변수가 연속형이고 종속변수가 범주형일 때 분석방법은? 3

① 

② 

③ 로지스틱 회귀

④ 

 

 시계열 분석 요인이 아닌 것은? 2

① 백색잡음

② 이항분포

③ AR (자기회귀)

④ MA (이동평균법)

 

퍼셉트론에 대한 설명 중 틀린 것?

① 

② 

③ 

④ 

 

비지도 학습을 적용하기에 적절한 문제? 2

① ?

② 날씨 관련 다음 날 비가 올 지 예측

③ 사진 중 자신의 사진만 모아 주는 것 (?)

④ 부동산 관련 여러 변수들로 값이 오를지 예측

-> 아래 구글 머신러닝 용어집(developers.google.com/machine-learning/glossary)의 정의에 따르면 2번이 정답

"비지도 머신러닝(unsupervised machine learning)
일반적으로 라벨이 없는 데이터 세트에서 패턴을 찾도록 모델을 학습시킵니다.

비지도 머신러닝의 가장 일반적인 용도는 데이터를 서로 비슷한 예의 그룹으로 클러스터링하는 것입니다."

 

confusion matrix에서 정밀도(precision)과 재현율(recall) 찾는 문제

혼돈 행렬

 

 confusion matrix에서 설명이 틀린 것 찾는 문제?

① FP: 특이도

 FN: 민감도

③ ?

④ ?

 

 앙상블 분석에서 기법과 알고리즘이 맞게 기술된 것은? 4

① 배깅: Adaboost

배깅: 랜덤 포레스트

③ 부스팅: 랜덤 포레스트

④ 부스팅: GDM

 

4 과목 빅데이터 결과 해석

인포그래픽 특징 중 하나를 틀리게 설명한 것을 찾는 문제

- 흥미와 관심 유발,

- 이해 쉬운 전달

- 오랜 기억 유지

- 자발적 확산

 

 여러 변수를 표현하는 시각화 방법은?

① 

③ 도넛차트

④ 파이차트

 

● 스타 차트 개념 출제

 

● ROC 설명 중 잘못 된 것은?

 

반응형
10 Comments
  • 프로필사진 여빙 2021.04.20 15:05 드랍아웃은 히든 노드가아니라 가중치를 끊는것인것 같습니다~
  • 프로필사진 Favicon of https://dreamlog.tistory.com 현무랑 니니 2021.04.20 15:37 신고 문제가 단위 유닛인 퍼셉트론을 끊는 것이 아니라 가중치를 끊는 것으로 나왔다면 1번 역전파가 맞겠습니다.

    감사합니다.
  • 프로필사진 여빙 2021.04.20 19:35 데이터 불균형문제에서 틀린거 고르는문제였는데 종속변수에 웨이트를곱한다 설명이 틀린것같아서 고른기억이 있네요 숫자가 적은 데이터에 높은가중치를 곱하는건데 종속변수는 데이터가아니라 라벨이니...
  • 프로필사진 Favicon of https://dreamlog.tistory.com 현무랑 니니 2021.04.21 13:45 신고 네. 감사합니다.

    언더샘플링, 오버샘플림은 맞는 것이라 나머지 두 개에서 고민했었습니다.
  • 프로필사진 여빙 2021.04.21 18:38 3단원 나이브베이지안 수식구하는문제 답인걸로 기억합니다

    P(x|A) = P(A)P(A|x) / P(x) = P(A)P(A|x) / P(x|B) + P(x|A)

    P(x) = P(x|B) + P(x|A)
    위의 개념을 아는지 한번 꼬은걸로 기억합니다
  • 프로필사진 여빙 2021.04.21 18:46 4단원 시계열분해 답이 예측인걸로 기억합니다 잔차라는사람들도 많은대 시계열분해 정의는 다음과같습니다

    time series decomposition = Trend
    + Seasonality + Residual

    차례대로 추세성 + 계절성 + 잔차입니다

    레퍼런스입니다
    https://nwfsc-timeseries.github.io/atsa-labs/sec-tslab-decomposition-of-time-series.html

    https://rfriend.tistory.com/m/510
  • 프로필사진 알프레드 2021.05.01 10:06 교재 어떤거로 공부하셨는지요? ^^
  • 프로필사진 Favicon of https://dreamlog.tistory.com 현무랑 니니 2021.05.02 02:20 신고 아래 2권입니다.

    1. 위키북스에서 나온 2021 빅데이터 분석기사 (설명과 요약 좋음)

    2. 수제비 (문제 좋음)
  • 프로필사진 닝링 2021.07.23 11:31 안녕하세요 빅데이터 분석 기사 자격증 검색하다가 여기까지오게 된 사람입니다.. 공부기간이 얼마나 되셨는지 물어봐도 될까요? 그리고 이걸 준비하면서 어딘가 쓰이긴 할까 이런 생각이 드는 터라 ㅠㅜㅠ 자격증활용 길을 물어보고 싶습니다. 갑작스런 질문 죄송하지만 답을 들어보고 싶습니다. 감사합니다 ㅠㅜ
  • 프로필사진 Favicon of https://dreamlog.tistory.com 현무랑 니니 2021.07.23 14:14 신고 빅데이터분석기사(빅분기)는 시험으로 3개월 준비를 했습니다.
    업무 때문에 빠지는 시간도 좀 됩니다.

    요즘 Data science란 분야와 인공지능(Deep Learning) 분야에 필수 분야지요.

    최근 정부 부처와 산하 기관 별로 빅데이터 관련 조직들이 신설되어 많은 채용이 이루어지고 있습니다.

    전망은 아주 밝은데 시험이 늘 그렇듯이 출제 경향을 파악해서 준비해야 합격 가능성이 높겠죠.

    지난 시험에서 느낀 점은 확률 통계에 대한 확실한 개념이 있어야 합격이 가능하겠습니다.
댓글쓰기 폼