반응형
Notice
Recent Posts
Recent Comments
관리 메뉴

꿈꾸는 사람.

2021 빅데이터분석기사 필기 후기 (기억나면 문제 추가) 본문

AI

2021 빅데이터분석기사 필기 후기 (기억나면 문제 추가)

현무랑 니니 2021. 4. 17. 19:25
반응형

2021년 4월 17일 빅데이터분석 기사 만들어지고 첫 필기를 치렀다.

통계학과 졸업생이 인공지능을 공부하고 시험치면 합격할 정도의 난이도였다.

 

출제 경향

  • 기본 개념과 절차에 대한 문제가 많았다.
  • 빅데이터 분석기사 첫 시험이라 난이도가 중간 아래 정도로 설정되었나보다.
  • 확률·통계의 기본이 탄탄하지 않으면 2과목에서 과락

1과목은 기념 개념, 절차 등이 주로 출제되었다.

특히, 개인정보보호법 2문제와 비식별화 조치에서 2문제가 출제되었다.

2과목 다수의 통계 관련 문제(5문제 이상)가 나왔고 정확한 수식의 이해와 계산이 필요해 제일 어려웠다.

과락은 이 과목에서 많이 나올 듯하다.

3 ~ 4 과목은 평이한 난이도였으며 confusion matrix에서 다수(3~4)문제가 출제되었다.

 

무난하게 필기는 통과할 수 있겠지만 2과목에서 과락이 변수가 되겠다.

특이 사항

  • 개인정보보호법과 비식별화 조치에서 다수의 문제가 나왔다. (실무에서 데이터 수집에 개인정보보호가 너무 중요해서 많이 나왔다고 아주 아주 억지로 동의해준다.)
  • 데이터 자기결정권까지 포함하고 관련 문제까지 상당히 비중있게 출제되었다.
  • 하둡에코시스템, R, 파이썬, 텐서플로우 등의 소프트웨어 및 프레임워크 등의 문제는 출제되지 않았다.
  • 딥러닝 분야는 기본 개념이 출제되고 상세 모델 등에서 깊이 있는 문제는 나오지 않았다.

다음 시험 예상

기본 개념은 계속 출제되나 비중은 줄어들 것이다.

분석 모형과 분석기법에 대한 문제가 많아질 것이다.

의외로 법과 제도에 대한 문제는 첫 시험과 유사하게 나올 것이다.

 

기출 문제 복원

1과목 빅데이터 분석 기획

 데이터 수집, 변환, 추출하는 기술은?

ETL

 

 딥러닝 설명 중 맞는 것은? 1

 오류역전파 알고리즘을 사용한다.

 드랍아웃은 학습 시 히든노드의 연결을 일정 비율로 끊는 것이다. (?)

    드랍아웃은 학습 시 가중치 입력을 일정 비율로 끊는 것이다. (?)

-> 1번은 확실히 맞고 4번은 내용에 따라 다름. (드랍아웃은 과적합 방지를 위해 노드(퍼셉트론)를 제거하는 것)

 

전사 차원의 데이터를 구축?

데이터 거버넌스

 

데이터 수집 방법이 틀린 것은? 1

① DBMS: 크롤링

② 웹: FTP

③ 센서: OpenAPI

④ 동영상: Streaming

 

● 분석 대상을 알고 분석 방법도 알고 있을 때 ? 4

① 발견

② 통찰

③ 솔루션

④ 최적화

 

● 데이터와 표현 방법(?) 연결이 틀린 것? 

① 텍스트: 단어(1-on-n) 문장

② 음성: 정적함수 y = f(x)

③ 이미지: 픽셀

④ 동영상: 스트리밍

 

 개인정보보호법 ...?

자기정보 결정권

 

 개인정보보호법: 통지하지 않아도 되는 사항? 3

① 동의를 거부할 권리가 있다는 사실

개인정보의 수집ㆍ이용 목적

③ 파기하는 정보

개인정보의 보유 및 이용 기간

 

 개인정보보호법: 동의없이 이용 가능하지 않은 경우? 2

① 위험에 처한 사람의 정보 조회 (개인정보보호법: 사전 동의를 받을 수 없는 경우로서 명백히 정보주체 또는 제3자의 급박한 생명, 신체, 재산의 이익을 위하여 필요하다고 인정되는 경우)

② 입사 지원자에 대해 회사가 범죄 이력 등을 조회

③ ...

 요금 부과를 위해 회사가 정보를 조회

 

 비식별화 조치에 대한 설명 중 ? (아래 지문이 시험 내용과 유사하나 다름)

① K-익명성(특정인임을 추론 할 수 있는지?): 동일한 값을 가진 레코드를 K개 이상

② L-다양성(민감 정보의 다양성을 높여 추론 가능성 낮춤): 최소 하나의 민감정보 포함

③ T-근접성(민감 정보의 분포를 더욱 낮춤): ..

 ..

 

 분석 성숙도 수준에 해당하는 단계가 아닌 것? 4

① 도입  ② 활용  ③ 확산  ④ 인프라

 

 상향식 데이터 발굴 절차? 

?? -> ?? -> ?? -> 데이터 요건 정의

 

진단 분석 (Diagnostic Analysis)?

 

데이터 탐색 기법?

③ EDA

 

불균형 데이터 대처 방안 ...?

① 언더샘플링

② 오버샘플링

③ 

2과목 빅데이터 탐색

변수 선택 기법 중 특정 항목 선택?

① 주성분 분석 ② ?? 필터 기법 래퍼 기법

 

'후진 제거법' 정의를 묻는 문제

- 변수를 하나씩 제거하면서 모형을 만드는 방법은?

 

 박스 플롯으로 알 수 없는 것은? 2

① 최대값 ② 평균 ③ 분산 ④ 이상값

 

 파생변수 생성 방법?

 

기술통계 설명에 맞지 않는 것?

평균

② 분산

④ 

 

 회귀분석 전제조건(??)이 아닌 것?

① 독립성 ② 선형성 ③ 등분산성 ④ 정규성

-> 모두 해당하는데 기억이 잘못된 듯

 

Parallel Chart에 대한 문제

 

 1종 오류와 2종 오류에 관한 문제?

 

 f1 값 계산?

-> F1 score = 2*(Precision * Recall) / (Precision + Recall)

Recall == Sensitivity

 

A사 제품일 확률 50%, B사 제품일 확률 30%, C사 제품일 확률 20%
   A사 제품의 불량률 1%, B사 제품의 불량률 2%, C사 제품의 불량률 3%,
   불량품이 발견되면 A사 제품일 확률은? 1

① 5/17

② 5/16 (?)

③ 5/12 (?)

④ ?/12

 

조건부 확률을 구하는 문제이다.

A사 제품일 확율 X
불량품일 확률 Y

불량품 중 A 사 제품일 확률 = P(X∩Y) / P(Y)
= (50% * 1%) / (50% * 1% + 30% * 2% + 20% * 3% )
= 5 / ( 5+ 6 + 6)
= 5/17

 

한 선수의 연봉이 한 팀의 전체 연봉의 50%를 넘는 경우가 일반적이고 이런 선수가 1~2명씨은 팀에 있다.

이때 팀의 축구선수 연봉 선정에 적합한 값? 2

① 최대값 (?)

② 중앙값

③ 최빈값

④ 최소값 (?)

-> 최빈값을 찍었는데 중앙값이 더 적절해 보입니다.

 

차원의 저주?

 

3 과목 빅데이터 모델링

어떤 알고리즘이나 기법에 대한 질문으로 P(A|x), P(A), P(B) 등을 주고 P(B|x) 찾는 문제?

 

 인공신경망의 목표는?
① 커널 값

② 뉴런 값

③ 가중치

④ 손실

-> 예측을 정확히 하는 것으로 생각해서 손실이 최소인 값을 찾는 것으로 보고 4을 선택했는데 기본이 흔들리네요.

출처: 구글 머신러닝 단기집중 과정
"모델 학습의 목표는 모든 예에서 평균적으로 작은 손실을 갖는 가중치와 편향의 집합을 찾는 것입니다.모델을 학습시킨다는 것은 단순히 말하자면 라벨이 있는 데이터로부터 올바른 가중치와 편향값을 학습(결정)하는 것입니다. 지도 학습에서 머신러닝 알고리즘은 다양한 예를 검토하고 손실을 최소화 하는 모델을 찾아봄으로써 모델을 만들어내는데, 이 과정을 경험적 위험 최소화라고 합니다.

손실은 잘못된 예측에 대한 벌점입니다. 즉, 손실은 한 가지 예에서 모델의 예측이 얼마나 잘못되었는지를 나타내는 수입니다. 모델의 예측이 완벽하면 손실은 0이고 그렇지 않으면 손실은 그보다 커집니다. 모델 학습의 목표는 모든 예에서 평균적으로 작은 손실을 갖는 가중치와 편향의 집합을 찾는 것입니다.
"

 

아래 그림에서 없는 분석 지표? (그림은 문제의 내용을 반영했지만 차이는 이해 바랍니다.)

① 경향(Trend)  ② 계절성  ③ 예측  ④ 잔차

 

25명의 평균 키가 170cm이고 95% 신뢰도, alpha = 0.05인 경우 신뢰구간 찾는 문제?

  Estimate       p-value
.. ..       ..
24 ?       ?

① 

② 

③  -0.2288 + 170 + 0.2288 (?)

④ 

 

 분포가 다른 하나는?

① 포아송 분포 ② 베르누이 분포 ③ 이항분포 ④ F-분포

 

 데이터 분할 방법 중 학습 셋, 검증 셋 테스트 셋으로 분리하는 방법?

홀드 아웃

 

 K-폴드 교차 검증 설명 중 잘못된 것?

① K 개의 데이터 셋 (?)

K-1 개의 데이터 셋을 학습 셋으로 사용. (?)

③ 

④ 

 

아래 그림에 사용되는 모델?

출처: 영문 위키피디아

CNN

 

입력층이 (5,5)이고 필터가 (3,3)이고 stride는 1이며 padding이 0인 제로 패딩이면

출력(Feature map)의 크기는? 2

① (2, 2)

② (3, 3)

③ (4, 4)

④ (5, 5)

-> 정방이므로 높이와 폭이 같다. 출력 크기 = (5 - 3) + 1 = 3

입력 데이터 높이: H
입력 데이터 폭: W
필터 높이: FH
필터 폭: FW
Strid 크기: S
패딩 사이즈: P

출력 높이 = (H + 2P - FH)/S + 1
출력 폭 = (W + 2P - FW)/S + 1

 

 랜덤 포레스트 설명으로 틀린 것은?

 

 하이퍼 파라미터로 맞는 것은? 3

① 가중치

② ?

③ 은닉층의 개수

④ ?

 

 독립변수가 연속형이고 종속변수가 범주형일 때 분석방법은? 3

① 

② 

③ 로지스틱 회귀

④ 

 

 시계열 분석 요인이 아닌 것은? 2

① 백색잡음

② 이항분포

③ AR (자기회귀)

④ MA (이동평균법)

 

퍼셉트론에 대한 설명 중 틀린 것?

① 

② 

③ 

④ 

 

비지도 학습을 적용하기에 적절한 문제? 2

① ?

② 날씨 관련 다음 날 비가 올 지 예측

③ 사진 중 자신의 사진만 모아 주는 것 (?)

④ 부동산 관련 여러 변수들로 값이 오를지 예측

-> 아래 구글 머신러닝 용어집(developers.google.com/machine-learning/glossary)의 정의에 따르면 2번이 정답

"비지도 머신러닝(unsupervised machine learning)
일반적으로 라벨이 없는 데이터 세트에서 패턴을 찾도록 모델을 학습시킵니다.

비지도 머신러닝의 가장 일반적인 용도는 데이터를 서로 비슷한 예의 그룹으로 클러스터링하는 것입니다."

 

confusion matrix에서 정밀도(precision)과 재현율(recall) 찾는 문제

혼돈 행렬

 

 confusion matrix에서 설명이 틀린 것 찾는 문제?

① FP: 특이도

 FN: 민감도

③ ?

④ ?

 

 앙상블 분석에서 기법과 알고리즘이 맞게 기술된 것은? 4

① 배깅: Adaboost

배깅: 랜덤 포레스트

③ 부스팅: 랜덤 포레스트

④ 부스팅: GDM

 

4 과목 빅데이터 결과 해석

인포그래픽 특징 중 하나를 틀리게 설명한 것을 찾는 문제

- 흥미와 관심 유발,

- 이해 쉬운 전달

- 오랜 기억 유지

- 자발적 확산

 

 여러 변수를 표현하는 시각화 방법은?

① 

③ 도넛차트

④ 파이차트

 

● 스타 차트 개념 출제

 

● ROC 설명 중 잘못 된 것은?

 

반응형
Comments