最新的Databricks Databricks-Certified-Professional-Data-Engineer Korean免費考試真題

問題1

데이터 거버넌스 팀은 GDPR 준수를 위해 레코드 삭제에 사용되는 코드를 검토하고 있습니다. 그들은 Delta Lake의 users라는 테이블에서 레코드를 삭제하는 데 다음과 같은 로직이 사용된다는 것을 확인했습니다.

user_id가 고유 식별 키이고 delete_requests에 삭제를 요청한 모든 사용자가 포함되어 있다고 가정할 때, 위의 로직을 성공적으로 실행하면 삭제될 레코드에 더 이상 접근할 수 없다는 것이 보장되는지 여부를 설명하는 문장은 무엇이며, 그 이유는 무엇입니까?

A. 예; 델타 캐시는 디스크에 기록된 최신 데이터 파일을 반영하여 즉시 업데이트됩니다.

B. 아니요. Delta Lake의 삭제 명령은 병합 명령과 함께 사용할 때만 ACID 보장을 제공합니다.

C. 아니요; 삭제된 레코드가 포함된 파일은 vacuum 명령을 사용하여 무효화된 데이터 파일을 제거하기 전까지는 타임 트래블을 통해 계속 접근할 수 있습니다.

D. 예; Delta Lake의 ACID 보장은 삭제 명령이 완전히 성공적으로 완료되어 해당 레코드가 영구적으로 삭제되었음을 보장합니다.

E. 아니요. 델타 캐시는 클러스터가 재시작될 때까지 테이블의 이전 버전에서 가져온 레코드를 반환할 수 있습니다.

正確答案: C

說明：（僅 Fast2test 成員可見）

問題2

PySpark 애플리케이션에 단위 테스트를 통합하려면 작업 설계에 대한 사전 고려가 필요하거나 기존 코드에 상당한 리팩토링이 필요할 수 있습니다.
다음 중 이러한 추가적인 노력을 상쇄하는 주요 이점을 설명하는 문장은 무엇입니까?

A. 애플리케이션의 전체 사용 사례를 검증합니다.

B. 원하는 최종 결과를 얻기 위해 모든 단계가 올바르게 상호 작용하도록 보장합니다.

C. 데이터 품질을 향상시킵니다

D. 모든 단계가 분리되어 개별적으로 테스트되므로 문제 해결이 더 쉽습니다.

E. 배포 및 실행 시간이 더 빠릅니다.

正確答案: D

問題3

Databricks는 사용자 지정 Python 코드 패키지 설치를 위해 어떤 배포판을 지원합니까?

A. 크랜

B. 크램

C. 이름

D. 바퀴

E. 병

F. sbt

正確答案: C

問題4

데이터 엔지니어가 스트리밍 주문 데이터를 처리하기 위해 Lakeflow 선언적 파이프라인을 설계하고 있습니다. 이 파이프라인은 Auto Loader를 사용하여 데이터를 수집하며, customer_id와 amount 값이 0보다 큰지 확인하여 데이터 품질을 보장해야 합니다. 유효하지 않은 레코드는 삭제해야 합니다.
Lakeflow Declarative Pipelines 구성 중 어떤 구성이 Python을 사용하여 이 요구 사항을 구현합니까?

A. @dlt.table
@dlt.expect( " valid_customer " , " customer_id IS NOT NULL " )
@dlt.expect( " valid_amount " , " amount > 0 " )
def silver_orders():
return dlt.read_stream( " bronze_orders " )

B. @dlt.table
def silver_orders():
return (
dlt.read_stream( " bronze_orders " )
.expect_or_drop( " valid_customer " , " customer_id IS NOT NULL " )
.expect_or_drop( " valid_amount " , " amount > 0 " )
)

C. @dlt.table
def silver_orders():
return (
dlt.read_stream( " bronze_orders " )
.expect( " valid_customer " , " customer_id IS NOT NULL " )
.expect( " valid_amount " , " amount > 0 " )
)

D. @dlt.table
@dlt.expect_or_drop( " valid_customer " , " customer_id IS NOT NULL " )
@dlt.expect_or_drop( " valid_amount " , " amount > 0 " )
def silver_orders():
return dlt.read_stream( " bronze_orders " )

正確答案: B

說明：（僅 Fast2test 成員可見）

問題5

워크스페이스 관리자가 finance_data라는 새 카탈로그를 생성했고, 재무팀 리더에게 전체 관리자 권한을 부여하지 않고 권한 관리 권한만 위임하려고 합니다.
재무팀장에게 어떤 권한을 부여해야 할까요?

A. 재무팀이 메타스토어 관리자 역할을 맡도록 합니다.

B. finance_data 카탈로그에 대한 OPTION 권한을 부여합니다.

C. finance_data 카탈로그에 대한 모든 권한.

D. finance_data 카탈로그에 대한 관리 권한.

正確答案: D

說明：（僅 Fast2test 成員可見）

問題6

분석팀은 데이터 엔지니어링팀이 생성한 고객 거래 델타 테이블(약 200억 건의 레코드)을 대상으로 Databricks SQL에서 단기 실험을 실행하려고 합니다. 데이터 엔지니어링팀은 가동 중지 시간을 최소화하고 진행 중인 ETL 프로세스에 영향을 미치지 않도록 어떤 전략을 사용해야 할까요?

A. CTAS 문을 사용하여 분석팀을 위한 새 테이블을 생성합니다.

B. 분석팀을 위해 테이블을 딥 클론합니다.

C. 분석팀에게 프로덕션 테이블에 대한 직접 액세스 권한을 부여합니다.

D. 분석팀을 위해 테이블을 얕은 복제합니다.

正確答案: D

說明：（僅 Fast2test 成員可見）

問題7

저장 및 컴퓨팅 비용을 줄이기 위해 데이터 엔지니어링 팀은 비즈니스 인텔리전스 대시보드, 고객 대면 애플리케이션, 프로덕션 머신 러닝 모델 및 임시 분석 쿼리에서 활용되는 일련의 집계 테이블을 관리하는 임무를 맡았습니다.
데이터 엔지니어링 팀은 고객 대면 애플리케이션에서 새로운 요구 사항이 발생했음을 알게 되었습니다. 이 애플리케이션은 해당 팀이 전적으로 관리하는 유일한 하위 워크로드입니다. 따라서 조직 전체의 여러 팀에서 사용하는 집계 테이블의 필드 이름을 변경하고 새 필드를 추가해야 합니다.
관리해야 할 테이블 수를 늘리지 않으면서 조직 내 다른 팀에 미치는 영향을 최소화하는 해결책은 무엇입니까?

A. 테이블 스키마가 변경될 예정임을 모든 사용자에게 공지하고, 기존 쿼리와 일치하도록 새 테이블 스키마로 되돌리는 데 필요한 로직을 공지에 포함시키십시오.

B. 현재 테이블 정의를 집계 테이블에 기록하는 쿼리 로직으로 정의된 논리적 뷰로 교체하고, 고객 대면 애플리케이션에 필요한 새 테이블을 생성합니다.

C. 테이블 스키마 및 필드 이름이 지정된 날짜에 변경될 예정임을 모든 사용자에게 알리는 경고 메시지를 테이블에 추가합니다. 고객에게 제공되는 애플리케이션의 사양에 따라 테이블을 제자리에서 덮어씁니다.

D. 필요한 모든 필드와 새 이름을 사용하여 새 테이블을 구성하고 이를 고객 대면 애플리케이션의 소스로 사용합니다. 새 테이블에서 선택한 필드에 별칭을 지정하여 원래 데이터 스키마와 테이블 이름을 유지하는 뷰를 생성합니다.

E. 필요한 스키마와 새 필드를 사용하여 새 테이블을 생성하고 Delta Lake의 딥 클론 기능을 사용하여 한 테이블에 커밋된 변경 사항을 해당 테이블에 동기화합니다.

正確答案: D

說明：（僅 Fast2test 成員可見）

問題8

뷰 업데이트는 고객 테이블에 삽입 또는 업데이트될 모든 새로 수집된 데이터의 증분 배치를 나타냅니다.
이러한 기록을 처리하는 데에는 다음과 같은 논리가 사용됩니다.
고객과 합병하세요
사용 (
SELECT updates.customer_id as merge_ey, updates .*
업데이트에서
유니온 올
merge_key로 NULL을 선택하고 업데이트를 실행합니다.
업데이트에서 참여하세요
ON updates.customer_id = customers.customer_id
WHERE customers.current = true AND updates.address < > customers.address ) staged_updates ON customers.customer_id = mergekey WHEN MATCHED AND customers. current = true AND customers.address < > staged_updates.
그런 다음 주소를 지정하세요
UPDATE SET current = false, end_date = staged_updates.effective_date
일치하지 않을 경우
고객 ID, 주소, 현재 날짜, 유효 날짜, 종료 날짜 삽입
VALUES (staged_updates.customer_id, staged_updates.address, true, staged_updates.effective_date, null) 이 구현을 설명하는 문장은 무엇입니까?

A. 고객 테이블은 Type 0 테이블로 구현되어 있으며, 모든 쓰기 작업은 기존 값을 변경하지 않고 새로운 값을 추가하는 방식으로만 수행됩니다.

B. 고객 테이블은 타입 1 테이블로 구현되어 있으며, 기존 값은 새 값으로 덮어쓰여지고 이력은 유지되지 않습니다.

C. 고객 테이블은 Type 2 테이블로 구현됩니다. 기존 값은 유지되지만 더 이상 사용되지 않는 것으로 표시되고 새 값이 삽입됩니다.

D. 고객 테이블은 Type 2 테이블로 구현되어 있으며, 기존 값은 덮어쓰여지고 신규 고객은 추가됩니다.

正確答案: C

說明：（僅 Fast2test 成員可見）

問題9

데이터 엔지니어는 광고 노출(광고가 표시된 시점) 스트림과 사용자의 광고 클릭 스트림을 결합하여 노출이 수익 창출로 이어지는 시점을 상관 분석하려고 합니다.

어떤 해결책이 성능을 향상시킬까요?

A.

B.

C.

D.

正確答案: B

說明：（僅 Fast2test 成員可見）

問題10

Databricks 노트북에 다음과 같은 PySpark 코드 조각이 있다고 가정해 보겠습니다.
filtered_df = spark.read.format(" delta ").load(" /mnt/data/large_table ")
.filter( " event_date > ' 2024-01-01 ' " )
filtered_df.count()
데이터 엔지니어는 쿼리 프로파일러를 통해 필터가 적용되었음에도 불구하고 filtered_df에 대한 스캔 연산자가 거의 모든 파일을 읽고 있다는 사실을 발견했습니다.
데이터 건너뛰기 기능이 제대로 작동하지 않는 이유는 무엇일까요?

A. 필터는 전체 데이터 스캔 후에만 실행되어 데이터 누락을 방지합니다.

B. event_date 열은 테이블의 파티셔닝 및 Z-정렬 체계 외부에 있습니다.

C. 필터 조건에 데이터 건너뛰기 지원에서 제외된 데이터 유형이 포함되어 있습니다.

D. Delta 테이블에는 동적 파일 정리를 가능하게 하는 최적화가 부족합니다.

正確答案: B

說明：（僅 Fast2test 成員可見）

問題11

데이터 엔지니어가 Auto Loader를 사용하여 들어오는 JSON 데이터를 읽고 있습니다. 유효하지 않은 JSON 레코드를 격리하도록 Auto Loader를 구성했지만, 시간이 지남에 따라 형식이 올바른 JSON 레코드조차 격리되는 것을 발견했습니다.
다음은 코드 조각입니다.
df = (spark.readStream
.format( " cloudFiles " )
.option( " cloudFiles.format " , " json " )
.option( " badRecordsPath " , " /tmp/somewhere/badRecordsPath " )
.schema( " a int, b int " )
.load( " /Volumes/catalog/schema/raw_data/ " ))
데이터가 누락된 원인은 무엇입니까?

A. 엔지니어가 "cloudFiles.quarantineMode" = "rescue" 옵션을 설정하는 것을 잊었습니다.

B. 어느 시점부터 상위 데이터 제공업체가 모든 데이터를 여러 줄로 된 JSON 형식으로 전환했습니다.

C. 소스 데이터는 유효한 JSON 형식이지만, 정의된 스키마를 어떤 방식으로든 준수하지 않습니다.

D. badRecordsPath 위치에 작은 파일들이 많이 누적되고 있습니다.

正確答案: C

說明：（僅 Fast2test 成員可見）

問題12

Databricks Python 노트북을 텍스트 편집기에서 볼 때 첫 번째 내용은 무엇입니까?

A. //Databricks 노트북 소스

B. %파이썬

C. -- Databricks 노트북 소스

D. % Databricks 노트북 소스

正確答案: D

說明：（僅 Fast2test 成員可見）

問題13

사용자는 DLT 기대치를 사용하여 파생 테이블 보고서에 원본의 모든 레코드가 포함되어 있는지, 그리고 테이블 validation_copy에 포함된 레코드가 있는지 검증하려고 합니다.
사용자는 보고서 테이블 정의에 기대값을 추가하는 방식으로 이를 시도했지만 실패했습니다.
DLT 기대값을 사용하여 이 테이블에 예상되는 모든 레코드가 있는지 검증할 수 있는 접근 방식은 무엇일까요?

A. validation_copy, report, report 테이블을 대상으로 왼쪽 외부 조인을 수행하고, 그 결과를 DLT 기대값과 비교하여 report 테이블을 검증하는 함수를 정의하십시오.

B. validation_copy 테이블과 report 테이블을 왼쪽 외부 조인하는 임시 테이블을 정의하고, report 테이블의 키 값 중 null이 없어야 한다는 조건을 정의합니다.

C. validation_copy 테이블과 report 테이블을 왼쪽 외부 조인하는 뷰를 정의하고, DLT에서 report 테이블에 대한 기대치에 이 뷰를 참조합니다.

D. 두 테이블에 대해 왼쪽 외부 조인을 수행하는 SQL 사용자 정의 함수(UDF)를 정의하고, 이 함수가 보고서 테이블에 대한 DLT 기대치에서 보고서 키 값에 대해 null 값을 반환하는지 확인합니다.

正確答案: C

說明：（僅 Fast2test 成員可見）

最新的Databricks Certified Professional Data Engineer Exam (Databricks-Certified-Professional-Data-Engineer Korean Version) - Databricks-Certified-Professional-Data-Engineer Korean免費考試真題

聯系我們

站內鏈接

最新更新