最新的Databricks Certified Professional Data Engineer Exam (Databricks-Certified-Professional-Data-Engineer Korean Version) - Databricks-Certified-Professional-Data-Engineer Korean免費考試真題

데이터 거버넌스 팀은 GDPR 준수를 위해 레코드 삭제에 사용되는 코드를 검토하고 있습니다. 그들은 Delta Lake의 users라는 테이블에서 레코드를 삭제하는 데 다음과 같은 로직이 사용된다는 것을 확인했습니다.

user_id가 고유 식별 키이고 delete_requests에 삭제를 요청한 모든 사용자가 포함되어 있다고 가정할 때, 위의 로직을 성공적으로 실행하면 삭제될 레코드에 더 이상 접근할 수 없다는 것이 보장되는지 여부를 설명하는 문장은 무엇이며, 그 이유는 무엇입니까?

正確答案: C
說明:(僅 Fast2test 成員可見)
PySpark 애플리케이션에 단위 테스트를 통합하려면 작업 설계에 대한 사전 고려가 필요하거나 기존 코드에 상당한 리팩토링이 필요할 수 있습니다.
다음 중 이러한 추가적인 노력을 상쇄하는 주요 이점을 설명하는 문장은 무엇입니까?

正確答案: D
Databricks는 사용자 지정 Python 코드 패키지 설치를 위해 어떤 배포판을 지원합니까?

正確答案: C
데이터 엔지니어가 스트리밍 주문 데이터를 처리하기 위해 Lakeflow 선언적 파이프라인을 설계하고 있습니다. 이 파이프라인은 Auto Loader를 사용하여 데이터를 수집하며, customer_id와 amount 값이 0보다 큰지 확인하여 데이터 품질을 보장해야 합니다. 유효하지 않은 레코드는 삭제해야 합니다.
Lakeflow Declarative Pipelines 구성 중 어떤 구성이 Python을 사용하여 이 요구 사항을 구현합니까?

正確答案: B
說明:(僅 Fast2test 成員可見)
워크스페이스 관리자가 finance_data라는 새 카탈로그를 생성했고, 재무팀 리더에게 전체 관리자 권한을 부여하지 않고 권한 관리 권한만 위임하려고 합니다.
재무팀장에게 어떤 권한을 부여해야 할까요?

正確答案: D
說明:(僅 Fast2test 成員可見)
분석팀은 데이터 엔지니어링팀이 생성한 고객 거래 델타 테이블(약 200억 건의 레코드)을 대상으로 Databricks SQL에서 단기 실험을 실행하려고 합니다. 데이터 엔지니어링팀은 가동 중지 시간을 최소화하고 진행 중인 ETL 프로세스에 영향을 미치지 않도록 어떤 전략을 사용해야 할까요?

正確答案: D
說明:(僅 Fast2test 成員可見)
저장 및 컴퓨팅 비용을 줄이기 위해 데이터 엔지니어링 팀은 비즈니스 인텔리전스 대시보드, 고객 대면 애플리케이션, 프로덕션 머신 러닝 모델 및 임시 분석 쿼리에서 활용되는 일련의 집계 테이블을 관리하는 임무를 맡았습니다.
데이터 엔지니어링 팀은 고객 대면 애플리케이션에서 새로운 요구 사항이 발생했음을 알게 되었습니다. 이 애플리케이션은 해당 팀이 전적으로 관리하는 유일한 하위 워크로드입니다. 따라서 조직 전체의 여러 팀에서 사용하는 집계 테이블의 필드 이름을 변경하고 새 필드를 추가해야 합니다.
관리해야 할 테이블 수를 늘리지 않으면서 조직 내 다른 팀에 미치는 영향을 최소화하는 해결책은 무엇입니까?

正確答案: D
說明:(僅 Fast2test 成員可見)
뷰 업데이트는 고객 테이블에 삽입 또는 업데이트될 모든 새로 수집된 데이터의 증분 배치를 나타냅니다.
이러한 기록을 처리하는 데에는 다음과 같은 논리가 사용됩니다.
고객과 합병하세요
사용 (
SELECT updates.customer_id as merge_ey, updates .*
업데이트에서
유니온 올
merge_key로 NULL을 선택하고 업데이트를 실행합니다.
업데이트에서 참여하세요
ON updates.customer_id = customers.customer_id
WHERE customers.current = true AND updates.address < > customers.address ) staged_updates ON customers.customer_id = mergekey WHEN MATCHED AND customers. current = true AND customers.address < > staged_updates.
그런 다음 주소를 지정하세요
UPDATE SET current = false, end_date = staged_updates.effective_date
일치하지 않을 경우
고객 ID, 주소, 현재 날짜, 유효 날짜, 종료 날짜 삽입
VALUES (staged_updates.customer_id, staged_updates.address, true, staged_updates.effective_date, null) 이 구현을 설명하는 문장은 무엇입니까?

正確答案: C
說明:(僅 Fast2test 成員可見)
데이터 엔지니어는 광고 노출(광고가 표시된 시점) 스트림과 사용자의 광고 클릭 스트림을 결합하여 노출이 수익 창출로 이어지는 시점을 상관 분석하려고 합니다.

어떤 해결책이 성능을 향상시킬까요?

正確答案: B
說明:(僅 Fast2test 成員可見)
Databricks 노트북에 다음과 같은 PySpark 코드 조각이 있다고 가정해 보겠습니다.
filtered_df = spark.read.format(" delta ").load(" /mnt/data/large_table ")
.filter( " event_date > ' 2024-01-01 ' " )
filtered_df.count()
데이터 엔지니어는 쿼리 프로파일러를 통해 필터가 적용되었음에도 불구하고 filtered_df에 대한 스캔 연산자가 거의 모든 파일을 읽고 있다는 사실을 발견했습니다.
데이터 건너뛰기 기능이 제대로 작동하지 않는 이유는 무엇일까요?

正確答案: B
說明:(僅 Fast2test 成員可見)
데이터 엔지니어가 Auto Loader를 사용하여 들어오는 JSON 데이터를 읽고 있습니다. 유효하지 않은 JSON 레코드를 격리하도록 Auto Loader를 구성했지만, 시간이 지남에 따라 형식이 올바른 JSON 레코드조차 격리되는 것을 발견했습니다.
다음은 코드 조각입니다.
df = (spark.readStream
.format( " cloudFiles " )
.option( " cloudFiles.format " , " json " )
.option( " badRecordsPath " , " /tmp/somewhere/badRecordsPath " )
.schema( " a int, b int " )
.load( " /Volumes/catalog/schema/raw_data/ " ))
데이터가 누락된 원인은 무엇입니까?

正確答案: C
說明:(僅 Fast2test 成員可見)
Databricks Python 노트북을 텍스트 편집기에서 볼 때 첫 번째 내용은 무엇입니까?

正確答案: D
說明:(僅 Fast2test 成員可見)
사용자는 DLT 기대치를 사용하여 파생 테이블 보고서에 원본의 모든 레코드가 포함되어 있는지, 그리고 테이블 validation_copy에 포함된 레코드가 있는지 검증하려고 합니다.
사용자는 보고서 테이블 정의에 기대값을 추가하는 방식으로 이를 시도했지만 실패했습니다.
DLT 기대값을 사용하여 이 테이블에 예상되는 모든 레코드가 있는지 검증할 수 있는 접근 방식은 무엇일까요?

正確答案: C
說明:(僅 Fast2test 成員可見)

聯系我們

如果您有任何問題,請留下您的電子郵件地址,我們將在12小時內回复電子郵件給您。

我們的工作時間:( GMT 0:00-15:00 )
週一至週六

技術支持: 立即聯繫 

English 日本語 Deutsch 한국어