最新的Databricks Databricks-Certified-Data-Engineer-Professional日本語免費考試真題

問題1

データエンジニアは、分析と可視化のために、クラウドオブジェクトストレージからUnity Catalogで管理されるテーブルに大量の画像ファイル(JPEGとPNG)を取り込みたいと考えています。これらの画像を段階的にテーブルに取り込むために推奨される構成と方法は2つありますか？(2つ選択してください。)

A. Auto Loader を使用し、cloudFiles.format を "BINARYFILE" に設定します。

B. ファイルをボリュームに移動し、SQL エディターで読み取ります。

C. Auto Loader を使用して、cloudFiles.format を "TEXT" に設定します。

D. pathGlobFilter オプションを使用して、画像ファイルのみを選択します (例: "*.jpg、*.png")。

E. Auto Loader を使用し、cloudFiles.format を "IMAGE" に設定します。

正確答案: A,D

說明：（僅 Fast2test 成員可見）

問題2

データエンジニアリングチームは、DatabricksアセットバンドルとGitプロバイダーのCI/CD機能を用いて統合テストを自動化するGitプロジェクトを構築しています。パイプラインへの変更を含むプルが送信されたら、データパイプラインをテストするためのジョブを実行する必要があります。このタスクにおいて、GitプロバイダーのCI/CD自動化から実行すべき正しいDatabricksバンドルコマンドシーケンスは何ですか？

A. 初期化、デプロイ、実行、検証

B. 初期化、検証、デプロイ、実行

C. デプロイ、実行、検証

D. 検証、デプロイ、実行

正確答案: D

說明：（僅 Fast2test 成員可見）

問題3

ジュニアデータエンジニアが、Delta Lakeの変更データフィード機能を利用して、delta.enableChangeDataFeed = trueプロパティで作成されたブロンズテーブルの全行で有効であったすべての値を表すType 1テーブルを作成しようとしています。彼らは、以下のコードを日常的なジョブとして実行する予定です。

上記のクエリを複数回実行した場合の実行と結果を説明するステートメントはどれですか?

A. ジョブが実行されるたびに、前回の実行以降に挿入または更新されたレコードのみがターゲットテーブルに追加され、目的の結果が得られます。

B. ジョブが実行されるたびに、挿入または更新されたレコードの利用可能な履歴全体がターゲットテーブルに追加され、多くの重複エントリが生成されます。

C. ジョブが実行されるたびに、元のバージョンと現在のバージョンの違いが計算されます。これにより、一部のレコードに重複したエントリが発生する可能性があります。

D. ジョブが実行されるたびに、挿入または更新されたレコードの履歴全体を使用してターゲットテーブルが上書きされ、目的の結果が得られます。

E. ジョブが実行されるたびに、新しく更新されたレコードがターゲットテーブルにマージされ、同じ主キーを持つ以前の値が上書きされます。

正確答案: B

說明：（僅 Fast2test 成員可見）

問題4

データエンジニアが次の PySpark コードを実行しようとしています。
df = spark.read.table("売上")
結果 = df.groupBy("地域").agg(合計("収益"))
しかし、実行プランを調べて Spark ジョブをプロファイリングすると、集約フェーズで過度のデータシャッフルが発生していることがわかります。
groupBy 集計操作中のシャッフルを減らすには、どの手法を適用する必要がありますか?

A. ブロードキャスト参加を使用します。

B. 集約前にリージョンごとに再パーティション化します。

C. DataFrame df をキャッシュします。

D. 集約後に coalesce() を使用します。

正確答案: B

說明：（僅 Fast2test 成員可見）

問題5

データエンジニアはSparkのMEMORY_ONLYストレージレベルを使用しています。キャッシュされたテーブルのパフォーマンスが最適ではないことを示す指標として、データエンジニアはSpark UIの「ストレージ」タブでどの指標を確認すべきでしょうか？

A. キャッシュされたパーティションの数 > Sparkパーティションの数

B. オンヒープメモリ使用量がオフヒープメモリ使用量の75%以内です

C. ディスク上のサイズがメモリ内のサイズより小さい

D. RDDブロック名にキャッシュ失敗を示す「」アノテーションが含まれていました

E. ディスク上のサイズは> 0です

正確答案: E

說明：（僅 Fast2test 成員可見）

問題6

チームのジュニアデータエンジニアが次のコードブロックを実装しました。

new_eventsビューには、events Deltaテーブルと同じスキーマを持つレコードのバッチが含まれています。event_idフィールドは、このテーブルの一意のキーとして機能します。
このクエリを実行すると、既存のレコードと同じ event_id を持つ新しいレコードはどうなるでしょうか?

A. 結合されます。

B. 削除されます。

C. 無視されます。

D. 挿入されます。

E. 更新されました。

正確答案: C

說明：（僅 Fast2test 成員可見）

問題7

データエンジニアは、チームメイトが作成した新しいSparkアプリケーションを本番環境に移行する必要があります。このアプリケーションには、ライブラリを含む多数の外部依存関係があり、カスタム環境変数とSpark構成パラメータを設定する必要があります。データエンジニアがこのタスクを達成するのに役立つ2つの方法はどれですか？(2つ選択してください。)

A. コンピューティングポリシーにライブラリを追加する

B. DBFS 上に init スクリプトを作成します。

C. DBFSにライブラリをインストールする

D. コンピューティングポリシーを使用して、システムプロパティ、環境変数、および Spark 構成パラメータを設定します。

E. 初期化スクリプトでシークレットを使用して設定データを保存します

正確答案: B,D

說明：（僅 Fast2test 成員可見）

問題8

データエンジニアは、databricks.yml で複数のターゲットを指定して Databricks アセットバンドルを設定し、本番環境ワークスペースにデプロイしました。デプロイを検証するには、prod ターゲットのコンテキスト内で my_project_job というジョブを呼び出す必要があります。
ジョブが既にデプロイされていると仮定すると、ターゲット固有の設定が尊重されていることを確認しながら、ジョブの実行をトリガーする必要があります。どのコマンドでジョブの実行をトリガーしますか？

A. databricks execute my_project_job -e prod

B. databricks job run my_project_job --env prod

C. databricks run my_project_job -t prod

D. databricks bundle run my_project_job -t prod

正確答案: D

說明：（僅 Fast2test 成員可見）

問題9

デルタレイクとレイクハウスについて正しいのは次のうちどれですか?

A. Lakehouse 内のビューは、常にソーステーブルの最新バージョンの有効なキャッシュを維持します。

B. Z オーダーは Delta Lake テーブルに格納されている数値にのみ適用できます。

C. Parquet はデータを行ごとに圧縮するため、文字列は文字が複数回繰り返される場合にのみ圧縮されます。

D. Delta Lake は、クエリフィルターに基づいてデータのスキップに活用される各テーブルの最初の 32 列の統計を自動的に収集します。

E. 主キー制約と外部キー制約を利用すると、ディメンションテーブルに重複する値が入力されないようにすることができます。

正確答案: D

說明：（僅 Fast2test 成員可見）

問題10

以下のクエリで Delta Lake テーブルが作成されました。

次のクエリを考えてみましょう。
prod.sales_by_store テーブルを削除します
このステートメントがワークスペース管理者によって実行されると、どのような結果が発生しますか?

A. テーブルはカタログから削除され、データは削除されます。

B. テーブルはカタログから削除されますが、データはストレージに残ります。

C. データは削除済みとしてマークされますが、Time Travel で回復可能です。

D. Delta Lake では運用データの削除が禁止されているため、エラーが発生します。

E. COMMIT コマンドが実行されるまで何も起こりません。

正確答案: A

說明：（僅 Fast2test 成員可見）

問題11

大規模な分散型 Databricks バッチおよびストリーミングパイプラインのすべてのノードにわたって一貫した PII マスキングを確保する際の主な技術的課題は何ですか。

A. マスキング関数は、Unity Catalog を通じて標準化および管理され、データの不整合を回避するためにすべての関連データセットに強制適用される必要があります。

B. Databricks のネイティブマスキングは、すべての下流の外部 Databricks システムと自動的に同期します。

C. 動的データマスキングは保存時にのみ適用されるため、クエリのパフォーマンスには影響しません。

D. PII マスキングは直接識別子に対してのみ必要です。

正確答案: A

說明：（僅 Fast2test 成員可見）

問題12

Delta Lake Auto Compaction について説明している記述はどれですか?

A. データはメモリに直接コミットされるのではなく、メッセージングバスのキューに入れられます。ジョブが完了すると、すべてのデータはメッセージングバスから 1 つのバッチでコミットされます。

B. ジョブクラスターが終了する前に、最新のジョブ中に変更されたすべてのテーブルに対して最適化が実行されます。

C. 書き込みが完了した後、ファイルをさらに圧縮できるかどうかを検出するための非同期ジョブが実行されます。圧縮できる場合は、デフォルトの 128 MB に向けて最適化ジョブが実行されます。

D. 最適化された書き込みでは、ディレクトリパーティションではなく論理パーティションが使用されます。パーティション境界はメタデータでのみ表されるため、書き込まれる小さなファイルの数は少なくなります。

E. 書き込みが完了した後、ファイルをさらに圧縮できるかどうかを検出するための非同期ジョブが実行されます。圧縮できる場合は、デフォルトの 1 GB に向けて最適化ジョブが実行されます。

正確答案: C

說明：（僅 Fast2test 成員可見）

問題13

夜間バッチジョブは、クラウドオブジェクトストレージコンテナからすべてのデータファイルを取り込むように設定されています。このコンテナには、YYYY/MM/DDというネストされたディレクトリ構造でレコードが保存されています。各日付のデータは、その日にソースシステムによって処理されたすべてのレコードを表します。一部のレコードはモデレーターの承認待ちのため、処理が遅れる場合があります。各エントリは製品に対するユーザーレビューを表し、以下のスキーマを持ちます。
user_id STRING、review_id BIGINT、product_id BIGINT、review_timestamp TIMESTAMP、review_text STRING 取り込みジョブは、ソースシステムと同一のスキーマを持つターゲットテーブル reviews_raw に、前日のすべてのデータを追加するように設定されています。パイプラインの次のステップは、reviews_raw に挿入されたすべての新規レコードを、データが完全に重複排除、検証、およびエンリッチされたテーブルに伝播するバッチ書き込みです。
このデータバッチを伝播するための計算コストを最小限に抑えるソリューションはどれですか?

A. Delta Lake のバージョン履歴を使用して、reviews_raw の最新バージョンと 1 つ前のバージョンの違いを取得し、これらのレコードを次のテーブルに書き込みます。

B. トリガーワンス実行モードを使用して reviews_raw テーブルに対して構造化ストリーミング読み取りを構成し、新しいレコードをバッチジョブとして処理します。

C. reviews_raw 内のすべてのレコードを再処理し、パイプラインの次のテーブルを上書きします。

D. review_timestamp に基づいて reviews_raw テーブル内のすべてのレコードをフィルタリングし、過去 48 時間以内に生成されたレコードを一括追加します。

E. reviews_raw テーブルでバッチ読み取りを実行し、自然な複合キー user_id、review_id、product_id、review_timestamp を使用して挿入のみのマージを実行します。

正確答案: B

說明：（僅 Fast2test 成員可見）

問題14

アップストリームソースは、Parquetデータを1時間ごとのバッチとして、現在の日付を名前とするディレクトリに書き込みます。夜間のバッチジョブは、次のコードを実行して、日付変数で示される前日のすべてのデータを取り込みます。

フィールド customer_id と order_id は、各注文を一意に識別するための複合キーとして機能すると想定します。
上流システムが、単一の注文に対して数時間間隔を置いて重複したエントリを生成することが時々あることがわかっている場合、正しい記述はどれですか。

A. 注文テーブルへの各書き込みには一意のレコードのみが含まれますが、新しく書き込まれたレコードにはターゲットテーブルに既に存在する重複レコードが含まれている場合があります。

B. 注文テーブルへの各書き込みには一意のレコードのみが含まれます。同じキーを持つ既存のレコードがターゲットテーブルに存在する場合、操作は失敗します。

C. 注文テーブルへの各書き込みには一意のレコードのみが含まれ、ターゲットテーブルに重複のないレコードのみが書き込まれます。

D. 注文テーブルへの各書き込みでは、新規レコードと既存レコードの結合に対して重複排除が実行され、重複レコードが存在しないことが保証されます。

E. 注文テーブルへの各書き込みには一意のレコードのみが含まれます。同じキーを持つ既存のレコードがターゲットテーブルに存在する場合、これらのレコードは上書きされます。

正確答案: A

說明：（僅 Fast2test 成員可見）

最新的Databricks Certified Data Engineer Professional Exam (Databricks-Certified-Data-Engineer-Professional日本語版) - Databricks-Certified-Data-Engineer-Professional日本語免費考試真題

聯系我們

站內鏈接

最新更新