最新的Databricks Certified Data Engineer Professional Exam (Databricks-Certified-Data-Engineer-Professional日本語版) - Databricks-Certified-Data-Engineer-Professional日本語免費考試真題
データエンジニアは、分析と可視化のために、クラウドオブジェクトストレージからUnity Catalogで管理されるテーブルに大量の画像ファイル(JPEGとPNG)を取り込みたいと考えています。これらの画像を段階的にテーブルに取り込むために推奨される構成と方法は2つありますか?(2つ選択してください。)
正確答案: A,D
說明:(僅 Fast2test 成員可見)
データエンジニアリングチームは、DatabricksアセットバンドルとGitプロバイダーのCI/CD機能を用いて統合テストを自動化するGitプロジェクトを構築しています。パイプラインへの変更を含むプルが送信されたら、データパイプラインをテストするためのジョブを実行する必要があります。このタスクにおいて、GitプロバイダーのCI/CD自動化から実行すべき正しいDatabricksバンドルコマンドシーケンスは何ですか?
正確答案: D
說明:(僅 Fast2test 成員可見)
ジュニアデータエンジニアが、Delta Lakeの変更データフィード機能を利用して、delta.enableChangeDataFeed = trueプロパティで作成されたブロンズテーブルの全行で有効であったすべての値を表すType 1テーブルを作成しようとしています。彼らは、以下のコードを日常的なジョブとして実行する予定です。

上記のクエリを複数回実行した場合の実行と結果を説明するステートメントはどれですか?

上記のクエリを複数回実行した場合の実行と結果を説明するステートメントはどれですか?
正確答案: B
說明:(僅 Fast2test 成員可見)
データ エンジニアが次の PySpark コードを実行しようとしています。
df = spark.read.table("売上")
結果 = df.groupBy("地域").agg(合計("収益"))
しかし、実行プランを調べて Spark ジョブをプロファイリングすると、集約フェーズで過度のデータ シャッフルが発生していることがわかります。
groupBy 集計操作中のシャッフルを減らすには、どの手法を適用する必要がありますか?
df = spark.read.table("売上")
結果 = df.groupBy("地域").agg(合計("収益"))
しかし、実行プランを調べて Spark ジョブをプロファイリングすると、集約フェーズで過度のデータ シャッフルが発生していることがわかります。
groupBy 集計操作中のシャッフルを減らすには、どの手法を適用する必要がありますか?
正確答案: B
說明:(僅 Fast2test 成員可見)
データエンジニアはSparkのMEMORY_ONLYストレージレベルを使用しています。キャッシュされたテーブルのパフォーマンスが最適ではないことを示す指標として、データエンジニアはSpark UIの「ストレージ」タブでどの指標を確認すべきでしょうか?
正確答案: E
說明:(僅 Fast2test 成員可見)
チームのジュニア データ エンジニアが次のコード ブロックを実装しました。

new_eventsビューには、events Deltaテーブルと同じスキーマを持つレコードのバッチが含まれています。event_idフィールドは、このテーブルの一意のキーとして機能します。
このクエリを実行すると、既存のレコードと同じ event_id を持つ新しいレコードはどうなるでしょうか?

new_eventsビューには、events Deltaテーブルと同じスキーマを持つレコードのバッチが含まれています。event_idフィールドは、このテーブルの一意のキーとして機能します。
このクエリを実行すると、既存のレコードと同じ event_id を持つ新しいレコードはどうなるでしょうか?
正確答案: C
說明:(僅 Fast2test 成員可見)
データエンジニアは、チームメイトが作成した新しいSparkアプリケーションを本番環境に移行する必要があります。このアプリケーションには、ライブラリを含む多数の外部依存関係があり、カスタム環境変数とSpark構成パラメータを設定する必要があります。データエンジニアがこのタスクを達成するのに役立つ2つの方法はどれですか?(2つ選択してください。)
正確答案: B,D
說明:(僅 Fast2test 成員可見)
データエンジニアは、databricks.yml で複数のターゲットを指定して Databricks アセットバンドルを設定し、本番環境ワークスペースにデプロイしました。デプロイを検証するには、prod ターゲットのコンテキスト内で my_project_job というジョブを呼び出す必要があります。
ジョブが既にデプロイされていると仮定すると、ターゲット固有の設定が尊重されていることを確認しながら、ジョブの実行をトリガーする必要があります。どのコマンドでジョブの実行をトリガーしますか?
ジョブが既にデプロイされていると仮定すると、ターゲット固有の設定が尊重されていることを確認しながら、ジョブの実行をトリガーする必要があります。どのコマンドでジョブの実行をトリガーしますか?
正確答案: D
說明:(僅 Fast2test 成員可見)
デルタ レイクとレイクハウスについて正しいのは次のうちどれですか?
正確答案: D
說明:(僅 Fast2test 成員可見)
以下のクエリで Delta Lake テーブルが作成されました。

次のクエリを考えてみましょう。
prod.sales_by_store テーブルを削除します
このステートメントがワークスペース管理者によって実行されると、どのような結果が発生しますか?

次のクエリを考えてみましょう。
prod.sales_by_store テーブルを削除します
このステートメントがワークスペース管理者によって実行されると、どのような結果が発生しますか?
正確答案: A
說明:(僅 Fast2test 成員可見)
大規模な分散型 Databricks バッチおよびストリーミング パイプラインのすべてのノードにわたって一貫した PII マスキングを確保する際の主な技術的課題は何ですか。
正確答案: A
說明:(僅 Fast2test 成員可見)
Delta Lake Auto Compaction について説明している記述はどれですか?
正確答案: C
說明:(僅 Fast2test 成員可見)
夜間バッチジョブは、クラウドオブジェクトストレージコンテナからすべてのデータファイルを取り込むように設定されています。このコンテナには、YYYY/MM/DDというネストされたディレクトリ構造でレコードが保存されています。各日付のデータは、その日にソースシステムによって処理されたすべてのレコードを表します。一部のレコードはモデレーターの承認待ちのため、処理が遅れる場合があります。各エントリは製品に対するユーザーレビューを表し、以下のスキーマを持ちます。
user_id STRING、review_id BIGINT、product_id BIGINT、review_timestamp TIMESTAMP、review_text STRING 取り込みジョブは、ソースシステムと同一のスキーマを持つターゲットテーブル reviews_raw に、前日のすべてのデータを追加するように設定されています。パイプラインの次のステップは、reviews_raw に挿入されたすべての新規レコードを、データが完全に重複排除、検証、およびエンリッチされたテーブルに伝播するバッチ書き込みです。
このデータバッチを伝播するための計算コストを最小限に抑えるソリューションはどれですか?
user_id STRING、review_id BIGINT、product_id BIGINT、review_timestamp TIMESTAMP、review_text STRING 取り込みジョブは、ソースシステムと同一のスキーマを持つターゲットテーブル reviews_raw に、前日のすべてのデータを追加するように設定されています。パイプラインの次のステップは、reviews_raw に挿入されたすべての新規レコードを、データが完全に重複排除、検証、およびエンリッチされたテーブルに伝播するバッチ書き込みです。
このデータバッチを伝播するための計算コストを最小限に抑えるソリューションはどれですか?
正確答案: B
說明:(僅 Fast2test 成員可見)
アップストリームソースは、Parquetデータを1時間ごとのバッチとして、現在の日付を名前とするディレクトリに書き込みます。夜間のバッチジョブは、次のコードを実行して、日付変数で示される前日のすべてのデータを取り込みます。

フィールド customer_id と order_id は、各注文を一意に識別するための複合キーとして機能すると想定します。
上流システムが、単一の注文に対して数時間間隔を置いて重複したエントリを生成することが時々あることがわかっている場合、正しい記述はどれですか。

フィールド customer_id と order_id は、各注文を一意に識別するための複合キーとして機能すると想定します。
上流システムが、単一の注文に対して数時間間隔を置いて重複したエントリを生成することが時々あることがわかっている場合、正しい記述はどれですか。
正確答案: A
說明:(僅 Fast2test 成員可見)