09/05/2024

Lectura de tablas Kudu

Hay varias maneras de realizar consultas de tablas Kudu, una es desde la propia consola de Spark. Para ello es necesario que, al iniciar la sesión de Spark incluyamos el paquete de kudu. Para ello, es necesario ejecutar el siguiente comando:

spark3-shell --jars /opt/cloudera/parcels/CDH/lib/kudu/kudu-spark3_2.12.jar

Obviamente, el paquete y la ruta tienen que ser los adecuados a la configuración de tu cluster Cloudera. Una vez iniciada la consola de Spark, será necesario realizar las importaciones necesarias

val kudu_master= "hostname:7051, hostname2:7051,...."

val df = spark.read.
  options(Map("kudu.master" -> kudu_master, "kudu.table" -> "ddbb.tablename")).
  format("kudu").
  load()

df.show(10, false)