使用 spark cassandra 连接器获取 DataSet 中的列 writeTime
Fetch column writeTime in DataSet using spark cassandra connector
我试图弄清楚在尝试将 cassandra 数据加载到 DataSet (DataFrame) 时是否可以使用 spark cassandra 连接器获取列 writeTime
这就是我想要做的:
val df = spark.read.format("org.apache.spark.sql.cassandra")
.options(Map( "table" -> "table1", "keyspace" -> "keyspace1",
"cluster" -> "cluster1")).load()
我想获取一堆列和 writeTimes 到 DataFrame 中:
val someColumns = df.select("column_a", "column_b",
"column_c", "column_a".writeTime)
不幸的是,"column_a".writeTime 不受支持。有谁知道这有什么替代方法吗?
Dataset API 中还没有直接支持 ttl 和 writeTime。
您可以创建 RDD,然后将 RDD 转换为 DF:
val df = sc.cassandraTable[(Option[String], Option[Long])]("ks", "table").
select ("name", "name".writeTime).toDF()
我试图弄清楚在尝试将 cassandra 数据加载到 DataSet (DataFrame) 时是否可以使用 spark cassandra 连接器获取列 writeTime
这就是我想要做的:
val df = spark.read.format("org.apache.spark.sql.cassandra")
.options(Map( "table" -> "table1", "keyspace" -> "keyspace1",
"cluster" -> "cluster1")).load()
我想获取一堆列和 writeTimes 到 DataFrame 中:
val someColumns = df.select("column_a", "column_b",
"column_c", "column_a".writeTime)
不幸的是,"column_a".writeTime 不受支持。有谁知道这有什么替代方法吗?
Dataset API 中还没有直接支持 ttl 和 writeTime。 您可以创建 RDD,然后将 RDD 转换为 DF:
val df = sc.cassandraTable[(Option[String], Option[Long])]("ks", "table").
select ("name", "name".writeTime).toDF()