請問,在使用spark sql時出現一個問題, 使用以下spark sql
====Spark sql 語法====
val download = sqlContext.read.format("jdbc").options(
Map("url" -> ConnectionStrings.SUPPORT_DATABASE,
"dbtable" -> "DownloadLogs")).load()
val dlog = download.where( download("file_name").===("Setup_3.0.8.exe").and(download("member_id").!==(0)))
println( dlog.count())
====sql 語法====
SELECT count(*)
FROM DownloadLogs
where file_name = 'Setup_3.0.8.exe'
and member_id != 0
GROUP BY file_name
找出對應的檔案,spark sql總共有423筆,
但是我使用sql server軟體select後有514筆,怎麼會有這種狀況?
兩邊對不出來
你們有遇過嗎 謝謝。
download.registerTempTable("logs")
sqlContext.sql("""SELECT count(*)
FROM logs
where file_name = 'Setup_3.0.8.exe'
and member_id != 0
GROUP BY file_name""").collect.foreach(println)
inStream.foreachRDD( rdd => {
rdd.foreachPartition( iterator => {
logInfo("test")
})
})
在這會出現Task not serialization的問題。但我看foreach裡面并沒有unserialzed的referrence,請問大家有遇到過么?