Where communities thrive


  • Join over 1.5M+ people
  • Join over 100K+ communities
  • Free without limits
  • Create your own community
People
Activity
    Wei Hao Lin
    @LinNeil7758_twitter
    恩恩 ,瞭解 thx
    Hubert Fan Chiang
    @hubertfc
    @iGene 明天018再麻煩你囉~
    Max Huang
    @sakanamax
    明天晚上因為家中有事, 不能參與 Orz...
    Stana
    @mathsigit
    @sakanamax 太可惜了!
    Max Huang
    @sakanamax
    是阿 QQ
    Vito Jeng
    @vitojeng
    @hubertfc meetup 日期是 1/19 喔
    @sakanamax 殘念呀 !
    Hubert Fan Chiang
    @hubertfc
    是阿! 歹勢! 知道是1/19 但卻下意識以為是星期三~~ 暈~~
    nowashsimon
    @nowashsimon
    今天是老地方嗎?
    Hubert Fan Chiang
    @hubertfc
    一樣工三館但在地下室018教室
    Vito Jeng
    @vitojeng
    @nowashimon :+1: 感謝 ~
    Wei Hao Lin
    @LinNeil7758_twitter
    請問 spark sql 可以使用with name as ( select from xxx) select from name 方法嗎?
    Wei-Chiu Chuang
    @jojochuang
    Stana
    @mathsigit
    謝謝 @jojochuang ,希望未來還有機會跟您交流學習!
    也謝謝您昨天的分享
    Vito Jeng
    @vitojeng
    謝謝 @jojochuang 的分享
    Stana
    @mathsigit

    HI @all

    slides也同步上傳到 spark-hsinchu on github

    Max Huang
    @sakanamax
    感謝 @mathsigit , 大家新年快樂
    Wei Hao Lin
    @LinNeil7758_twitter
    新年快樂 ,請問一下spark sql join是如有這個方法 ? select * from a1 join a2 on a1 .id = a2.id -1 怎麼用都沒辦法,還是只能用rdd? thx
    sayuan
    @sayuan
    @LinNeil7758_twitter 我可以這樣用
    Wei Hao Lin
    @LinNeil7758_twitter
    @sayuan 已經OK了 感謝
    Wei Hao Lin
    @LinNeil7758_twitter
    請教如果有多個table 在join時,每個分開join比較快,還是一次把全部table join會比較快,在來是join完後會使用多個map去解析資料,建議是分開 還是一次做完? thx
    Wei Hao Lin
    @LinNeil7758_twitter
    thx
    Stana
    @mathsigit
    @LinNeil7758_twitter 請問是使用RDD還是SparkSql?
    sayuan
    @sayuan
    不是很熟悉這塊,不過還是講一些:
    1. join 最花時間的部分可能是 shuffle,所以只要確保前兩個 table 做完 hash join 之後,沒有被重新 partition 一次才去跟第三個 table join,應該就會是比較理想的狀況,這部份可以透過查看 DAG 得知
    2. map 多次中間如果沒有 shuffle (在同一個 stage),也沒有呼叫 persistent(),同一筆 record 是會做完所有 map 才換下一筆 record 的,所以速度上不會有什麼差異
    Vito Jeng
    @vitojeng
    若是速度很重要, 查詢頻率很高, 其實建議還是要認真考慮做 denormalization
    Wei Hao Lin
    @LinNeil7758_twitter
    @mathsigit 使用spark sql join @sayuan 瞭解