Where communities thrive
Join over
1.5M+ people
Join over
100K+ communities
Free
without limits
Create
your own community
Explore more communities
hubertfc/SparkHsinchu
People
Repo info
Activity
Vito Jeng
@vitojeng
@nowashsimon
感謝 ! 好多呀... >.<
Max Huang
@sakanamax
感謝
Max Huang
@sakanamax
先祝大家新年快樂 :)
Vito Jeng
@vitojeng
Thank you,
@sakanamax
.
每逢連假前收到 Max 的祝福, 都感覺好特別~~ :)
也祝大家新年假期愉快~~
Stana
@mathsigit
@vitojeng
可是農曆年還沒到耶XD
Vito Jeng
@vitojeng
那換成
Happy New Year
好了.
這樣一定不會是指農曆年..
Stana
@mathsigit
@vitojeng
:D
Hubert Fan Chiang
@hubertfc
@iGene
上次提到1/19晚上,不知道教室有機會借到嗎? 麻煩你了~
iGene
@iGene
@hubertfc
沒有注意到
我晚上看看
如果借330的話現在要填申請表,會在傳給你
Hubert Fan Chiang
@hubertfc
好的,真是太麻煩你了!感謝
Hubert Fan Chiang
@hubertfc
@iGene
不知道19號的教室狀況如何呢?
iGene
@iGene
@hubertfc
目前是借用018喔
Hubert Fan Chiang
@hubertfc
@iGene
好的!沒問題! 謝謝你!
Hubert Fan Chiang
@hubertfc
@iGene
018是那間大間的教室嗎?
iGene
@iGene
地下一樓那間喔
Hubert Fan Chiang
@hubertfc
地下一樓那間好像是蠻大間的對吧~
Hubert Fan Chiang
@hubertfc
@/all
https://www.meetup.com/Apache-Spark-Hsinchu/events/236743731/
這次請到Apache Hadoop Committer來演講喔!希望大家能熱情參與喔!
其實是偉糾大大主動聯絡我的,充滿熱情的想回饋台灣,很感謝他願意來分享!
Max Huang
@sakanamax
:)
Wei Hao Lin
@LinNeil7758_twitter
請教一下問題,如果我有一個已經寫好的spark jar檔,我需要每天執行2次 ,用什麼方法會比較好? 在linux上寫shell 每八小時執行一次?
sayuan
@sayuan
crontab / jenkins / airflow,看需求選一個吧
Wei Hao Lin
@LinNeil7758_twitter
恩恩 ,瞭解 thx
Hubert Fan Chiang
@hubertfc
@iGene
明天018再麻煩你囉~
Max Huang
@sakanamax
明天晚上因為家中有事, 不能參與 Orz...
Stana
@mathsigit
@sakanamax
太可惜了!
Max Huang
@sakanamax
是阿 QQ
Vito Jeng
@vitojeng
@hubertfc
meetup 日期是 1/19 喔
@sakanamax
殘念呀 !
Hubert Fan Chiang
@hubertfc
是阿! 歹勢! 知道是1/19 但卻下意識以為是星期三~~ 暈~~
nowashsimon
@nowashsimon
Machine learning facebook 社團
https://www.facebook.com/groups/MachineLearningHsinchu/
今天是老地方嗎?
Hubert Fan Chiang
@hubertfc
一樣工三館但在地下室018教室
Vito Jeng
@vitojeng
@nowashimon
:+1: 感謝 ~
Wei Hao Lin
@LinNeil7758_twitter
請問 spark sql 可以使用with name as ( select
from xxx) select
from name 方法嗎?
Wei-Chiu Chuang
@jojochuang
Hello 昨天的slides在這裏:
https://drive.google.com/open?id=0Bx8EcM4JZXXuZTc5QVZBZmJTcW8
Stana
@mathsigit
謝謝
@jojochuang
,希望未來還有機會跟您交流學習!
也謝謝您昨天的分享
Vito Jeng
@vitojeng
謝謝
@jojochuang
的分享
Stana
@mathsigit
HI
@all
slides也同步上傳到
spark-hsinchu on github
Max Huang
@sakanamax
感謝
@mathsigit
, 大家新年快樂
Wei Hao Lin
@LinNeil7758_twitter
新年快樂 ,請問一下spark sql join是如有這個方法 ? select * from a1 join a2 on a1 .id = a2.id -1 怎麼用都沒辦法,還是只能用rdd? thx
sayuan
@sayuan
@LinNeil7758_twitter
我可以這樣用
Wei Hao Lin
@LinNeil7758_twitter
@sayuan
已經OK了 感謝
Wei Hao Lin
@LinNeil7758_twitter
請教如果有多個table 在join時,每個分開join比較快,還是一次把全部table join會比較快,在來是join完後會使用多個map去解析資料,建議是分開 還是一次做完? thx
Wei Hao Lin
@LinNeil7758_twitter
thx
Stana
@mathsigit
@LinNeil7758_twitter
請問是使用RDD還是SparkSql?
sayuan
@sayuan
不是很熟悉這塊,不過還是講一些:
join 最花時間的部分可能是 shuffle,所以只要確保前兩個 table 做完 hash join 之後,沒有被重新 partition 一次才去跟第三個 table join,應該就會是比較理想的狀況,這部份可以透過查看 DAG 得知
map 多次中間如果沒有 shuffle (在同一個 stage),也沒有呼叫 persistent(),同一筆 record 是會做完所有 map 才換下一筆 record 的,所以速度上不會有什麼差異
Vito Jeng
@vitojeng
若是速度很重要, 查詢頻率很高, 其實建議還是要認真考慮做 denormalization
Wei Hao Lin
@LinNeil7758_twitter
@mathsigit
使用spark sql join
@sayuan
瞭解
_