These are chat archives for rpscala/rpscala

18th
Jul 2016
KAWACHI Takashi
@tkawachi
Jul 18 2016 08:15
6/29 に話していた ByteString の Source を UTF-8 decode して String のSource にする Flow[ByteString, String, NotUsed] 書いてみました https://github.com/tkawachi/akka-utf8-decoder/blob/master/src/main/scala/com/github/tkawachi/akka/Utf8Decoder.scala

https://ja.wikipedia.org/wiki/UTF-8 見て 6 bytes 文字までとりあえずケアするようにしたけど、

また5-6バイトの表現は、ISO/IEC 10646による定義[4]とIETFによるかつての定義[5]で、Unicodeの範囲外を符号化するためにのみ使用するが、Unicodeによる定義[6]とIETFによる最新の定義[7]では、5-6バイトの表現は不正なシーケンスである。

とあるので 4 bytes まででいいのかもしれない

KAWACHI Takashi
@tkawachi
Jul 18 2016 08:20
長い文字列を表現した ByteString のストリームを扱うのは、エンコーディングごとにこういう類のものを実装しないと行けないので面倒そうだなあ