Happy-Camper Street

HBaseのコンパクションまわりを調べてみた件。

2011-09-04T16:01:49Z

せっかくまとめたのでこちらにも貼っておきます。まとめのまとめ

コンパクションのトリガー

HBaseAdminでcompact/split指示をした時 (hbase shell でのコマンド発行、WebUIのボタンぽちとか)
MemStoreをflushする時
リージョンをopenした時
MajorCompactionChecker (約3時間おきに起動) が、前回のメジャーコンパクションから24時間 (+/- 4.8時間: 後述) 以上経過しているリージョンを発見した時

メジャーコンパクションの周期

メジャーコンパクションはデフォルトで24時間周期になっているが、+/- 4.8時間のブレが入れてある。

=> HBase のメジャーコンパクション実行時間 - 科学と非科学の迷宮

メジャーコンパクションになる条件

コンパクション指示があった時に、

強制メジャーコンパクション指定されている (major_compact コマンドなど)
前回のメジャーコンパクションから24時間 +/- 4.8時間経過している
コンパクション対象のリージョンに、特別大きなストアファイルがなく、またその数が一定数よりも少ない場合

その他

コンパクション処理後にはスプリット出来るかどうかを確認して、できるようであればスプリットする
スプリット指示は、実際には強制スプリット指定でコンパクション指示を出している
単体でのメジャーコンパクションはそんなに負荷にならなそう
MapReduceでデータ投入中にリージョン分割が起こるのは危険

つづきはTogetterで。

]]>

HBaseワークショップ(第一回)

2011-05-28T13:54:09Z

先日5月20日(金)にHBaseワークショップ(第一回)が開催されました。

HBaseについて、メインの参加者間での情報交換を中心としたディスカッションを行いました。
周りの方々からも質問等があればいつでも声をかけていただき、話をふくらませていくスタイルでした。
このような会に参加させていただいたことを、心より感謝いたします。

今回はこの勉強会の当日に、発言しておけばよかった、言葉足らずだった、後で思ったこと等をまとめておこうと思います。

]]> 何に使っている・使いたいのか？Twitter Streamingからのデータの取り込みをしています。

素人ながら、統計解析、機械学習や自然言語処理などの分野を勉強しようと思っていて、そのためのデータ収集をしています。
そのための基盤をHadoop MapReduceでやろうと思ったので、連携のしやすいHBaseを選択しました。

現状ではデータ収集を安定して行えるような施策をしたり、次の集計などをうまく行うためのいろいろな設計を試しているところです。

キーの設計

HBaseをうまく使うためには、キーの設計は非常に大きなウェイトを占めます。
これまでTwitter Streamingの件でいろいろ試してみて思ったところは次のようなパターンです。

画面等から参照する必要がある場合はPrefixで局所化

WebUIなどの画面からデータ参照をするのであれば、参照する単位で局所化します。

例えばTwitterであれば、基本的に各ユーザーのツイートを一覧で参照することになりますので、ユーザーIDをキーのPrefixとし、ステータスID(の逆順)もしくはタイムスタンプ(の逆順)をその後に置けば、各ユーザーのツイートを局所化して持つことができます。
場合によっては、2個目、3個目のPrefixを追加します。

このようにすると、キー範囲指定のScanを使えるようになるので高速にデータにアクセスすることができます。

注）「逆順」は、例えばLong.MAX_VALUEから引き算するなどした値を利用します。

MapReduceの入力に使うならひたすら分散

局所化の必要がなく、MapReduceの入力データとして利用するのであれば、ひたすら分散させます。
データを一意に特定できる何か、をハッシュしたりすると充分に分散できます。

データ量が多くなることが予め分かっているのであれば、テーブル作成時にリージョン分割をすることをおすすめします。
キーにハッシュを利用するのであれば000・・・からfff・・・までの範囲に均等に配置されることが期待できるので、割り当て可能なMap数分程度に分割しておけばMapを適度に分散して処理することができます。

特殊な場合

HBaseは、時系列、連番をキーとして扱うことが苦手なことが分かっています。

キーが単調増加、もしくは単調減少すると、一番下、もしくは一番上のリージョンに書き込み負荷が集中することになります。

1つのリージョンで充分に処理できる程度しか書き込みがない場合で、どうしても時間範囲、連番の範囲でScanする必要がある場合を除いては採用しないほうがいいと思います。

HBaseWD

やむを得ず、かつ書き込みを多少でも分散したい、という場合には、HBaseWDというライブラリが利用できます。
これは、各キーにPrefixを付けてくれるライブラリです。

例えば[0-f]をPrefixとして、順繰り、ランダム、などで付け、書き込み負荷を16個に分散します。
Scanの時には[0-f]のPrefixをつけた16個のScanを行います。

良くも悪くもPrefixに利用する値の種類しか分散しませんので、他にいい方法があればそちらを採用すべきだと思います。

カラムファミリーの使い方

論理的分類

基本的には論理的分類によってカラムファミリーをわけます。
Twitter取り込みの最新の実装では status、user、place、user_mentions、urls、hashtags、delete となっています。

論理的分類で分けるだけでも、それなりにアクセスパターンも分類できている印象です。

tall table vs fat wide table

tall table(縦長テーブル) vs ~~fat~~ wide table(横長テーブル) の議論がHBaseのMLでよく行われています。

tall tableは、RDBのテーブルのように、ほぼ同じカラム数で行数が増えていく(縦に伸びる)テーブルで、~~fat~~ wide tableは、qualifierを利用することで、カラム数が増えていく(横に伸びる)テーブルです。

実は、初期のTwitter Streaming取り込みの実装では~~fat~~ wide table方式を採用していました。
具体的には、キーにユーザーIDで、カラムファミリーstatusに対してqualifierにステータスIDを指定して、そのユーザーのツイートを同じ行内で横に入れていました。

~~fat~~ wide tableの利点は、1つのキーが指定出来れば、紐づくデータを一括で取れるところです。なので、キーの並びを気にせず、自由に分散することができます。(データの偏りは発生します)

HBaseを使ったMapReduceへの入力は、キー毎にmapへ入力されます。
~~fat~~ wide tableを使うと、mapに同じキーに紐づくデータを一気に投入できるので、reduceで行うような処理をmapで行うことができることがあります。
予めshuffleの結果と同等のテーブル設計にしておくと、多段に及ぶMapReduce処理の分岐、合流地点の受け皿としてかなり有用です。

大きな問題点は、行の肥大化です。
特定の行が太りすぎてしまっても、その行が複数のリージョンに分割されることはありません。
また、mapへの入力時にメモリの問題にもなりかねません。

~~fat~~ wide tableはとても有用ですが、利用の際にはそのあたりの見積りも必要となります。

（修正 2011/06/05: "fat table"という表現はあまり使われていないようなので、wide tableに改めました。）
（訂正 2011/06/14: "fat table"は、セルに大きなデータを持つようなテーブルのことを指すようです。大変失礼しました。）

思うこと

貧乏性な発想では、うまくいかない場合が多い。
元々大規模向けに作られているので、そのように発想の転換が必要。
（とかいうと個人でやってる身としてはツライですが。。。）

おまけ

雑談、飲み会の時に個人的にヒットした発言。

@ashigeruさん: 「データのダム」 -> 「最悪テーブルごと入れ替える」
@doryokujinさん: 「どこもがんばってるんですね。」

反省

もっと積極的に発言を。
話題提供のためにも、説明をスムーズにするためにも、資料を作っていく。

というわけで、次回は6月16日(木)を予定しています。
またよろしくお願いします！

Play framework with Scala その6

2011-01-29T13:13:09Z

Play framework with Scala を使ってみようシリーズです。
その1
その2
その3
その4
その5

先日、Play! 1.1.1 がリリースされました。
今回のリリースはバグフィックスとのことですので、大きな機能追加はないようです。
開発者MLによると、3月に1.2のリリースを予定しているという話がありました。

さて、今回はPlay! on GAE with ScalaでMemcacheを使ってみます。
Play!には標準でキャッシュのためのAPIが備わっていますが、GAEモジュールを利用することでGAEのmemcacheにデータをキャッシュすることができます。

今回のサンプルのソースは https://github.com/ueshin/play-hello/tree/play-hello-0.0.4 でブラウズできます。
Play!本体とsienaモジュールをアップデート（play-1.1.1、siena-1.4）してありますので適宜インストールもしくは読み替えをして下さい。

]]> Scalaモジュールの修正Play! on GAE with Scalaのキャッシュ機能には次の2つの不具合があるため、現在提供されているPlay!、およびScalaモジュールでは正しく動作しません。(2011.01.29現在)

ScalaモジュールのScalaCacheが、Actorを起動しようとする。
-> GAEではThreadが利用できない(必然的にActorも利用できない)ため、エラーとなってしまう。
-> github上では修正済みですが、まだリリースされていません。
Play!起動時の初期化フローが正しくない（と思われる）ため、GAECacheを利用するよう設定されない。
-> Java版でも同様の現象となります。
-> Play! 1.1.1 でも修正されていませんでした。 => ticket #527

上記2点は、Scalaモジュール0.8を少しだけ修正することで回避できます。

既存のScalaモジュールをコピーする

コピー先のバージョン指定はなんでもいいですし、コピーせずにそのまま修正でも構わないです。
指定したバージョンはapplication.confファイルに反映してください。

$ cd ${PLAY_HOME}/modules
$ cp -R scala-0.8 scala-0.8.1

scala-0.8.1/src/play/cache/ScalaCache.scalaを修正

15行目をlazyにする。

 13   private def prefixed(key: String) = "__" + key
 14 
 15   private lazy val cacheActor =
 16     actor{
 17       link{self.trapExit = true;loop{react{case Exit(from: Actor, exc: Exception) =>

Actorを遅延評価にすることで、勝手にActorが起動するのを防いでいます。
これで1点目の修正ができました。

scala-0.8.1/src/play/cache/CacheDelegate.javaを修正

14行目あたりにstatic初期化ブロックを作ってCacheの初期化をする。

 12 abstract class CacheDelegate {
 13 
 14     static { Cache.init(); }
 15 
 16     public void add(String key, Object value, String expiration) {
 17         Cache.add(key, value, expiration);
 18     }

Cacheの初期化はPlay!起動時に行われるんですが、GAECacheが設定される前に初期化されてしまうので、ここで再度初期化してあげます。
初期化をここですべきかどうかはアレですが(w)、暫定的に、ということで、本対応を待ちましょう。

Scalaモジュールをビルド

同梱されているbuild.xmlファイルのままではビルドが成功しないので、8行目を修正します。

  7     
  8         
  9

antコマンドでビルドします。

$ ant -Dplay.path=${PLAY_HOME}

ビルドが正常に完了したらオッケーです。
application.confファイルのScalaモジュールのバージョンを新しく作成したバージョンに合わせてください。

`Cache`を使う

キャッシュするには、play.cache.Cacheクラス（実体はplay.cache.ScalaCacheクラス）を使います。

Java版で提供されている各種メソッドも利用できますが、今回はScala版特有の機能を利用しました。

Application.scala

 53         val(followings, users, cachedAt) = Cache.get(followingsCacheName(currentUser.email), "10min") {
 54           val followings = Follow.followings(currentUser)
 55           val users = followings.flatMap(f=> User.get(f.following).map(user=>(f->user))).toMap
 56           (followings, users, new Date)
 57         }

これは、Option#getOrElseのような動作になります。
要するに、キャッシュが存在したらそれを使い、なければ後続のブロックが処理された結果を新たにキャッシュして返す、というわけです。

キャッシュのためのキーを第1引数、存続時間が第2引数となります。
キャッシュ対象となるインスタンスのクラスはSerializableである（@serializableアノテーションが付いている）必要があります。（=> User.scala / Follow.scala）

簡単ですね！

ちなみにGAEでない場合には、サーバーのメモリ上か、Memcachedをキャッシュとして利用します。
また、Memcachedと互換のあるプロトコルを実装しているもの（kumofsやMembaseなど）であればキャッシュ先として利用可能です。（・・・と思います。すいません、試してません。。。）

サンプルアプリ

実際にGAE上で動作しているサンプルアプリを公開しています。

ログインして、Followings画面に表示される一覧をキャッシュに登録しています。
保持期間は10分、もしくは新たにフォローするまで、となっています。

いつになっても見た目がしょぼいのでどなたかがデザインをあててくれる事を切に願います。

Play framework with Scala その5

2010-12-24T14:23:09Z

Play framework with Scala を使ってみようシリーズです。
その1
その2
その3
その4

なんかすっかりPlay! on GAE with Scalaな感じになってきましたが、RDBMSでのサンプルはyabeに任せることにして、引き続きGAEをさわっていきます。

今回はDatastoreへのアクセスを見てみます。
Datastoreについてはオープンソース徹底活用 Slim3 on Google App Engine for Java という本でかなり詳しく解説してありますので、こちらを参照してください。

今回のサンプルのソースは https://github.com/ueshin/play-hello/tree/play-hello-0.0.3 でブラウズできます。

]]> sienaモジュールDatastoreを使うには、sienaモジュールを追加します。

標準のJPAでも（制限付きで）Datastoreにアクセスできると思っていたんですが、GAEで利用できないAPIを内部で使っているらしく、エラーになってしまいました。

Sienaは、GAE/PyのDatastore APIにインスパイアされて実装したJava APIだそうです。

Siena is a single API with many implementations. You can use siena with relational databases, with the Google App Engine's datastore or with Amazon's SimpleDB. There is also an implementation called siena-remote very useful if you want to use the Google App Engine's datastore remotely. Other implmenetations are planned such as: HBase, DBSLayer,...

あまり複雑なことはできませんが、RDB、GAEのDatastoreだけでなく、Amazon SimpleDBやHBaseでも利用出来る（予定含む）そうで、ソースコードの再利用を考えるといいかもしれません。

インストール

installコマンドを使ってインストールします。

$ play install siena-1.3

設定

conf/application.confファイルに、sienaモジュールを使うよう設定します。

module.scala=${play.path}/modules/scala-0.8
module.gae=${play.path}/modules/gae-1.4
module.siena=${play.path}/modules/siena-1.3

これでsienaを使う準備ができました。

`Model`クラス

まずModelクラスを継承したエンティティクラスを実装します。
このクラスがKindとなり、インスタンスがEntity、フィールドがPropertyになります。

id値を表す@IdアノテーションのついたLong型のフィールド（フィールド名は任意）は必須です。
LowLevelAPIでは文字列のname値も利用できますが、sienaではLongのid値のみとなっています。

フィールドで利用出来るクラスは、Datastoreで利用出来るものと同じです。
リストプロパティにScalaのListは使えないので、JavaのListを指定するように気をつけましょう。

デフォルトコンストラクタが必須なので、忘れずに定義してください。

`insert`/`update`/`delete`

Modelクラスを継承すると、insert/update/deleteメソッドが使えます。
それぞれデータの追加、更新、削除を行うメソッドになります。
id値はinsert時に自動採番され、値がセットされます。

クエリ

コンパニオンオブジェクトでクエリを実装します。

Model.allメソッドでクエリオブジェクトを作成できますので、filter/orderを設定した後にfetch/get/countすることでデータを取得できます。

例) `models/User.scala`

id、email、joinedAt、invitedAtという4つのフィールドを定義してあります。

コンパニオンオブジェクトにて、allメソッドをpublicのままにしておけば、利用側でなんでもできるようになりますが、あまりなんでもできるようにすると管理ができなくなる恐れがあるので、いったんprivateにして、外部から利用するのに必要なクエリだけを公開するようにしています。

idによるgetはOptionでくるんでおいたほうが何かと便利です。
また、fetchしたものはtoListを付けておけばScalaのListとして扱うことができるようになります。（import _root_.scala.collection.JavaConversions._を忘れずに。。。）

サンプルアプリ

前回から引き続き、サンプルアプリを公開しています。

ログインすると挨拶をポストできるようになります。
挨拶文は自分か、自分がフォローしている人のものを見ることができます。

フォローするには、Followings画面でフォローしたい人のメールアドレスを入力します。
フォロー後にポストされた挨拶文から見ることができるようになります。

相変わらず見た目がしょぼいのでどなたかがデザインをあててくれる事を切に願います。

Play Hello!

MapReduce in Scala

2010-12-15T12:19:05Z

この記事は Scala Advent Calendar jp 2010 の9日目です。

と言いつつ空気を読まずにMapReduceやっちゃいますよ。
簡易的にではありますが、GoogleやHadoopでおなじみ(?)のMapReduceフレームワークをScalaで実装してみました。

というわけで、これを実装したときのポイントや便利な機能などを挙げていこうと思います。

]]> MapReduceって？Googleが提唱した、シンプルかつ強力な大規模分散処理のためのプログラミングモデルです。
Hadoopというプロダクトがオープンソースで公開されていて、比較的容易に大規模分散処理を実現できるようになっています。

詳しい説明は他のサイト（HadoopWikiとか@ITとかmapreduceの画像検索結果とか）に譲ります。

実装

( ソースコードはgistにも置いてあります。 )

mapreduce.scala

実装したソースコードが以下です。

package object mapreduce {

  import _root_.scala.actors.Futures._
  import _root_.scala.collection.SortedMap

  class Mappable[KEYIN, VALUEIN](mappee: Iterable[(KEYIN, VALUEIN)]) {

    def mapper[KEYOUT, VALUEOUT](mapper: (KEYIN, VALUEIN) => Iterable[(KEYOUT, VALUEOUT)])(implicit ord: Ordering[KEYOUT]) : Iterable[(KEYOUT, VALUEOUT)] = {
      mappee.map { case (key, value) => future { mapper(key, value) } }.flatMap { _() }
    }
  }

  implicit def iterable2Mappable[A, B](m: Iterable[(A, B)]) = new Mappable(m)

  class Reducable[KEYIN, VALUEIN](reducee: Iterable[(KEYIN, VALUEIN)])(implicit ord: Ordering[KEYIN]) {

    def reducer[KEYOUT, VALUEOUT](reducer: (KEYIN, Iterable[VALUEIN]) => (KEYOUT, VALUEOUT)) : Iterable[(KEYOUT, VALUEOUT)] = {
      reducee.foldLeft(SortedMap.empty[KEYIN, List[VALUEIN]](ord)) {
        case (map, (key, value)) => {
          map + (key -> (value :: map.getOrElse(key, Nil)))
        }
      }.map { case (key, values) => future { reducer(key, values) } }.map { _() }
    }
  }

  implicit def iterable2Reducable[A, B](r: Iterable[(A, B)])(implicit ord: Ordering[A]) = new Reducable(r)(ord)
}

WordCount.scala

MapReduceのサンプルとしてよくあるWordCountプログラムを作りました。

object WordCount {

  def main(args: Array[String]) {

    import mapreduce._
    import _root_.scala.io.Source

    def textInputFormat(lines: Iterator[String], offset: Long = 0): Stream[(Long, String)] = {
      if(lines.hasNext) {
        val line = lines.next
        Stream.cons((offset, line), textInputFormat(lines, offset+line.length))
      }
      else {
        Stream.empty
      }
    }

    val source = Source.fromFile(args(0))
    try {
      textInputFormat(source.getLines).mapper {
        (offset, str) => {
          str.split("\\W+").collect { case word if word != "" => (word -> 1) }
        }
      }.reducer {
        (word, counts) => {
          word -> (counts.sum)
        }
      }.foreach { case (key, value) => println("%s: %d".format(key, value)) }
    } finally {
      source.close
    }
  }
}

コンパイルして実行してみてください。（第1引数に集計対象ファイル名を指定します。）
ファイルに含まれる単語と、その出現回数が表示されます。
単語はアルファベット順にソートされています。

ポイント

サンプルの前半では入力値をゴニョゴニョしています（textInputFormat関数）が、本体は後半です。

このサンプルのmapフェーズでは、ファイルの各行毎にmapper関数が呼ばれ、各行を単語に分割して、 (word -> 1) の組のリストを出力しています。

reduceフェーズでは、reducer関数が呼ばれる前にキーで並べ替え＆同じキーに対応するバリューをリストにまとめる（shuffleフェーズ、正確にはreduceフェーズの前）という処理をします。
その後、各キー＆バリューのリスト ( word -> ( 1, 1, 1, ... ) ) に対してreducer関数が呼ばれ、最終的な結果となります。

実はこの裏で行われるshuffleフェーズのおかげで、MapReduceがシンプルかつ強力なプログラミングモデルとなっています。
shuffleフェーズは、「魔法が生まれる場所」と言われています。

Scala的に

さて、本題です。
これを実装するにあたって利用したScala的なあれこれを少々。

Future

分散環境を模擬するために、mapper/reducer関数の呼び出しにfutureを使っています。

Futureとは、スレッドやアクターなどの非同期処理から返り値を受け取るためのパターンです。
Scalaでは標準でライブラリとして実装されていますので、お手軽に利用です。

返り値を受け取るためには、apply()メソッドを呼び出します。
もし処理が終わっていれば、その返り値を受け取れますし、終っていなければ終わるまで待ちます。

`(implicit ord: Ordering[A])`

あるメソッドの型引数が並べ替え可能であることを保証する必要がある場合があります。
このような場合には、implicitパラメータを使えばいいと思います。

def iterable2Reducable[A, B](r: Iterable[(A, B)])(implicit ord: Ordering[A]) = new Reducable(r)(ord)

このようにすると、Ordering[A]がどこかで定義されていなければ、メソッド呼び出しができないので、Aは並べ替え可能である、と保証できます。
A <: Ordered[A] である場合にも Ordering[A] が自動的に導かれるようになっています。

`Stream`

Streamは、無限リストを実現するためのクラスです。
この例では引数に指定したファイル長で終わってしまいますが、作り方によっては無限長にすることができます。

例えばフィボナッチ数列は

lazy val fib: Stream[BigInt] = Stream.cons(0, Stream.cons(1, fib.zip(fib.tail).map(p => p._1 + p._2)))

と書けるそうです。

実はまだあまりStreamを使いこなせないんですが、ハマれば強力な武器になります。

implicit conversion

これはさほど触れるまでもなく各所で使われている機能ですが、今回もこれを用いて元のIterableインスタンスからMappable/Reducableクラスのインスタンスに変換しています。

本当はmapper/reducerというメソッド名ではなく、map/reduceとしたかったのですが、元からあるメソッドと同名のメソッド（引数違い）ではimplicit conversionの手がかりにはならない(?)ようで、うまく変換されませんでした。

うまく行くやり方があるのであれば、教えていただきたいです。

まとめ

というわけでMapReduceの簡単な紹介とこれにまつわるScalaあれこれでした。
MapReduceの実装も簡易版ではありますが、Hadoopは敷居が高いな〜という人の入門編くらいには使えるのではないでしょうか。
いろいろなものをMapReduceして遊んでみると面白いと思います。

Hadoopでやってみたいという方は Hadoopカテゴリにてすこしずつ紹介していますので、そちらも御覧いただければと思います。

Play framework with Scala その4

2010-12-08T12:02:33Z

Play framework with Scala を使ってみようシリーズです。
その1
その2
その3

今日はUserServiceを使ってログインしてみようと思います。

今回のサンプルのソースは https://github.com/ueshin/play-hello/tree/play-hello-0.0.2 でブラウズできます。

]]> GAEクラスGAEモジュールが提供するplay.modules.gae.GAEクラスに便利なメソッドがたくさん定義されています。

今回は、そのうちのlogin()/logout()メソッドを使います。

`login()`メソッド

Controllerからこのメソッドを呼べばGoogleアカウントのログイン画面にリダイレクトします。

引数でログイン後の戻り画面を指定することができます。
指定は "ControllerClassName.actionMethodName" の形式の文字列です。

引数がない場合には呼び出した画面に戻って来ます。
管理画面など、ある画面にアクセスしたらログイン画面表示、ログイン後戻ってくる、などの場面で利用出来ます。
ログインリンクのアクションで引数なしにするとログイン後再度ログイン画面になってしまうので注意。

`logout()`メソッド

Controllerからこのメソッドを呼べばGoogleアカウントからログアウトします。

引数でログアウト後の戻り画面を指定することができます。
指定はlogin()メソッドと同様、"ControllerClassName.actionMethodName" の形式の文字列です。

こちらも引数なしにして呼び出した画面に戻るようにすることができます。
ただし、ログアウトリンクのアクションで引数なしを使うとログアウト後にまたログアウト・・・とループしてしまいます。
引数なしのlogout()メソッドは呼び出す場面が思い浮かびません。。。

getUser()メソッド

GoogleアカウントにログインしていればUserオブジェクトを、していなければnullを返します。
ログインチェックとユーザー情報取得（メールアドレスのみ）に使います。

Application.scala

それでは実際のコードを見てみます。

app/controllers/Application.scala （前のcontrollers.scalaから移動しています）

package controllers

import _root_.play._
import _root_.play.mvc._
import _root_.play.modules.gae._

object Application extends Controller with Defaults {
  
  def index = Template
  
  def login = GAE.login("Application.index")

  def logout = GAE.logout("Application.index")
}

login / logoutアクションを追加して、UserServiceへのログイン/ログアウトとしています。
戻りは元のトップ画面です。

`Defaults`トレイト

Defaultsトレイトをミックスインしています。
事前処理としてログインチェックとユーザー情報取得を行います。

app/controllers/Defaults.scala

package controllers

import _root_.play._
import _root_.play.mvc._
import _root_.play.modules.gae._

trait Defaults extends Controller {

  @Before
  def check = {
    Option(GAE.getUser) match {
      case Some(user) => {
        renderArgs += "user" -> user
      }
      case None =>
    }
  }
}

routes

コントローラーとURLパスのルーティングを行います。

conf/routes

Application.loginとApplication.logoutの設定を追加しました。 (diff)

デフォルトでは /{controller}/{action} という設定があるので、例えば /application/index というパスが有効です。
このパターンにマッチする場合には設定を追加する必要はありません。

view

画面のHTMLテンプレートは、app/views以下、ControllerClassName/actionMethodName.html のようなファイル名で置かれます。

app/views/Application/index.html

どなたかがデザインをあててくれることを切に願います。

ローカル動作確認

ローカルで動作確認する場合には、ログイン画面のモック画面が表示されるようになっていますので、適当なアカウントでログインして動作確認することができます。

デプロイ

動作確認が完了したら、デプロイします。

$ play gae:deploy play-hello --gae=${GAE_SDK_HOME}

ブラウザで確認します。

Welcome Guest!

Play framework with Scala その3

2010-12-04T17:39:44Z

Play framework with Scala を使ってみようシリーズです。
その1
その2

さて、やっぱりGoogle AppEngine使いたいですよね。
というわけでGAEモジュールを使ってみます。

Google AppEngineのSDKはインストールされているものとします。
また、サンプルを実際にAppEngine上で動作確認をする場合には、予めアプリケーションIDを取得しておいてください。

今回のサンプルのソースは https://github.com/ueshin/play-hello/tree/play-hello-0.0.1 でブラウズできます。

]]> GAEモジュールPlay!のGAEモジュールを使うとGAEへのデプロイが楽になります。

と、それだけではなくて、他にも様々なメリットがあります。

Play!標準のディレクトリ構成で
開発中の自動リロードも動きます
LoggingはGAEで使うjava.util.loggingにディスパッチされます
tmpフォルダは使えません
Datastoreへのアクセスは全てサポートしています
~~JPAを使えます。ただし、GAEの制限を受けます~~ これ、ダメなようです。→ その5へ
CacheはGAEのmemcacheのラッパになります
MailはGAEのmailサービスのラッパになります
Usersサービスを利用でき、開発時には擬似ページが使えます
モジュールを使うことができます
GAE環境では強制的にPRODモードになります

ドキュメントから意訳したものですが、訳を間違えていたらごめんなさい。

インストール

Play!のinstallコマンドを使ってインストールしてもいいですが、今のところ、GAEのSDKのバージョンが1.3.7と少々古いです。
現時点で最新の1.4.0が使えるものがforkされていますので、こちら持ってくることにします。

githubからファイルをダウンロードし、ビルドします。

$ wget http://download.github.com/Ouziel-play-gae-36f7634.tar.gz
$ cd ${PLAY_HOME}/modules
$ tar zxvf /path/to/Ouziel-play-gae-36f7634.tar.gz
$ mv Ouziel-play-gae-36f7634 gae-1.1-1.4.0
$ cd gae-1.1-1.4.0
$ ant -Dplay.path=${PLAY_HOME}

これで準備ができました。

[追記: 2010/12/11]
2010/12/08にGAEのSDK 1.4.0に対応したGAEモジュールがリリースされました。

$ play install gae-1.4

でインストール可能です。
[/追記]

`GAEにデプロイ`

今回から新しく play-hello というプロジェクトを作成して、実際にAppEngineで動作を見ていくことにします。

新規にプロジェクトを作成します。

$ play new play-hello --with scala

conf/application.confファイルに、GAEモジュールを使うよう設定します。

module.scala=${play.path}/modules/scala-0.8
#module.gae=${play.path}/modules/gae-1.1-1.4.0
module.gae=${play.path}/modules/gae-1.4

この状態で一旦ローカルで起動してみます。

$ play run play-hello

すると、war/WEB-INF/appengine-web.xml というファイルが作成されます。
AppEngineにデプロイするには、このファイルにアプリケーションIDを設定する必要があります。

play-hello

実際にAppEngineにデプロイしてみたい場合には、自分で取得したアプリケーションIDを設定してください。
ローカルで試すだけであれば特に設定の必要はありません。

それではデプロイしてみます。

$ export GAE_PATH=${GAE_SDK_HOME}
$ play gae:deploy play-hello

~~gae-1.1モジュールでは、gae:deployコマンドの--gaeオプションが正しく動作しないため、~~GAE_PATH環境変数にSDKのインストールパスを設定する必要があります。

［訂正: 2010/12/06］
元ドキュメントの--gaeオプションの指定の仕方が間違えていたようです。

$ play gae:deploy play-hello --gae=${GAE_SDK_HOME}

のように指定すれば動作します。
［/訂正］

ブラウザで確認します。

Your application is ready!

Play framework with Scala その2

2010-11-30T13:37:31Z

昨日はPlay frameworkを使ってHello Worldが動きました。

今日はPlay frameworkをやるときによさそうな環境設定について書きたいと思います。
ほぼ自分向けのエントリーです。

ベースとなるEclipse(Scala IDE for Eclipse)とEmacs(ENSIME)がインストールされているものとします。

]]> Eclipseとの連携Play!のコマンドで、eclipsifyというやつがあるのでこれを利用します。

$ ${PLAY_HOME}/play eclipsify helloworld

実行後、プロジェクト内にEclipseの設定ファイルである .project .classpath .settings などが生成されて、「ファイル」→「インポート」でこのプロジェクトをEclipseプロジェクトとしてインポートすることができるようになります。

また、eclipseディレクトリが作成され、サーバーやテストの起動用の.launchファイルが作られます。
コマンドシェルからrunコマンドで起動していたサーバーをEclipse上で起動させることができます。

eclipse/helloworld.launch ファイルを右クリック → Run As → helloworld

Eclipseからのビルド先はeclipse/classesに設定されます。

コンパイルエラー？

Scala IDE for EclipseのScalaのバージョンが2.8.1の場合、コンパイルエラーがでます。
これは、Play!のScalaモジュール0.8のScalaのバージョンが2.8.0なので、新規に追加されたクラスが見つからないためのようです。

ほっておいても問題ないですが、気になる人はScala IDE for Eclipseが提供するScala Libraryライブラリを追加するとエラーが消えます。

Properties → Build Path → "Libraries"タブ → 「Add Library...」 → 「Scala Library」

ライブラリの並び順をJRE System Libraryの次くらいにしておくといいと思います。

デバッグ

デバッグする時にはEclipseでステップ実行などができたら便利です。
Eclipseから起動したサーバーであれば、後からデバッグ機能をいれこむことができます。

eclipse/Connect JPDA to helloworld.launch ファイルを右クリック → Debug As → Connect JPDA to helloworld

「接続できました」的なメッセージは表示されませんが、Debugパースペクティブに新しいプロセスが表示されていると思います。

この状態でブレークポイントを設定すれば、そこからステップ実行など、いつものデバッグを行うことができます。

他のIDEと連携

Eclipse以外の、NetBeansやIntelliJ IDEAなどの設定ファイルも生成できるコマンドがあります。
詳しくはドキュメントを参照してください。

Emacs (ENSIME) の設定

ソースファイルの編集にはEmacs (ENSIME) を使っています。

M-x ensime-conf-gen で、設定ファイルの雛形を作っていきます。
（ /path/to/helloworld は適宜読み替えてください。）

Find project root: /path/to/helloworld
Your project seems to be of type 'custom', continue with this assumption? (yes or no) yes
What is your project's name? /path/to/helloworld
What is the name of your project's main package? e.g. com.myproject: 
Where is the project's source located? /path/to/helloworld/app
Where are the project's dependency jars located? /path/to/helloworld/lib
Is the Scala standard library located somewhere else? (yes or no) yes
Where are is the Scala library located? ${PLAY_HOME}/modules/scala-0.8/lib
Where are classes written by the compiler? /path/to/helloworld/eclipse/classes

な感じで質問に答えていくと設定ファイルの雛形( /path/to/helloworld/.ensime )ができます。
クラスファイルの出力先は、Play!本来の挙動に影響を与えたくないので、eclipse/classesに向けてあります。

この設定ファイルに外部ライブラリの位置などを追加設定します。

:sources に、テストコード用のディレクトリ（ "./test" ）を追加します。
:compile-jars に、Play!の依存ライブラリがあるディレクトリを追加します。

すると、以下のようになります。

;; This config was generated using ensime-config-gen. Feel free to customize its contents manually.

(

:project-name "helloworld"

:project-package ""

:sources ("./app" "./test")

:compile-jars ("./lib" "${PLAY_HOME}/modules/scala-0.8/lib" "${PLAY_HOME}/framework" "${PLAY_HOME}/framework/lib")

:target "./eclipse/classes"

)

これで設定ができましたので、ENSIMEを起動します。

M-x ensime

Play!にモジュールを追加すると、依存ライブラリ、もしくはソースコードが付いてくるので、それらを順次追加していくことでENSIMEでの補完やエラー表示なども正しく表示されるようになります。

Maven2で依存ライブラリ取得

Maven2を使うと、依存ライブラリを自動的に（Mavenレポジトリにあれば）収集できて便利です。
そこで、Mavenモジュールを使います。

conf/application.conf ファイルにMavenモジュールを使うための設定を追加します。
Scalaモジュールの設定があるあたり（27行目あたり？）です。

module.scala=${play.path}/modules/scala-0.8
module.maven=${play.path}/modules/maven-head

これでMavenモジュールのコマンドがPlay!に追加されました。

初期化

まずはMavenモジュールを初期化します。

$ ${PLAY_HOME}/play mvn:init helloworld

プロジェクトにpom.xmlファイルが追加されます。
pom.xmlファイルの groupId や artifactId タグの設定は自プロジェクトに合わせて修正したほうがいいかもしれません。

依存ライブラリの管理

dependenciesタグで依存ライブラリの設定を行った後、

$ ${PLAY_HOME}/play mvn:update helloworld // or play mvn:up

とすると依存ライブラリをダウンロードし、libディレクトリに保存してくれます。
また、

$ ${PLAY_HOME}/play mvn:refresh helloworld // or play mvn:re

とするとlib以下を一旦削除してから再度依存ライブラリを格納しなおします。
依存ライブラリのバージョンを変更した場合などはこちらを使うことになります。

ソースコードをダウンロードする場合には

$ ${PLAY_HOME}/play mvn:source helloworld // or play mvn:src

とします。
（ソースコードはレポジトリにない場合がありますので、その場合にはダウンロード出来ません。）

新しくライブラリを追加した場合には、再度eclipsifyすることでEclipseにも認識させることができます。
ENSIMEも再起動させれば認識します。

Maven2について

Maven2自体の使い方については、以前まとめましたので、そちらを参照してください。
特に依存ライブラリの管理については依存解決とレポジトリのページにまとめてあります。

Maven2は本来ビルドツールなのですが、Play!で使う場合には依存ライブラリ管理でのみ使うことになりそうです。
（Maven2によるビルドも試みましたが、今のところうまくいっていません。）

共有ライブラリはMaven2プロジェクトとして構築して、Webアプリ層となるPlay!プロジェクトでそれらを取り込む、という使い方になるのかな。

注意

eclipsifyやensime-conf-genなどで生成した設定ファイルは、バージョン管理に含めないほうがいいようです。
環境依存の設定が含まれていたりすると他のチームメンバーに影響を与えてしまう場合があるからです。
チームメンバーが必ずしもEclipseやEmacsを使っているとも限らないし。

たいした手間ではないので、各コマンドを各自で行い、各自の環境に合わせた設定にするようにしましょう。

pom.xmlファイルは環境依存しにくいので大丈夫です。というかこれは同じものを使うべき。

Play framework with Scala その1

2010-11-29T13:03:21Z

Play frameworkを触ってみましたよ。

Ruby on Railsのお手軽さをJavaで！っていう感じのWebアプリフレームワークです。
Java版は直接使ってはいませんが、Scalaとの相性が抜群な印象です。
日本語のドキュメントもありますよ。

今回はPlay frameworkインストールからHello Worldまでいきます。

Play framework: 1.1
Scala module: scala-0.8
Maven module: maven-head

JavaやScalaはインストールしてあるものとします。

]]> インストールDownloadリンクからダウンロードします。

適当な場所に展開します。

$ unzip /path/to/play-1.1.zip

以下、展開したパスを ${PLAY_HOME} を表記します。

モジュールのインストール

Play! のサイトで公開されているモジュールのインストールは、playコマンドで行います。
ここでは、ScalaモジュールとMavenモジュールをインストールしましょう。

$ ${PLAY_HOME}/play install scala-0.8
$ ${PLAY_HOME}/play install maven-head

Hello World!

プロジェクト作成

playコマンドでプロジェクトを作成します。

$ ${PLAY_HOME}/play new helloworld --with scala

オプション --with scala を付けることで、Scalaモジュールを読み込んだ状態でプロジェクトが作成されます。

とりあえず実行してみる

さっそくですが、実行して画面を見てみましょう。
デフォルトでは8000番と9000番のポートを使うことになっているので、ここは空けておいてください。

$ ${PLAY_HOME}/play run helloworld
~        _            _ 
~  _ __ | | __ _ _  _| |
~ | '_ \| |/ _' | || |_|
~ |  __/|_|\____|\__ (_)
~ |_|            |__/   
~
~ play! 1.1, http://www.playframework.org
~
~ Ctrl+C to stop
~ 
Picked up _JAVA_OPTIONS: -Dfile.encoding=UTF-8
Listening for transport dt_socket at address: 8000
21:49:45,400 INFO  ~ Starting /Users/ueshin/workspace/helloworld
21:49:45,402 INFO  ~ Module scala is available (/usr/local/play-1.1/modules/scala-0.8)
21:49:45,959 WARN  ~ You're running Play! in DEV mode
21:49:46,033 INFO  ~ Listening for HTTP on port 9000 (Waiting a first request to start) ...

とかでたら、http://localhost:9000 にアクセスすると

Your new application is ready!

とかでます。

Hello World!

プロジェクト内の app/controllers.scala ファイルを開いてください。

package controllers

import play._
import play.mvc._

object Application extends Controller {
    
    def index = "Hello World!"
    
}

のように編集（8行目のメソッド本体を Template から "Hello World!" に修正）して画面をリロードすると、先程の画面の代わりに

Hello World!

と表示されます。

Play! では、サーバーの再起動をしなくても、修正したものがすぐに反映されます。
一般的にJavaでのWebアプリ開発では修正クラスをリロードするためのサーブレットコンテナ再起動がネックになってサクサク開発ができない問題がありましたが、Play! ではサクサクできますね！
※ Seasar2やSlim3をはじめ、最近はホットにリロードできるものも多いです。

サーバーを止めるには、Ctrl-C です。

Ctrl-C

iPhone用ライブラリを作成する

2010-10-26T16:14:04Z

めっきりiPhoneアプリ構築中です。

Twitterクライアントをいくつか作ってみたいので、API呼び出しなどの共通部分をライブラリとして外出ししようとした時のメモ書きです。

参考にしたのは以下のサイトです。

]]> プロジェクトの作成Xcodeより、新規プロジェクトで「Cocoa Touch Static Library」テンプレートよりプロジェクトを作成します。

「グループとファイル」内、「Classes」に実装ファイルを入れていきますが、実ファイル階層はフラットになっているので、必要に応じてFinderなりで階層を作ってグループの情報からパスを設定する必要があります。

ユニットテスト

Xcodeでは、「SenTestingKit.framework」というユニットテストのフレームワークがあります。

ターゲットを追加

「グループとファイル」の「ターゲット」を右クリック、「追加」→「新規ターゲット」を選ぶと新規ターゲットダイアログが表示されるので、「Cocoa Touch」→「Unit Test Bundle」を選択し、適当な名前を付けて保存します。

Xcode-3.2.4 ではそのままではテスト実行時にエラーになるので、追加したターゲット内「スクリプトを実行」の「情報を見る」とテスト実行スクリプトが表示されるので、これを修正します。

# Run the unit tests in this test bundle.
"${SYSTEM_DEVELOPER_DIR}/Tools/RunUnitTests"

↓

# Run the unit tests in this test bundle.
"${SYSTEM_DEVELOPER_DIR}/Tools/RunUnitTests" 1> /tmp/RunUnitTests.out

フレームワークの追加

「グループとファイル」から、「Frameworks」を右クリック、「追加」→「既存のフレームワーク...」を選んで表示されるダイアログの左下にある「その他を追加...」をクリックするとファイル選択ダイアログが開くので、

/Developer/Library/Frameworks

にある SenTestingKit.framework を（フォルダごと）選択して追加します。

テスト実装

テスト用のグループを「TestClasses」として準備しておきます。（グループ名はなんでもいいです。）

グループを右クリック、「追加」→「新規ファイル」から、「Cocoa Touch Class」内の「Objective-C test case class」を選択し、適当な名前をつけて保存します。
ただし、ファイル名を入力するダイアログにある「ターゲット」で、テスト用のターゲットのみを選択するようにします。
また、ヘッダファイルは作成せずに、mファイルに同居させてしまったほうが管理が楽になります。

テストコードを実装します。

例） HelloTest.m

#import 
#import "Hello.h"

@interface HelloTest : SenTestCase {
    Hello *hello;
}
@end

@implementation HelloTest

- (void)setUp {
    hello = [[Hello alloc] init];
}

- (void)testHello {
    STAssertEqualObjects([hello sayHello:@"ueshin"], @"Hello, ueshin", @"sayHello:@\"ueshin\" must be @\"Hello, ueshin\".");
}

- (void)tearDown {
    [hello release];
}

@end

アクティブターゲットをテストターゲットに変更してビルドすると、、、エラーになります。
まぁ、テスト対象の実装がありませんので。。。

実装

というわけで実装します。

「Classes」グループを右クリック、「追加」→「新規ファイル」から、「Cocoa Touch Class」内の「Objective-C class」を選択し、適当な名前をつけて保存します。
ここで、ターゲットは実際のターゲットとテスト用ターゲットの両方共チェックをつけておきます。

例） Hello.h

#import 

@interface Hello : NSObject {
}

- (NSString*)sayHello:(NSString*)name;

@end

例） Hello.m

#import "Hello.h"

@implementation Hello

- (NSString*)sayHello:(NSString *)name {
    return [NSString stringWithFormat:@"Hello, %@", name];
}

@end

さて、ビルドしてみると、無事に「問題なく完了しました」。
ターゲットを元に戻してビルドすると、オブジェクトファイルが出来ます。

注意：カテゴリについて

Objective-Cでは、カテゴリという機能を使って実装ファイルを分割したり、既存のクラスに機能を追加したりすることができますが、最終的に実行ファイルをビルドする際に、リンカのバグによってカテゴリを実装したファイルがリンクされません。

これを防ぐために、カテゴリを実装する.mファイルに、ダミーの実装を付けておけばいいようです。

例） Hello+Sample.m

#import "Hello+Sample.h"

@interface FIXCATEGORYBUG_HELLO_SAMPLE @end
@implementation FIXCATEGORYBUG_HELLO_SAMPLE @end

@implementation Hello (Sample)

・・・

@end

FIXCATEGORYBUG_HELLO_SAMPLEの部分は他と被らない名前をつけておきます。

ライブラリの組み込み

ライブラリを組み込むプロジェクトを作成します。

プロジェクトに、Finderからライブラリプロジェクトの .xcodeproj ファイルをドラッグ＆ドロップすると、ライブラリの成果物である libXxx.a が表示されるようになります。

表示された libXxx.a をさらにドラッグして、ビルドターゲットの「バイナリをライブラリにリンク」にドロップします。

ユーザーヘッダ検索パス

プロジェクトの「情報を見る」→「ビルド」タブ内の「ユーザー検索パス」に、ヘッダの位置を指定します。
組み込むプロジェクトからの相対パスで指定する場合には、

${SRCROOT}/../path/to/header

のように指定すればいいです。

その他のリンカフラグ

ライブラリ側でカテゴリなどを使っていると、リンカフラグを設定しないといけないようです。

プロジェクトの「情報を見る」→「ビルド」タブ内の「その他のリンカフラグ」に、

-ObjC

と指定します。

実装

あとはライブラリを利用して実装していき、ビルドすれば出来上がり！・・・のハズ。

ダイクストラ法

2010-09-17T16:35:57Z

最短経路問題を解くためのアルゴリズムである「ダイクストラ法 (Dijkstra's Algorithm)」というのをScalaで実装してみました。

参考にしたのはダイクストラ法（最短経路問題）です。

ダイクストラ法 (Dijkstra's Algorithm) は最短経路問題を効率的に解くグラフ理論におけるアルゴリズムです。スタートノードからゴールノードまでの最短距離とその経路を求めることができます。

正しく実装出来ているかどうかはよくわかりません。。。

]]> dijkstra.scala

object Dijkstra extends Application {

  case class Node(id: Int)

  val graph = Map(
    Node(0) -> Map(Node(1) -> 5, Node(2) -> 4, Node(3) -> 2),
    Node(1) -> Map(Node(0) -> 5, Node(2) -> 2, Node(5) -> 6),
    Node(2) -> Map(Node(0) -> 4, Node(1) -> 2, Node(3) -> 3, Node(4) -> 2),
    Node(3) -> Map(Node(0) -> 2, Node(2) -> 3, Node(4) -> 6),
    Node(4) -> Map(Node(2) -> 2, Node(3) -> 6, Node(5) -> 4),
    Node(5) -> Map(Node(1) -> 6, Node(4) -> 4)
  )

  def dijkstra(routes: Map[List[Node], Int]) : (Map[List[Node], Int]) = {
    val scanned = routes.flatMap {
      case (route, cost) => {
        graph(route(0)).flatMap {
          case (n, c) if routes.forall(_._1(0) != n) => Some((n :: route) -> (cost + c))
          case _ => None
        }
      }
    }
    if(scanned.isEmpty) {
      routes
    }
    else {
      dijkstra(routes + scanned.reduceLeft { (a, b) => if(a._2 < b._2) a else b })
    }
  }

  println(dijkstra(Map(List(Node(0)) -> 0)))

}

実行すると

Map(
  List(Node(0)) -> 0,
  List(Node(5), Node(4), Node(2), Node(0)) -> 10,
  List(Node(3), Node(0)) -> 2,
  List(Node(4), Node(2), Node(0)) -> 6,
  List(Node(1), Node(0)) -> 5,
  List(Node(2), Node(0)) -> 4
)

のように、各ノードへの最短経路がその時のコストと共に表示されます。
（上記は見やすいように空白・改行を入れてあります。）

途中計算を保持しないでワンステップずつすすむので、グラフが大きくなると破綻すると思われます。
まぁ、アルゴリズムの勉強用ということで。

Coming on Stream その5

2010-09-11T10:57:59Z

Coming on Streamシリーズファーストシーズン最終回。
その1
その2
その3
その4

最終回として、今回もろもろ利用したScala的な何かについてつらつらと書きます。

今回利用するプログラムも、

$ git clone https://github.com/ueshin/hbase-twitter.git
$ cd hbase-twitter
$ git checkout hbase-twitter-0.0.2

を利用します。

また https://github.com/ueshin/hbase-twitter/tree/hbase-twitter-0.0.2でブラウズできます。

]]> 便利に利用したScalaの機能まずは便利に利用したScalaの機能もろもろについて。

`package object`

プロジェクト内でよく利用する共通処理をプロジェクトのトップパッケージにパッケージオブジェクトで置いておくと便利です。

package.scala

サブパッケージのクラスでこれらを参照する場合には、

package st.happy_camper.hbase.twitter
package subpackage

のようなパッケージ宣言にしておけば利用可能になります。

パッケージ内のみで利用するものも、それぞれのパッケージオブジェクトで書いておくと便利です。

`implicit conversion`

HBaseではほとんどのデータをバイト配列で保持します。
この時、Javaだとバイト配列への変換もすべて書かなければなりません。
そのため Bytes.toBytes() というメソッド呼び出しを繰り返し記述する必要があります。

そこで、必要な変換を implicit conversion すると便利です。

package.scala 9-14行目

例えば、 TweetHotTag.scala の35行目 new HTable() の第2引数や、 37行目 new Scan().addColumn() の各引数などは全てバイト配列なのですが、implicit conversionのおかげですっきりと記述出来ています。

Before

new Scan().addColumn(Bytes.toBytes("score_" + lang), Bytes.toBytes(TagScoring.dateFormat.format(target)))

After

new Scan().addColumn("score_" + lang, TagScoring.dateFormat.format(target))

クロージャによる新構文

Scalaでは、クロージャを利用することで新構文を作成できます。
正確にはimplicit conversionとかただのメソッド呼び出しがそれっぽく見えるように記述できるってことなんですが。

今回作成したのは、使い終わったらclose()を呼び出す必要があるものを、自動的にclose()してくれる構文です。

package.scala 16-26行目

このEnsureCloseクラスとimplicitなensureCloseメソッドにより、close() メソッドを持つオブジェクトを、処理を記述したクロージャを引数にしてopen()すると、処理した後にclose()してくれます。

例えば、TweetHotTag.scala の35行目

new HTable(conf, "tagtrend").open {
  case tagtrend: HTable => ... 
}

や、38行目の

tagtrend.getScanner(new Scan() ... ).open {
  case scanner: ResultScanner => ...
}

のように書けます。
ここを try { ... } finally { close() } で記述するとものすごく冗長に見えます。

と、これを書いている間に上記のクロージャの引数となる部分の、caseと型を記述しなくてもいいようになる方法を思いつきましたが、それはまたの機会に。

`unapply`メソッド

メソッド名を省略できるapplyメソッドもかなり便利ですが、Scalaの強力なパターンマッチで暗黙的に利用されるメソッドであるunapplyメソッドを利用することで便利なことが多いです。

Status.scala 40-47行目

NodeオブジェクトからOption[Status]オブジェクトを返すメソッドです。
パターンマッチで使えば、引数に指定した変数にStatusオブジェクトが代入されます（HTableHandler.scala 19行目）。

XML.loadString(xml) match {
  case Status(status) => ...
  case Delete(delete) => ...
  case _ => ...
}

ScoreWritable.scala 34-43行目

こちらはバイト配列からOption[Score]オブジェクトを返すメソッドですが、このunapplyメソッドは変数の代入時にも使えるので、例えば（TweetHotTag.scala 42行目）

val ScoreWritable(score) = result.value

のように、バイト配列からscore変数にScoreオブジェクトをさくっと代入できてしまいます。
ただし、unapplyメソッドがNoneを返したら例外飛ぶので注意。

面倒だったところ

Eclipseのプラグインがちゃんと動かないのは置いといて。

型引数が厳密

Javaよりも型引数を厳密に記述しなければならない場合があります。

例えば（TagScoring.scala 50行目）、

classOf[HRegionPartitioner[ImmutableBytesWritable, Put]]

Javaだと HRegionPartitioner.class だけです。

また、前のバージョンですが（LangCounter.scala 25行目）、

type Context = Mapper[ImmutableBytesWritable, Result, Text, LongWritable]#Context

のように、ジェネリクスな親クラスの内部クラスの型を指定するときに、親クラスの型引数込みで内部クラスを指定しなければならない場合があります。

※ これってなんでですかね？ご存じの方、教えてください。
※ もっと簡潔に書けるよっていう方法があれば、そちらでも。ｗ

Java併用時

デフォルトでimportされるクラス名をScala側のクラスが上書きしてしまうとコンパイルエラーが分かりにくくなります。

例えば（CountReducer.scala 12行目）、

override def reduce(key: Text, values: java.lang.Iterable[LongWritable], context: Context)

の第2引数の型を Iterable[LongWritable] だけで指定するとコンパイルエラーになります。

あと Integer.parseInt("1") はいけるけど Long.parseLong("1") はいけないとか。

java.langパッケージはデフォルトではimportしなくてもよかったんじゃなかろうか（そしたらJava側のクラスを使うときには常に気を使うようになる気がする）。
もしくは名前をカブらせるのやめて欲しかった（Stringみたいにできなかったのかなとか）。

Scaladocわかりにくい

慣れ？

などなど、いろいろありましたとさ。
他にもあったかもしれないけど、思い出したら追記していきます。

Coming on Stream その4

2010-09-11T07:03:34Z

Coming on Streamシリーズもおおづめ。
その1
その2
その3

作ったものについて、は今回で終りになります。

今回利用するプログラムも、

$ git clone https://github.com/ueshin/hbase-twitter.git
$ cd hbase-twitter
$ git checkout hbase-twitter-0.0.2

を利用します。

また https://github.com/ueshin/hbase-twitter/tree/hbase-twitter-0.0.2でブラウズできます。

]]> ホットタグのスコア算出各言語毎に、最近頻繁にツイートされているホットタグを抽出ためのスコアを算出します。

単純にツイート数だけでもよかったんですが、次のような制約を設けることにしました。

設定した時間枠だけでなく、過去のツイート数も加味してスコアリングしたい。
かといって日常的にツイートされているタグ（ #followmejp など）には高いスコアを付けたくない。

というわけで、

過去２４時間の各時間枠（１時間おき）毎のツイート数に減衰係数を掛けたもの
上記を合算したものに、頻出度に応じたペナルティを掛ける。

という感じにスコアリングしました。
検索のスコアリングアルゴリズムである tf-idf を参考にしています。

１で過去のツイート数が影響度を減衰しながらも影響を与え、２で日常的にツイートされているタグの抑制をします。

計算結果は tagtrend テーブルに格納します。

`TagScoring`

TagScoring.scala

集計対象となる言語を第1引数として必ず指定してください（25行目）。

集計の基準となる時刻は、引数で指定できるようになっています（28行目）。
指定フォーマットは "yyyyMMddHH" で、指定しなかった場合のデフォルトは起動時刻の0分となります。

MapReduceジョブでこれらを取得できるように設定しておきます（38行目）。

この時刻から、過去24時間が集計対象となります（46行目）。

集計元が前回の転置テーブルになるので、転置処理が終わっているかどうかの確認処理なども入れています（58行目）。

`TagScoringMapper`

TagScoringMapper.scala

処理の前に、先程送り込んだ計算に必要な設定を取得しておきます（27行目）。

map処理では、各時間枠ごとのツイート数をカウントして（35行目）、減衰係数をかけながら加算していき（41行目）、最後にペナルティを掛けます（45行目）、と。

languagesテーブルは、基準となる時間に何回ツイートがあったがを保存しつつ、集計が終わったことを表します。

TweetHotTag

TweetHotTag.scala

集計したスコアの高い順に100個のタグを出力します。
言語（必須）と時刻（任意：デフォルトは現在時刻0分）を指定します。

クラス名がTweet〜〜になっているのは（中略）OAuthに移行したせいからです。

実行

それでは実行してみます。

$ sh target/appassembler/bin/scoring-tag ja
$ sh target/appassembler/bin/tweet-hottag ja
#aclive 6.693075460306 : count = Map(0 -> 8, 1 -> 4, 2 -> 13, 3 -> 9, 4 -> 15, 5 -> 1)
#gmentalk       5.316292117147331 : count = Map(0 -> 6, 1 -> 4, 3 -> 1)
#boostjp        4.886848175090427 : count = Map(0 -> 6, 2 -> 1)
#lotrsee        3.0 : count = Map(0 -> 3)
#olojp  3.0 : count = Map(0 -> 3)

                ・・・

スコアリングできました！（よね？）

と、まぁ、一応ここまでで試してみたかった集計方法とその結果の確認までできてしまいましたとさ。

今は未実装のツイート機能の代わりに気が向いたときに手動でツイートしていますが、スコアの高いハッシュタグを見てみると知らない情報がたくさん入ってきて面白いですね！

Coming on Stream その3

2010-09-09T13:27:33Z

Coming on Streamシリーズやってます。
その1
その2

前２回で、NoSQL会@博多編を終わりまして、今回はその後に何をしたのか、をまとめていきます。

今回からバージョンをすすめまして、

$ git clone https://github.com/ueshin/hbase-twitter.git
$ cd hbase-twitter
$ git checkout hbase-twitter-0.0.2

を利用します。

また https://github.com/ueshin/hbase-twitter/tree/hbase-twitter-0.0.2でブラウズできます。

]]> ハッシュタグを行キーにした転置テーブルまずはハッシュタグを行キーにした転置テーブルを作ってみました。

カラムファミリーをユーザー設定の言語毎に分けることでその後の集計を言語別で行えるようにします。
あとでそれぞれのハッシュタグにスコアを付けますので、それ用のカラムファミリーも準備しました。

create.rb

create 'tagtrend',
  { NAME => 'timeline_en', VERSIONS => java.lang.Integer::MAX_VALUE }, { NAME => 'score_en' },
  { NAME => 'timeline_ja', VERSIONS => java.lang.Integer::MAX_VALUE }, { NAME => 'score_ja' },
  { NAME => 'timeline_es', VERSIONS => java.lang.Integer::MAX_VALUE }, { NAME => 'score_es' },
  { NAME => 'timeline_de', VERSIONS => java.lang.Integer::MAX_VALUE }, { NAME => 'score_de' },
  { NAME => 'timeline_fr', VERSIONS => java.lang.Integer::MAX_VALUE }, { NAME => 'score_fr' },
  { NAME => 'timeline_it', VERSIONS => java.lang.Integer::MAX_VALUE }, { NAME => 'score_it' }

`TagTransposer`

TagTransposer.scala

前回の処理がどこまで行っているのかを表す configuration テーブルを作成してあります。
これから取り出した時刻（27行目）から、現時刻までを処理対象とします（39行目）。

また、パーティショナーにHRegionPartitionerを設定しています（44行目）。

`TagTransposeMapper`

TagTransposeMapper.scala

qualifierは、ユーザーID（16進数16桁）、値はステータスID（16進数16桁）とします。
これだと同じユーザーIDでどんどん上書きされてしまいますので、バージョン（タイムスタンプ）にツイート時刻を入れておくことで別データとして取り出せるようにしておきます（21行目）。

出力キーにハッシュタグを指定することで、HRegionPartitionerによってそれぞれの出力先リージョンを処理するReducerへとデータが渡されるようになっています。
出力先テーブルがすでに複数のリージョンに分かれていた場合には、HRegionPartitionerを利用したほうがいいと思います。

ReducerはIdentityTableReducerですので、Mapperからの出力がそのままジョブの出力となります。

実行

それでは実行してみます。

$ sh target/appassembler/bin/transpose-tag

ジョブが完了したら、HBase Shellでデータを確認してみます。

hbase(main):001:0> scan 'tagtrend', { COLUMNS => [ 'timeline_ja' ] }
ROW                          COLUMN+CELL
 #000                        column=timeline_ja:00000000064c8bf3, timestamp=1283642556685, value=000000055ba92
                             88c
 #000                        column=timeline_ja:000000000772b7bf, timestamp=1280923632610, value=00000004b9f07
                             6d0
 #000037                     column=timeline_ja:00000000094a6d5a, timestamp=1283559227519, value=0000000556dca
                             9a0

                ・・・

無事に転置テーブルができたようです！（よね？）

このテーブルがあれば、あるハッシュタグをつけたユーザー、その時のツイートを特定することができます。

例えば、先の結果でいうと、ユーザーIDが "00000000064c8bf3" 、ステータスIDが "000000055ba9288c" ということになります。
確かめてみます。

hbase(main):002:0> get 'twitter', '00000000064c8bf3'
COLUMN                       CELL
 status:000000055ba9288c     timestamp=1283642530795, value=\x8A\x01*\xDF\x0E\xFE`\x8B\x05[\xA9(\x8C2\xE3\x83\
                             x8F\xE3\x83\x83\xE3\x83\x8F\xE3\x83\x83\xE3\x83\x8F\xEE\x9B\xB6\xE2\x80\xA6\xE3\x
                             81\xAA\xE3\x82\x93\xE3\x81\xA0\xE3\x81\x93\xE3\x81\xAE\xE5\xA4\x89\xE8\xBA\xAB\xE
                             9\x9F\xB3 #000:yubitter\x00\x00

                ・・・

HBase Shellからはバイナリに見えてしまうのでわかりにくいですが、ステータスID "000000055ba9288c" のところに確かに #000 というハッシュタグが見えていますね。

というわけで、このテーブルを使うことで、「ハッシュタグでユーザー or ツイートを検索」機能などを実装することができるようになりました。

注意

このテーブルで、バージョンを行キー、カラムファミリー、qualifierに続くもう一つの次元のような扱いをしていますが、このようなやり方には注意が必要です。
詳しくはTogetter - 「HBaseで同一カラムに同一タイムスタンプのデータを登録した場合の挙動」を参照してください。

Coming on Stream その2

2010-09-07T13:13:07Z

昨日の続き。

NoSQL会@博多でお見せしたかったMapReduceによる集計が3つほどありました。

言語（user:lang）で集計
ソース（status#source）で集計
ハッシュタグ（status#textから抽出）で集計

昨日からデータが溜まってきていることでしょうから、ぜひ集計を実行してみてください。

今回利用するプログラムも、

$ git clone https://github.com/ueshin/hbase-twitter.git
$ cd hbase-twitter
$ git checkout hbase-twitter-0.0.1

で利用できます。

また https://github.com/ueshin/hbase-twitter/tree/hbase-twitter-0.0.1でブラウズできます。

]]> 言語（user:lang）で集計まずはシンプルな方から。

格納されているユーザーデータの内、言語（user:lang）で集計します。
Twitterでは、6つの言語を設定できますが、充分なデータが収集できていればそれぞれの言語のユーザーがどのように分布しているのかを見ることができます。

ソースコードは LangCounter.scala です。

`Scan`で絞り込み

TableMapReduceUtil#initTableMapperJob (41行目) で、MapRecuceの対象となるテーブル（第1引数）と、データ範囲（第2引数のScanオブジェクト）を指定します。

これにより、MapReduceで処理対象でないカラムファミリーをスキャンしなくなり、また、同じカラムファミリーでも必要でないカラムがMapperに渡されなくなります。

`LangCountMapper`

Mapperには、行キー -> 行データの形で指定したカラムデータが渡されますので、これを処理します。

今回は、user:langカラムのデータをキー、1Lを値として出力します（30行目）。
この辺のMapper出力〜Reducerの流れは、よく見るワードカウントのサンプルと同じです。

CountReducer

Reducerでは、渡ってきたキーに対する値を集計していきます。

ソースコードは CountReducer.scala です。
このReducerはあとの2つの集計でも利用します。

なお、同様の処理をする org.apache.hadoop.mapreduce.lib.reduce.LongSumReducer がHadoopに標準で入っていますので、普通はこちらを使うとよいと思います。

実行

それでは実行してみます。

$ mvn clean package
$ sh target/appassembler/bin/count-lang 
$ cat /part-r-00000
de      25129
en      2835610
es      303250
fr      21047
it      11486
ja      664244

無事に集計できました！
日本語設定のユーザー数は、英語に続いて2位のようです！

ソース（`status#source`）で集計

次に、ソース（status#source）で集計します。
ここでいうソースというのは、ツイッタークライアントのことです。
よく利用されているツイッタークライアントは何か？を調べるための集計ですね。

今度は、各ツイートに対する属性になるので、Statusオブジェクトのリストを取り出す必要があります。

ソースコードは SourceCounter.scala です。

`Scan`設定

今回は、statusカラムファミリーに含まれるカラムを全て取得します（44行目）。
statusカラムファミリーに対するqualifierが、statusId（の16進16桁表記）を表していましたので、statusカラムファミリー全体がそのユーザーのツイート群になります。

SourceCountMapper

値として渡されたResultオブジェクトからStatusオブジェクトを復元して（31行目）、status.sourceをキーとして出力しています（32行目）。

Statusオブジェクトの復元はScalaのパターンマッチを利用しています（StatusWritable#unapply）。

Reducerは先程と同じものを利用します。

実行

それでは実行してみます。

$ sh target/appassembler/bin/count-source

ちゃんと集計できましたか？

ハッシュタグ（`status#text`から抽出）で集計

最後にハッシュタグの集計を行ないます。

ソースでの集計と同じようにStatusオブジェクトを利用しますが、さらにツイート本文からハッシュタグを抽出する処理が入ってきます。

ソースコードは TagCounter.scala です。

TagCountMapper

Scan設定は先程と同様です（48行目）。

Statusオブジェクトの復元も先程と同様ですが、今度は status.user.lang == "ja" という条件を付けて、日本語設定したユーザーのみを集計しています（33行目）。

ハッシュタグの抽出は、正規表現を使いました（28行目）。
抽出されたハッシュタグをキーとして出力しています（35行目）。

実行

それでは実行してみます。

$ sh target/appassembler/bin/count-tag

やってみていただけると分かりますが、見知らぬタグや奇妙なタグが出てきて楽しいです。

おまけ

Scan設定について

MapReduceの集計対象は、Scanの設定によって変わります。
Scanでは、行キーの範囲を指定したり、バージョン（タイムスタンプ）の範囲を指定したりすることができます。
なので、例えば直近1時間のツイートのみを集計対象とする、といったことがMapper/Reducerを修正することなく、設定パラメータを送り込む方法を考えることなく、容易に実現できてしまいます。

設定ファイルについて

Hadoopを擬似分散モード、完全分散モードで実行出来るように、設定ファイルの雛形を準備してあります。

擬似分散モードは HDFS NameNode が 9000番ポート、 JobTracker が 9001番ポートで動作している想定です。
必要に応じで src/pseudo/resources 以下の設定ファイルを修正してください。

コンパイルは以下のとおり。

$ mvn -P pseudo clean package

完全分散モードは HDFS NameNode が node0サーバーの 9000番ポート、 JobTracker が node0サーバーの 9001番ポート、 ZooKeeper Quorum が node0サーバーで動作している想定です。
こちらも必要に応じて src/production/resources 以下の設定ファイルを修正してください。

コンパイルは以下のとおり。

$ mvn -P production clean package

Happy-Camper Street

HBaseのコンパクションまわりを調べてみた件。

コンパクションのトリガー

メジャーコンパクションの周期

メジャーコンパクションになる条件

その他

つづきはTogetterで。

HBaseワークショップ(第一回)

キーの設計

画面等から参照する必要がある場合はPrefixで局所化

MapReduceの入力に使うならひたすら分散

特殊な場合

カラムファミリーの使い方

論理的分類

tall table vs fat wide table

思うこと

おまけ

反省

Play framework with Scala その6

既存のScalaモジュールをコピーする

scala-0.8.1/src/play/cache/ScalaCache.scalaを修正

scala-0.8.1/src/play/cache/CacheDelegate.javaを修正

Scalaモジュールをビルド

Cacheを使う

サンプルアプリ

Play framework with Scala その5

インストール

設定

Modelクラス

insert/update/delete

クエリ

例) models/User.scala

サンプルアプリ

MapReduce in Scala

実装

mapreduce.scala

WordCount.scala

ポイント

Scala的に

Future

(implicit ord: Ordering[A])

Stream

implicit conversion

まとめ

Play framework with Scala その4

login()メソッド

logout()メソッド

getUser()メソッド

Application.scala

Defaultsトレイト

routes

view

ローカル動作確認

デプロイ

Play framework with Scala その3

インストール

GAEにデプロイ

Play framework with Scala その2

コンパイルエラー？

デバッグ

他のIDEと連携

Emacs (ENSIME) の設定

Maven2で依存ライブラリ取得

初期化

依存ライブラリの管理

Maven2について

注意

Play framework with Scala その1

モジュールのインストール

Hello World!

プロジェクト作成

とりあえず実行してみる

Hello World!

iPhone用ライブラリを作成する

ユニットテスト

ターゲットを追加

フレームワークの追加

テスト実装

実装

注意：カテゴリについて

`Cache`を使う

`Model`クラス

`insert`/`update`/`delete`

例) `models/User.scala`

`(implicit ord: Ordering[A])`

`Stream`

`login()`メソッド

`logout()`メソッド

`Defaults`トレイト

`GAEにデプロイ`

`package object`

`implicit conversion`

`unapply`メソッド

`TagScoring`

`TagScoringMapper`

`TagTransposer`

`TagTransposeMapper`

`Scan`で絞り込み

`LangCountMapper`

ソース（`status#source`）で集計

`Scan`設定

ハッシュタグ（`status#text`から抽出）で集計