Hadoopの最近のブログ記事

Coming on Streamシリーズ ファーストシーズン最終回。
その1
その2
その3
その4

最終回として、今回もろもろ利用したScala的な何かについてつらつらと書きます。

今回利用するプログラムも、

$ git clone https://github.com/ueshin/hbase-twitter.git
$ cd hbase-twitter
$ git checkout hbase-twitter-0.0.2

を利用します。

また https://github.com/ueshin/hbase-twitter/tree/hbase-twitter-0.0.2でブラウズできます。

Coming on Streamシリーズもおおづめ。
その1
その2
その3

作ったものについて、は今回で終りになります。

今回利用するプログラムも、

$ git clone https://github.com/ueshin/hbase-twitter.git
$ cd hbase-twitter
$ git checkout hbase-twitter-0.0.2

を利用します。

また https://github.com/ueshin/hbase-twitter/tree/hbase-twitter-0.0.2でブラウズできます。

Coming on Streamシリーズやってます。
その1
その2

前2回で、NoSQL会@博多編を終わりまして、今回はその後に何をしたのか、をまとめていきます。

今回からバージョンをすすめまして、

$ git clone https://github.com/ueshin/hbase-twitter.git
$ cd hbase-twitter
$ git checkout hbase-twitter-0.0.2

を利用します。

また https://github.com/ueshin/hbase-twitter/tree/hbase-twitter-0.0.2でブラウズできます。

昨日の続き。

NoSQL会@博多でお見せしたかったMapReduceによる集計が3つほどありました。

  • 言語(user:lang)で集計
  • ソース(status#source)で集計
  • ハッシュタグ(status#textから抽出)で集計

昨日からデータが溜まってきていることでしょうから、ぜひ集計を実行してみてください。

今回利用するプログラムも、

$ git clone https://github.com/ueshin/hbase-twitter.git
$ cd hbase-twitter
$ git checkout hbase-twitter-0.0.1

で利用できます。

また https://github.com/ueshin/hbase-twitter/tree/hbase-twitter-0.0.1でブラウズできます。

TwitterのStreaming APIを使ってツイートを収集し、様々な解析をする(したい)ためのプログラムを開発しています。
元々は7月にNoSQL会@博多HBaseについて発表した際のサンプルだったのですが、そのまま引き続き開発を続けています。

最近になってプロジェクト名を「Coming on Stream」に決めました。

下記で参照できるプログラムの動作環境は

  • Hadoop: 0.20.2
  • HBase: 0.20.5
  • Scala: 2.8.0

を利用していますが、HBaseは0.20.6でも動作すると思います。

$ git clone https://github.com/ueshin/hbase-twitter.git
$ cd hbase-twitter
$ git checkout hbase-twitter-0.0.1

で利用できます。

また https://github.com/ueshin/hbase-twitter/tree/hbase-twitter-0.0.1でブラウズできます。

先日セットアップした擬似分散モードの動作確認を行います。

テストに使うサンプルはいつものやつと、そのScala版Pig版です。

  • Hadoop: 0.20.2
  • Pig: 0.6.0
  • Scala: 2.8.0.Beta1

を利用します。
それぞれインストールが完了していて、Hadoopは擬似分散モードの準備が出来ているものとします。

Hadoop on MacOSX

| # Comments | 2 Trackbacks
MacOSXにHadoopを擬似分散モードで動作できるようにインストールした時の記録です。

利用した環境は次の通りです。

  • MacOSX Snow Leopard
  • Hadoop 0.20.2

また、参考にしたページは次のページです。

このページにはHBaseのインストールまで記載されていますが、まだそこまでやっていないので、機会があればということで。

Pigという、Hadoopをお手軽に使いましょうツールを使ってみました。
また、 Scala によるユーザー定義関数(UDF)の記述、組み込みをしてみました。

題材はいつもと同じです。

  • Pig: 0.6.0
  • Scala: 2.8.0.Beta1

を利用しています。

$ git clone https://github.com/ueshin/pig-scala-aggregate.git
$ cd pig-scala-aggregate
$ git checkout pig-scala-aggregate-0.6.1

で利用できます。

また https://github.com/ueshin/pig-scala-aggregate/tree/pig-scala-aggregate-0.6.1 でブラウズできます。

目下勉強中のScala という言語を使って、MapReduceを実装してみました。

題材は前回のものと同じです。

  • Hadoop: 0.20.2
  • Scala: 2.8.0.Beta1

を利用しています。

$ git clone https://github.com/ueshin/hadoop-scala-aggregate.git
$ cd hadoop-scala-aggregate
$ git checkout hadoop-scala-aggregate-0.20.1

で利用できます。

また https://github.com/ueshin/hadoop-scala-aggregate/tree/hadoop-scala-aggregate-0.20.1 でブラウズできます。

1年以上のご無沙汰でした。
お久しぶりです。

さすがにこれだけ期間が開くとHadoopのバージョンも0.20.2が最新となっています。(2010/04/22現在)

そこで、以前実装したhadoop-aggregate-0.0.2を元に、hadoop-core-0.20.2の最新APIに更新してみようと思います。

以前と同じように、

$ git clone https://github.com/ueshin/hadoop-aggregate.git
$ cd hadoop-aggregate
$ git checkout hadoop-aggregate-0.20.1

で利用できます。

また https://github.com/ueshin/hadoop-aggregate/tree/hadoop-aggregate-0.20.1 でブラウズできます。

Twitter Icon

AdSense

Creative Commons License
このブログはクリエイティブ・コモンズでライセンスされています。
Powered by Movable Type 5.14-ja

Google検索

カスタム検索

2013年10月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31