IBMが3500人を投入するビックデータ処理ソフト「Apache Spark」

2015年07月13日 08:37

画・IBMが3500人を投入するビックデータ処理ソフト「Apache Spark」

ビッグデータを扱うための基盤環境として、「Apache Spark」に注目が集まっている。ビッグデータ処理ソフトの定番「Hadoop」の弱点を補う要望なソフトと位置づけられているのだ。IBMは、Sparkを「データ分野で今後10年間の最重要オープンソースソフトウエア」と位置づける。

 ビッグデータを扱うための基盤環境として、「Apache Spark」に注目が集まっている。ビッグデータ処理ソフトの定番「Hadoop」の弱点を補う要望なソフトと位置づけられているのだ。

 IBMは、Sparkを「データ分野で今後10年間の最重要オープンソースソフトウエア」と位置づける。6月15~17日に、サンフランシスコ市で開催されたユーザーカンファレンス「Spark Summit 2015」には、2000人ものユーザーが集まった。ここで、タクシー配車サービスの米ウーバー、民家をホテルとして貸し出す米Airbnb、トヨタ自動車〈7203〉の米国法人、中国BaiduなどがSparkの活用事例を発表した。また、Sparkを活用したビジネス変革の事例として、公共交通機関における輸送計画のリアルタイムスケジューリング(イスラエルのOptibus)、乗用車の走行・駐車や通勤状況などの分析(米Findability Sciences)などが挙げられている。

 Sparkは、2009年にカリフォルニア大学バークレー校のAMPLab(Algorithms, Machines, and People Lab)で開発が始まり、13年にApacheソフトウェアファウンデーション(ASF)に寄贈され、14年5月に正式版「Spark 1.0」が公開された。

 Sparkが期待を集める理由は何なのか。まず、高速分散処理で知られるHadoopを大きく上回る処理スピードが大きな売りとされている。インメモリ環境ではHadoopの100倍、ディスク環境でその10倍高速に処理できるという。

 また、機械学習・グラフ処理・ストリーム処理など、ビッグデータ活用に必要な処理をライブラリとして提供するので、効率よくアプリの開発ができるとされている。

 IBMは今後、各国の研究所に勤める3500人以上の研究者・開発者をSpark関連プロジェクトに配属し、Sparkテクノロジーセンターを米サンフランシスコに開設する。同社が旗を振るSparkは、果たしてビッグデータ処理の定番ソフトの座を獲得することになるのだろうか。(編集担当:久保田雄城)