ビッグデータを扱うための基盤環境として、「Apache Spark」に注目が集まっている。ビッグデータ処理ソフトの定番「Hadoop」の弱点を補う要望なソフトと位置づけられているのだ。IBMは、Sparkを「データ分野で今後10年間の最重要オープンソースソフトウエア」と位置づける。
ビッグデータを扱うための基盤環境として、「Apache Spark」に注目が集まっている。ビッグデータ処理ソフトの定番「Hadoop」の弱点を補う要望なソフトと位置づけられているのだ。
IBMは、Sparkを「データ分野で今後10年間の最重要オープンソースソフトウエア」と位置づける。6月15~17日に、サンフランシスコ市で開催されたユーザーカンファレンス「Spark Summit 2015」には、2000人ものユーザーが集まった。ここで、タクシー配車サービスの米ウーバー、民家をホテルとして貸し出す米Airbnb、トヨタ自動車〈7203〉の米国法人、中国BaiduなどがSparkの活用事例を発表した。また、Sparkを活用したビジネス変革の事例として、公共交通機関における輸送計画のリアルタイムスケジューリング(イスラエルのOptibus)、乗用車の走行・駐車や通勤状況などの分析(米Findability Sciences)などが挙げられている。
Sparkは、2009年にカリフォルニア大学バークレー校のAMPLab(Algorithms, Machines, and People Lab)で開発が始まり、13年にApacheソフトウェアファウンデーション(ASF)に寄贈され、14年5月に正式版「Spark 1.0」が公開された。
Sparkが期待を集める理由は何なのか。まず、高速分散処理で知られるHadoopを大きく上回る処理スピードが大きな売りとされている。インメモリ環境ではHadoopの100倍、ディスク環境でその10倍高速に処理できるという。
また、機械学習・グラフ処理・ストリーム処理など、ビッグデータ活用に必要な処理をライブラリとして提供するので、効率よくアプリの開発ができるとされている。
IBMは今後、各国の研究所に勤める3500人以上の研究者・開発者をSpark関連プロジェクトに配属し、Sparkテクノロジーセンターを米サンフランシスコに開設する。同社が旗を振るSparkは、果たしてビッグデータ処理の定番ソフトの座を獲得することになるのだろうか。(編集担当:久保田雄城)