Apache Hadoop
Apache Hadoopは大量のデータを処理するために分散ファイルシステムと分散処理基盤を提供するソフトウェアです。数千台のサーバーを束ねて一つの大規模クラスタを実現します。
GoogleのGoogle File SystemとMapReduceの論文をもとに旧Yahoo! Inc.で開発が始まり、2006年にApache Software FoundationのOSSとして最初のバージョンがリリースされました。現在も活発に開発が行われています。
当社では10年以上前からApache Hadoopを利用しており、今ではあらゆるサービスがHadoopを使って多種多様なログを分析してサービスの改善に取り組んでいます。最も大きなHadoopクラスタでは120PB以上のデータを保存しています。
HadoopのOSSコミュニティにも積極的に参加しており、コミッター(PMC)も在籍しています。コミュニティに投稿された最新のパッチを取り込んで社内のクラスタの機能を向上させたり、逆にコントリビューションをしてコミュニティを盛り上げることにも取り組んでいます。