Google Scalability Conference メモ

http://www.25hoursaday.com/weblog/2007/06/25/GoogleScalabilityConferenceTripReportMapReduceBigTableAndOtherDistributedSystemAbstractionsForHandlingLargeDatasets.aspx

200のGFS(GogleFileSystem)クラスタと5000のマシンがあって、5ペタ(10^15)バイトのデータを格納し、40GBytes/Secのスループットを出してる。

超でかいデータ列を取り扱ったりするときに便利なインタフェイスがMapReduce

BigTableはGFSなどの下位にあってストレージを支える重要な低位レイヤで、ほとんどのアプリケーションがその恩恵を蒙ってる。

  • 現在行っているチャレンジ
    • support for geo-distributed clusters 地理的に離れた遠隔クラスタシステム
    • single global namespace for all data since currently data is segregated by cluster クラスタによって分離されるグローバルな単一の名前空間
    • more and better automated migration of data and computation より自動化されたデータと演算処理の移行機能
    • lots of consistency issues when you couple wide area replication with network partitioning - 一貫性のある同期と分離機構