http://www.fusionio.com/white-papers/amadeus-sas-specialists-prove-iomemory-a-superior-
analysis-accelerator/ のwhite paperより引用翻訳
ちなみにAmadeus社様からも同様のwhite paperが発行されています。
http://www.amadeus.co.uk/_assets/files/Solving-Performance-Problems-in-the-SAS-Environment-
with-SSD.pdf
SAS使いとか統計関連アプリのじゃないとこの文章???のオンパレードで何が何だかって感じかもしれません。
所々注釈やら参考URLを付加してありますが・・・
SAS導入のスペシャリストであるAmadeus(英)はioMemoryが最も優れた分析加速装置である事実証
*加速装置!という言葉を使いたい41歳世代です。サイボーグ009って知りませんかねぇ…
SAS導入パートナー、ioDriveをSSD、ローカルストレージと比較、ioDriveが両者を遥かに秀でている事を確認
エグゼクティブ・サマリー
データボリュームの永続的な増加により、SAS運用環境のパフォーマンス劣化が大きな問題となっています。
しばしば、ストレージ内のデータを読み書きする際の、HDD IOがパフォーマンス劣化の最大要因です。
SAS 9 Preferred Implementation Partnerである、Amadeus Software社は様々なニーズに応えられるようにSASのソリューションをデザインします。
Amadeus社はデータをFusion-io社 ioDrive上、SSDアレー上、ハードディスク上に置き、I/O waitの時間を削減し、実行アプリケーションであるSASのパフォーマンスを改
善するための各メディアの有効性をテストしました。
Amadeus Software社はMicrosoft Windows Server 2008 R2 (x64) サーバーで試験したSASのジョブ経過時間は、Fusion-io社
ioDriveを利用した場合、ハードディスク環境と比較して平均58%削減、SSDアレーと比較して、38%改善出来る事を観測。ioDriveを利用する事で、物理的なディスク(HDD)と比
較して個別のプロシージャーステップのピークが5倍以上のパフォーマンス改善を示す事を理解しました。
Overview
組織・企業によって蓄積されるデータ量は、指数関数的に肥大化し、ジョブのワークロードを増加させています。同時にSASのユーザーは拡張されたソフトウェアの機能を利用しており、これによりジョブ
はさらに複雑になります。それと同時に結果を素早く出す事が必要とされます。
伝統的なSASのシステムにおいて第一の問題はSASのアプリケーションのパフォーマンスが悪いことではなく、SAS利用下のCPU生産性ユーティライゼーションを維持するのに必要なI/Oを、ハード
ディスクではコストパフォーマンス良く供給する事が出来ない事にあります。
NAND flash技術の発生によって桁違いに高速なI/Oパフォーマンスが実現していますが、市場には異なるアプローチが存在します。
Amadeus Software社は2つのsolid-state技術:FUsion-io社のフラッシュベースメモリーティアとSSDフラッシュアレーを比較しました。本テストの目的はアプリケーション
のスループットを改善するのに最も効果があるかを見極める事にあります。以下に関してのトピックに関して触れています。
Solid-state技術に関して
テストに関して
テスト結果
Solid-state 技術に関して:
Fusion ioDrives
NAND flashをハードディスクライクに扱うアプローチとは異なり、Fusion-io社 ioDriveはレイテンシー(ストレージとアプリケーションの距離)を最小化する事によってCPU有効利
用率を最大化する事を目指しています。ioDriveにおけるVirtual Storage Layer (VSL)はデバイス上のNANDロケーションに直接アプリケーションブロックリクエストをマッ
プしますが、この方法はメモリーのページテーブルでのデータアクセスの方法と類似しています。ゴールはアプリケーションのスループットを最高レベルに実行する事にあります。
これは、ディスクフォームファクターを持つSSDにありがちなストレージプロトコルおよびオンボードプロセッシングのオーバーヘッドとバンドワイズ・同様に、レイテンシーを積み増し、I/Oを待つ事により、スレ
ッドやコンテキストを管理するためにCPUリソースを転用してしまう、深いキューの限界を取り除く事によって実現します。
Flash-based Storage Array
第2のsolid-stateの技術をsolid-state technology Bとして定義します。これにはSATA(serial ATA)ポート経由でサーバーに接続されるフラッシュベース
のストレージアレーを含みます。このデバイスのアプローチはSATAディスクを模倣し、アレー内の複数のSSDからパフォーマンスを集めます。
ハードディスク
Amadeus Software社はserver、NAS、SANで用いられるハードディスクとの比較テストも実施しました。
About the Tests
Amadeus社のテストは典型的なSASのプログラミングタスクを実施している。Amadeus社は同じ種類のテストをインディペンデントバッチSASセッションで3回実施し、結果には平均値を用い
ている。
Amadeus社は様々なデータ及びPROCステップによってデータセットを操作する複数のSASプログラムを作成した。
PROCステップってなあに?と言う方は・・・
http://sas.mathlab.info/step.html
を見てご確認下さい。
Amadeus Technology社は様々なデータセットサイズ、シングルSASセッション、同時実行SASセッションでそれぞれのプログラムを実行した。
上記データには、文字列と数値データを均等に分布させた変数を含む0.5GB, 1GB, 5GB, and 10GBのテーブルサイズから成るデータを用いている。
文字列変数は255文字のランダムに並べられたアルファベットで形成され、数値変数(8 byte)は0−100の乱数が含まれる。
それぞれのSASプログラムはシングルスレッド、複数スレッドのプロシージャーが含まれた。
マルチスレッドプロシージャーはProc SORT, Proc SQL, Proc SUMMARY, and Proc TABULATE、SAS compression未使用。
SAS indexは利用時、非利用時で双方テストしている。
プログラム内の各プロセスの記述概略を以下に示す:
• データステップは既存のデータセットから読み込まれた。indexファンクションによって、各文字変数から一連の文字列を探した。その後、結果はワークライブラリー内の新しいデータセットに出力された。
• Proc SORTはオリジナルのテーブルから読み込み、変数ごとにテーブルを並び替え、ワークライブラリーの新しいテーブルに出力する。
• Proc SQLはオリジナルのテーブルから読み込み。テーブルは変数によって並び替えられた。プログラムは全変数を選択し、ワークライブラリーに書き出される新しいテーブルに配置された。
• Proc TABULATEではクロス集計を作成した。2つのクラス変数によって分類し、数値変数の平均値を計算した。結果はワークライブラリーのアウトプットデータセットに記録された。
• Proc SUMMARYはオリジナルのテーブルからデータを読み込み、サマリー統計を行い、結果データセットをアウトプットウィンドウ及びワークライブラリーの新しいテーブルににプリントしました。
• Proc TRANSPOSEではデータをオリジナルデータセット内のデータを読み込み、行列を入れ替えて、ワークライブラリーに新しいデータセットを作成しました。
• 最後にProc CORRではオリジナルのデータセットからデータを読み全数値カラムに対してピアソンの積率相関係数を計算し、ワークライブラリーに新しいデータセットマトリクスを出力しました。
ピアソンの積率相関係数に関しては以下を参照下さい。
http://www.weblio.jp/content/%E3%83%94%E3%82%A2%E3%82%BD%E3%83%B3%E3%81%AE%E7%A9%8D%E7%8E%87%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0
テスト時の利用システム構成
テストサーバー: 8 CPU cores, 32GB RAM
OS: Windows 2008 R2 (x64)
アプリケーション: SAS 9.2 (TS1M0)
テスト結果
以下のTable1はioDrive、SSDアレー、伝統的な物理ディスク(HDD)のパフォーマンスサマリーです。
これらは、150文字の文字変数、及び150の8バイトの数値変数を含む10Gのインプットデータセット、非圧縮のテーブルを用いて行ったテスト結果。
全般的にFusion-io社のioDriveはメカニカルなデバイスと比較して58%効率的であり、SSDアレー(Solid-state Technology B)と比較して38%高速である事が理解できた
SAS Configuration | Real Time (seconds) | Performance Increase (%) vs. Mechanical disks |
Fusion-io | Solid-state Technology B | Mechanical | Fusion-io | Solid-state Technology B |
|---|
Default Settings | 274.17 | 633.07 | 742.28 | 63% | 15% |
BUFSIZE 512k BUFNO 4k NOSGIO | 185.93 | 208.83 | 421.85 | 56% | 50% |
BUFSIZE 256k BUFNO 1k SGIO | 287.03 | 346.28 | 505.34 | 43% | 31% |
BUFSIZE 512k BUFNO 4k SGIO | 275.41 | 322.12 | 599.51 | 54% | 46% |
2x Concurrent Programs
BUFSIZE 512k BUFNO 4k NOSGIO | 330.42 | 544.42 | 825.47 | 60% | 34% |
2x Concurrent Programs BUFSIZE 512k BUFNO 4k SGIO | 319.87 | 381.12 | 862.56 | 63% | 56% |
Total real time | 1,673.1s | 2,435.84s | 3,957.01s | 58% | 38% |
図1 SASプログラムを同時に2つ実行している際のデータ転送速度。BUFSIZEは512k,BUFNO 4KかつSGIOは有効に設定時。
このパターンは観察された結果においてし最頻の物であった。

Amadeus SOftwareによるパフォーマンスモニター結果で、ioDriveはその他のデバイスに比較して、安定して高いI/Oスループットを実現している事が分かった。
I/Oが高い事はCPU有効利用率を向上させ、処理時間を短縮する事に繋がる。
その他チューニングガイドTIPS及び見解
Bandwidth Testing
テスト時最大のバンド幅を出したデバイスはioDriveであり、1サーバーあたり、5並列でSASセッションを実行した際、4GB/Sであった。(SASセッションはそれぞれ10GBのインプットデータセット)。Solid-state Technology B 及び ハードディスクはそれぞれ、ピーク時で2.5GB/S、2GB/Sだった。加えて、ioDriveは安定して高いバンド幅を達成した。SSDアレー及びハードディスクは高数値を出すのは瞬間的であり、不安定であった。このパターンはFigure1(図1で明確に理解できる)
2GBを超えた際の最適な設定に関して
BUFNO 及び BUFSIZEオプションを調整することで、2GBを超えたSASデータセット実行完了の時間は改善された。大きなSASデータセットはプログラム内でステップを完了するために大容量のメモリーを必要とする事は特筆に価する。Amadeus社はSGIをONにする事で必要とされるメモリーを大幅に削減出来る事を発見した。
シングルプログラムの実行時の最適な設定に関して
シングルのプログラムを実行する場合、以下のような設定が最速であった。
SGIO: OFF
BUFSIZE: 512K
BUFNO: 4K
しかし、前述のとおり、この設定では非常に大容量なメモリーが必要となる
複数のプログラムを並列実行した場合の最適な設定に関して
複数のSASセッションを並列に実行する場合、最良の結果は以下のような設定下で実現できた。
SGIO: ON
BUFSIZE: 512K
BUFNO: 4K
SGIOをオフにする事で、Amadeus Software社はSASセッションに割り当てられる事が出来るメモリーを使い果たしてしまう事は注目に値する。
これが故に、Amadeus社は通常のパフォーマンスモニタリングを推奨している。これによってとSAS実行環境で使われるSASシステムオプションと値を最適にする事が出来る。
それぞれ10GBのインプットデータセットを利用した5つのプログラムを並列実行した場合でもioDriveはSolid-state Technology Bに比較して30%高速であった。物理ディスク(HDD)では性能が足りず、この設定でのテストを完了する事が出来なかった。
この設定でのテストを行った際、Amadeus Software社はioDriveが最大のスループットが4GB/S出ている事を観察した。Solid-state Technology Bはピーク時でも0.8GB/Sであった。ioDriveを利用した場合、物理ディスクと比較して、それぞれのプロシージャーステップは5倍のパフォーマンスが出ている事を観察した。
結論:
結果を見て明らかなのですが、Fusion-io社のioDriveが一番有効なソリッドステート技術であり、物理的なハードディスク、競合となるsolid-state技術を遥かに凌駕するパフォーマンスを出す事が理解できます。Amadeus Software社はioDriveを利用する事で十分に設定されたSAS環境下で、SASの同時セッションを実行した場合、ジョブの実行時間を3分の2削減する事が分かりました。シングルでのSASセッションを含んだ実行時間の平均で、Amadeus Software社はSASのジョブを完了する実行時間が平均58%削減出来た事を報告しています。
*同時に並列のjobを5回すと、HDD環境では分析が完了しないというお話も前の方に記載されていますよね。
ioDriveに対するROIは以下の項目に置いて測定する事が出来る:
-より強力なSASシステムを構築し、より多くのジョブを(同時)、より複雑なジョブをより高速に実行する事が出来る
-物理的なインフラを削減。より多くのジョブを並列実行出来るようになる事で、SASサーバーのワークロード及び有効利用率を向上させる事が出来る。
加えて、(消費電力、冷却コスト等が削減される事による)環境対策コストの削減も実現出来る
-Bストレージ購入量を削減可能。ioDriveは各サーバー毎に数テラバイトのデータを保持する事が可能であり、このことは旧来のNASやSANを保有するのに必要であったサー
バールームにおける物理デバイスを削減する事を可能にする。
-スペース及びストレージの再生、エネルギーコストの削減。アクティブデータをSASサーバーに格納することによって、SANやNASディスクアレーは他の用途に転用する事が出来る。
ストライピングされたディスクアレーからなるシェルフ用のスペースを削減する事が出来、電力及び冷却に必要なエネルギー総量を削減する事が可能。
結論
ネクストステップ(日本では関係無いのですが、ホワイトペーパーを作成いただいた事に敬意を表して翻訳)
もし大ボリュームのデータを処理しながら、実行時間を短縮するというメリットを受けたいとお思いでしたら、Amadeus社にioDrive*が御社のSASインフラにもたらすメリットを評価してみたいと
お問い合わせ下さい。Amadeus社のコンサルタントはSASの専門家集団であり、彼らはSASしか使っていません。**インテリジェントプラットフォーム向け第4世代プログラミング言語から業界ソリ
ューションに至るまで、Amadeus社はSASソフトを利用するために皆様を支援する事の出来る最適な組織です。*
*原文ではSSDになっていますが…勝手に修正!
*確かSASからもRを制御出来るようになったはずなのですけど…それはさておきw
*日本にオフィスが無いので、困りました。
Amadeus社に関して
Amadeus Software Limited、設立1989。Business Intelligence Solutionsを提供しております。全産業に及びSASプロジェクトのデリバリーの
ためのSAS 9 Preferred Implementation Partnerの一社です。
ファーストクラスソリューション、無類のテクニカルサポート、分かりやすく実践的なトレーニングを提供する事で高い評価を得ております。
*とは言え、日本には支社無いみたいですけど。
補足情報
Amadeus社に関しては http://www.amadeus.co.uk/about-us/ を参照下さい。
SAS instituteでの紹介文
http://www.sas.com/ctx/partners/partner.jsp?partid=43
SAS AllianceにおけるSilver Partnerさんです。
日本国内のパートナーさんたちの一覧はこちら
http://www.sas.com/offices/asiapacific/japan/partner/member.html
GlobalでのSASパートナーさん一覧は以下。結構な数がいらっしゃいますね。
http://www.sas.com/ctx/partners/all.jsp
Amadeusを選ぶ理由
Amadeus社はSASコンサルティングからサポート及びトレーニングに至るまでのエンドツーエンドなSASサービスを提供しています。
アプローチはフレキシブル、誠実かつオープンです。SASプロジェクトにおける数多くの成功事例はお客様に高いROIをもたらしています。
連絡先:
Phone: +44 (0) 1993 848010
Email: info [@] amadeus.co.uk
Onlineコンタクトフォーム: www.amadeus.co.uk/contact-us
住所: Mulberry House,9 Church Green Witney,Oxfordshire,OX28 4AZ,England
Fusion-io について
Fusion-ioは 次世代のストレージメモリープラットフォームのパイオニアです。非常に重要なアクティブデータを計算処理実行箇所であるCPUに 近接させる事で、このストレージメモリープラッ
トフォームは、データセンター内のデータ処理能力は飛躍的に向上します。”shared data decentralization”と 呼ばれる、本手法により、データセンターの性能を向上させ
つつ、レイテンシーの激減を実現します。Fusion-ioは 不揮発性メモリーをエンタープライズクラスのパフォーマンス、信頼性、能力で利用いただき、かつ管理いただけるよう、ハードウェ アとソフ
トウェアを統合したソリューションを提供しております。