集中化研究データ保管と共有の青写真
Becky Yeager, Thomas Hauser, Peter Ruprecht, and Dan Milroy, University of Colorado, Boulder

コロラド州立大学ボールダー校のPetaLibraryストレージシステムは、研究者が直面している大規模データストレージおよびデータ管理に関する増大する課題に対処するために、大学(CU)の研究コンピューティング(RC)によって最近展開された。部分的に全米科学財団によって資金を供給されているPetaLibraryは、高性能な短期間保存、長期間アーカイブストレージ、およびCUボールダー校または全国規模の共同研究者との間でデータを共有する機能などを含んでおり、キャンパス内の研究者に様々なサービスを提供している。
PetaLibraryは
拡張可能なモジュール式ハードウェア設計を使用しており、数ペタバイトのデータ•ストレージを提供している。現在、十数の研究グループがPetaLibraryシステム上の100テラバイトを超すデータを利用している。
人文から生物学に至るまでの分野の研究者やデータ科学者だけでなく、コロラド州立大学ボールダー校図書館(CUボールダー図書館)もPetaLibraryストレージサービスを使用している。これらの研究者すべてが共通して持っていることは、大規模かつ低コストのデータストレージを必要としていることだ。 PetaLibraryの使用量は今後数ヶ月で倍増すると予想されている。
PetaLibraryの顧客に提供されるサービスの2つの主なカテゴリは、頻繁にアクセスが必要なデータ用のアクティブ・ストレージと、頻繁には使用しないデータ用のアーカイブ・ストレージだ。
アクティブ・データは常にディスク上に保管されており、RCによって管理される演算資源上で研究者がアクセス可能だ。アーカイブ・ストレージは2階層のストレージ管理(HSM)ソリューションから構成されており、アクセス可能性が高いデータ用のディスク・ストレージと、アクセス頻度が低いと思われるデータ用のテープだ。HSMの構成は、ディスクとテープの間の自動転送を可能にするためのコスト効果の高いソリューションを生成するように、RCとRe-Store LLCのコンサルタントとの共同で開発された。重要性を保証するデータのために、レプリケーションを異なるテープカートリッジや遠隔地データセンターのディスクベースのストレージシステムにまで保管できる複数コピーオプションが用意されている。
PetaLibrary用のディスクストレージは、拡張性の高い高密度DDN SFA10KとIBM DCS3700 RAID- 6のシステム上に存在している。これらは、高性能と高信頼性のGPFSクラスタにグループ化されている。テープストレージシステムは、 4 台のLTO- 6ドライブを搭載したIBM TS- 3584ライブラリで構成されている。我々はテープへのデータ移動にはTivoli Storage Managerを使用している。TSMのHSMモジュールに加えて複数のカスタムスクリプトによって、 GPFSファイルシステムとテープ•ストレージ間のポリシー•ベースのファイルの移行を可能にしている。
独自の大規模ストレージは、関連するネットワーク基盤が大量データ転送を念頭において設計されている場合にのみ有用である。そのため、CUの情報技術事務所との協調の中で、RCはNSF CC-NIEグラントの助成を受けたScienceDMZを展開している。この科学ネットワークのコアは、80Gbpsの性能があり、PetaLibrary上のデータをセキュアな高性能ファイル転送プログラムを介してアクセスする。
高速な科学ネットワークによって、データを簡単に検索することができ、各研究者のデスクトップに直接送信することができる。ウェブ媒介転送を容易にするためにPetaLibraryはGlobusの提供するツールを利用している。Globusはインターネット接続とノートパソコンを持つ研究者がアクセス可能な高価な特殊用途のソフトウェア•システム上で、伝統的に利用可能な堅牢なファイル転送機能を行う。また、オンおよびオフ・キャンパスの両方の共同研究者の間でのデータ共有が容易になる。現在ScienceDMZは、レイヤー2ネットワーク専用の10Gbpsイーサネットであり、RCによってCUボールダー校のキャンパス・コミュニティーに対し提供されるいくつものデータ転送サービス用の重要な基盤としてサービスされている。ScienceDMZのNSFの資金による改善は、100GbpsでOpenFlow機能を持つボーダールータへのアップグレード、最大80GbpsのDMZコア、性能監視、およびセキュリティ監視が含まれている。
PetaLibraryのクライアントは、これまでに受けたサービスに満足している。 CU-ボールダー校図書館は、PetaLibraryサービスの早期導入の一つであった。大規模ユーザのひとつとして、 CU-ボールダー図書館は、研究と学習のために様々なメディアタイプのデジタルコレクションを構築するためPetaLibraryを使用している。
デジタルイニシアティブ図書館員のHolley Longによると、「 CU-ボールダー図書館は全国的に認められたアーカイブの基準による、オーディオ、ビデオ、画像、テキスト、およびまもなく3Dオブジェクトをデジタル化します。」
しばしばデジタル化さらたビデオで時間あたり126GBのサイズがある、非圧縮ファイルの初期サイズのために、大規模ストレージはこれらのプロジェクトに重要だ。2014年における図書館のデジタルコレクションの推定生産能力は80 TBを超える可能性がある。
(https://content.cu.edu/digitallibrary/cuAuraria.html)
コロラド大学自然史博物館は彼らの全体のコレクションのデジタル化されたコピーを保存するためにPetaLibraryが提供するサービスを使用している。コレクションには、最も古い文書化されたナバホの織物、エイケン鳥のコレクション、およびコロラド最大のハチのコレクションが各オブジェクトに関連付けられたメタデータの450万オブジェクトが含まれている。各個別のオブジェクトのメタデータは、誰が発見したか、どこで発見したか、いつ位置付けられたか、それが何か、およびどのような外見かの写真のノートを含んでいる。博物館内のすべてのオブジェクトは、その複雑なメタデータとの関係で見た時に見えてくる、独自の興味深い裏話を持っている。我々は現在デジタル時代に住んでいるので、博物館は彼らの展示を民主化しようとしている 。(http://cumuseum.colorado.edu/research/databases) これは博物館へのすべての訪問者は、その全体のコレクションをデジタル形式で見る機会を持つことを意味する。
デジタル的に彼らのコレクション全体を保存することができれば、両方の長所を博物館が提供できる。自然史博物館のディレクターPat Kociolek は、彼らのアーカイブにPetaLibraryの重要性を述べている、「これは博物館に、デジタル化の夢を実現する機会を提供しています。訪問者は物理的に個々の項目を見ることができますし、私たちの仕事が完了した暁には、訪問者がオンラインでもコレクション全体にアクセスできるようになります。デジタルコレクションは、遠隔地の教師、科学者、学生などの訪問者に、博物館を訪れることができなくてもコレクションをブラウズする機会をもたらすのです。」 博物館のデータのニーズは100 TB以上に達したとして、彼らはもはやローカルストレージリソースに頼ることができなくなった。 PetaLibraryは、博物館のスタッフがそれらをアーカイブし、安全に保管するための重要なリソースとなっており、それらのデジタル・リソースは構成要素のすべてを提供するための手段として開発されている。キャンパス内に集中的な機能としてPetaLibraryは、これらの項目を保存し、広くそれらを共有するために必要なセキュリティを博物館に提供することができる。
CU-ボールダー校のキャンパスで研究者は、このようなデジタル•ヒューマニティーズ、シミュレーション研究、地球規模の気候モデリングなど様々な分野での大量のデータを作っている。キャンパス内の研究者は、このデータを保存し、他の人にデータにアクセスできるようにする方法を必要としている。
透明性と他とデータとリソースを共有する機能は、どの研究計画でも重要な部分である。
PetaLibraryはこのデータを統合するための集中場所と、Globus接続サーバを介して他とこのデータを共有する手段をキャンパスに提供している。
PetaLibraryはキャンパスで進化するデータ管理エコシステムの重要な部分だ。これは、研究者がキャンパス内および国内でストレージにデータを入出力するための高速ネットワークを利用できるようにしている。Globusのソフトウェアスイートは、簡単にデータセットを転送したり、共同研究者と安全に共有できるようにしている。一般的に研究者がデータを保管するのは、ラボ内のPCまたはUSB接続されたドライブ上だ。PetaLibraryは、対照的に、エンタープライズ•ストレージ•システムのセキュリティを、環境とアクセスが制御されたデータセンターの冗長化ディスクアレイによって提供しており、
それをNSFの助成金の補助金によって比較可能なコストで行っている。
PetaLibraryの将来のビジョンは、システムのストレージ機能を拡張し、メタデータ管理およびデータ•ディスカバリを支援するツールを有効にし、パブリックに置かれたデータポータルでキャンパスにおける共有オプションを拡張することだ。PetaLibraryは重要な新しいサービスで、いかに研究データの課題に対処するかのキャンパスでの議論の最前線にあり、現在のキャンパスの研究ニーズとこれらの分野における予測される増大に対処することを支援している。新しく作られた学部委員会は、Data Curation、メタデータ管理、およびデータ管理計画を含む追加のサービスを研究者に対しいかに合理的で持続可能なコストで提供するか議論している。