NSFのプロジェクトがスーパーコンピュータの信頼性向上を模索する
パデュー大学のSaurabh Bagchi教授が率いる全米科学財団が出資するプロジェクトが、パデューのRiceクラスタ、国立スーパーコンピュータ応用研究所(NCSA)のBlue Waters、および研究用の他のスーパーコンピュータを、ハイエンド・システムをさらに信頼性を上げる方法を探すために利用している。

このプロジェクトの詳細い関する記事が下記の概要と共にパデューに投稿されている。研究および産業の両方におけるスーパーコンピューティングの利用の拡大を考えると、このプロジェクトが、使い易さを向上させ、共通のコードの問題を特定し、問題と解くためのアプローチを開発することが期待されている。抜粋:
「・・・このプロジェクトはスーパーコンピュータから使用状況や障害データのリポジトリを構築しており、ユーザのコードをもっと効率的に信頼度が高く実行して、もっと速く結果を得られるように研究者を助けるために分析に利用されます。パデューの研究コンピューティングのスタッフはすでにパデューのクラスタ・ユーザを支援するためのものを探し出しています。」
![]() |
「データはこの中で王様なのです。」とパデューの電気・コンピュータ工学の教授であるBagchiは語っている。「私は何が本当の問題であるかという考えを持ったソリューションを構築したいと思っていますし、本当のコンピュータ・システムでは障害データを見つけることがとてもとても難しいことがわかりました。このプロジェクトはそのような状況の改善に向けて進んでいるのです。」
「・・・Bagchiの研究はハイパフォーマンス・コンピューティング・クラスタのような異機種分散コンピューティングシステムをより信頼性が高くセキュアにするためのソフトウェア・システムにフォーカスしています。2014年に設置されたパデューのConteクラスタからのデータをパイロットとして収集して解析することで、使用状況と障害データのプロジェクトを開始しました。このパイロットの成功でNSFはプロジェクトを拡大させました。現在はConte、パデューのRiceクラスタおよびパデューの他のクラスタ、そしてBlue Watersが含まれてるのです。」
この記事の完全版へのリンクはこちら。http://www.itap.purdue.edu/newsroom/news/150813_communityclusters_usefailresearch.html