<html dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" id="owaParaStyle"></style>
</head>
<body fpstyle="1" ocsi="0">
<div style="direction: ltr;font-family: Tahoma;color: #000000;font-size: 10pt;">
<div>Apologies if you receive multiple copies of this email.</div>
<div><br>
</div>
The paper deadline for FTXS 2013 has been extended to February 18th.  Please see the CFP below or at the workshop's web site: <a href="http://institute.lanl.gov/resilience/workshops/ftxs2013/" target="_blank">http://institute.lanl.gov/resilience/workshops/ftxs2013/</a>
<div><br>
</div>
<div>
<div style="font-family: Tahoma; font-size: 13px; ">CALL FOR PAPERS</div>
<div style="font-family: Tahoma; font-size: 13px; ">3nd International Workshop on </div>
<div style="font-family: Tahoma; font-size: 13px; ">Fault-Tolerance for HPC at Extreme Scale (FTXS 2013)</div>
<div style="font-family: Tahoma; font-size: 13px; "><br>
</div>
<div style="font-family: Tahoma; font-size: 13px; ">In conjunction with</div>
<div style="font-family: Tahoma; font-size: 13px; ">The 22nd International ACM Symposium on </div>
<div style="font-family: Tahoma; font-size: 13px; ">High Performance Parallel and Distributed Computing (HPDC 2013)</div>
<div style="font-family: Tahoma; font-size: 13px; ">New York City, New York, USA on June 17-21, 2013</div>
<div style="font-family: Tahoma; font-size: 13px; "><br>
</div>
<div style="font-family: Tahoma; font-size: 13px; ">WORKSHOP MOTIVATION</div>
<div style="font-family: Tahoma; font-size: 13px; ">For the HPC community, a new scaling in numbers of processing elements</div>
<div style="font-family: Tahoma; font-size: 13px; ">has superseded the historical trend of Moore's Law scaling in</div>
<div style="font-family: Tahoma; font-size: 13px; ">processor frequencies. This progression from single core to multi-core</div>
<div style="font-family: Tahoma; font-size: 13px; ">and many-core will be further complicated by the community's imminent</div>
<div style="font-family: Tahoma; font-size: 13px; ">migration from traditional homogeneous architectures to ones that are</div>
<div style="font-family: Tahoma; font-size: 13px; ">heterogeneous in nature. As a consequence of these trends, the HPC</div>
<div style="font-family: Tahoma; font-size: 13px; ">community is facing rapid increases in the number, variety, and</div>
<div style="font-family: Tahoma; font-size: 13px; ">complexity of components, and must thus overcome increases in</div>
<div style="font-family: Tahoma; font-size: 13px; ">aggregate fault rates, fault diversity, and complexity of isolating</div>
<div style="font-family: Tahoma; font-size: 13px; ">root cause.</div>
<div style="font-family: Tahoma; font-size: 13px; "><br>
</div>
<div style="font-family: Tahoma; font-size: 13px; ">Recent analyses demonstrate that HPC systems experience simultaneous</div>
<div style="font-family: Tahoma; font-size: 13px; ">(often correlated) failures. In addition, statistical analyses suggest</div>
<div style="font-family: Tahoma; font-size: 13px; ">that silent soft errors can not be ignored anymore, because the</div>
<div style="font-family: Tahoma; font-size: 13px; ">increase of components, memory size and data paths (including</div>
<div style="font-family: Tahoma; font-size: 13px; ">networks) make the probability of silent data corruption (SDC)</div>
<div style="font-family: Tahoma; font-size: 13px; ">non-negligible. The HPC community has serious concerns regarding this</div>
<div style="font-family: Tahoma; font-size: 13px; ">issue and application users are less confident that they can rely on a</div>
<div style="font-family: Tahoma; font-size: 13px; ">correct answer to their computations. Other studies have indicated a</div>
<div style="font-family: Tahoma; font-size: 13px; ">growing divergence between failure rates experienced by applications</div>
<div style="font-family: Tahoma; font-size: 13px; ">and rates seen by the system hardware and software. At Exascale, some</div>
<div style="font-family: Tahoma; font-size: 13px; ">scenarios project failure rates reaching one failure per hour. This</div>
<div style="font-family: Tahoma; font-size: 13px; ">conflicts with the current checkpointing approach to fault tolerance</div>
<div style="font-family: Tahoma; font-size: 13px; ">that requires up to 30 minutes to restart a parallel execution on the</div>
<div style="font-family: Tahoma; font-size: 13px; ">largest systems.  Lastly, stabilization periods for the largest</div>
<div style="font-family: Tahoma; font-size: 13px; ">systems are already significant, and the possibility that these could</div>
<div style="font-family: Tahoma; font-size: 13px; ">increase in length is of great concern.  During the Approaching</div>
<div style="font-family: Tahoma; font-size: 13px; ">Exascale report at SC11, DOE program managers identified resilience</div>
<div style="font-family: Tahoma; font-size: 13px; ">as a black swan - the most difficult under-addressed issue facing HPC.</div>
<div style="font-family: Tahoma; font-size: 13px; "><br>
</div>
<div style="font-family: Tahoma; font-size: 13px; ">OPEN QUESTIONS</div>
<div style="font-family: Tahoma; font-size: 13px; ">What does the fault-tolerance community need to do in order to be</div>
<div style="font-family: Tahoma; font-size: 13px; ">prepared to face the challenges of extreme scale computing? What is</div>
<div style="font-family: Tahoma; font-size: 13px; ">needed to keep applications with billions of threads of parallelism up</div>
<div style="font-family: Tahoma; font-size: 13px; ">and running on systems that fail tens of times per day? As models</div>
<div style="font-family: Tahoma; font-size: 13px; ">predict less than 50% efficiency of traditional checkpoint/restart</div>
<div style="font-family: Tahoma; font-size: 13px; ">methods on future systems, are we ready to pay the cost of full</div>
<div style="font-family: Tahoma; font-size: 13px; ">redundancy, effectively performing redundant multi-threading (RMT)</div>
<div style="font-family: Tahoma; font-size: 13px; ">across entire systems? Do we even have the infrastructure necessary to</div>
<div style="font-family: Tahoma; font-size: 13px; ">implement an RMT strategy?</div>
<div style="font-family: Tahoma; font-size: 13px; "><br>
</div>
<div style="font-family: Tahoma; font-size: 13px; ">How is the supercomputing community going to efficiently isolate</div>
<div style="font-family: Tahoma; font-size: 13px; ">failures on enormously complex systems? Is there any chance to</div>
<div style="font-family: Tahoma; font-size: 13px; ">understand these systems in such a way that some failure could be</div>
<div style="font-family: Tahoma; font-size: 13px; ">predicted with enough accuracy and anticipation to trigger useful</div>
<div style="font-family: Tahoma; font-size: 13px; ">failure avoidance actions? What can the community do to protect</div>
<div style="font-family: Tahoma; font-size: 13px; ">applications from SDC in memory and logic? How far the user and the</div>
<div style="font-family: Tahoma; font-size: 13px; ">programmer should be involved in managing faults? What are the most</div>
<div style="font-family: Tahoma; font-size: 13px; ">promising self-healing numerical methods?</div>
<div style="font-family: Tahoma; font-size: 13px; "><br>
</div>
<div style="font-family: Tahoma; font-size: 13px; ">GOALS</div>
<div style="font-family: Tahoma; font-size: 13px; ">The goals of this workshop are to consider these complex questions, to</div>
<div style="font-family: Tahoma; font-size: 13px; ">discuss the unique limitations that extreme scale and complexity</div>
<div style="font-family: Tahoma; font-size: 13px; ">impose on traditional methods of fault-tolerance, and to explore new</div>
<div style="font-family: Tahoma; font-size: 13px; ">strategies for dealing with those challenges.</div>
<div style="font-family: Tahoma; font-size: 13px; "><br>
</div>
<div style="font-family: Tahoma; font-size: 13px; ">PAPER SUBMISSIONS</div>
<div style="font-family: Tahoma; font-size: 13px; ">Submissions are solicited in the following categories:</div>
<div style="font-family: Tahoma; font-size: 13px; ">* Regular papers presenting innovative ideas improving the state of the art.</div>
<div style="font-family: Tahoma; font-size: 13px; ">* Experience papers discussing the issues seen on existing extreme-scale</div>
<div style="font-family: Tahoma; font-size: 13px; "> systems, including some form of analysis and evaluation.</div>
<div style="font-family: Tahoma; font-size: 13px; ">* Extended abstracts proposing disruptive ideas in the field,</div>
<div style="font-family: Tahoma; font-size: 13px; "> including some form of preliminary results</div>
<div style="font-family: Tahoma; font-size: 13px; "><br>
</div>
<div style="font-family: Tahoma; font-size: 13px; ">Submissions shall be sent electronically, must conform to IEEE</div>
<div style="font-family: Tahoma; font-size: 13px; ">conference proceedings style and should not exceed eight pages including</div>
<div style="font-family: Tahoma; font-size: 13px; ">all text, appendices, and figures.</div>
<div style="font-family: Tahoma; font-size: 13px; "><br>
</div>
<div style="font-family: Tahoma; font-size: 13px; ">TOPICS</div>
<div style="font-family: Tahoma; font-size: 13px; ">Assuming hardware and software errors will be inescapable at extreme</div>
<div style="font-family: Tahoma; font-size: 13px; ">scale, this workshop will consider aspects of fault tolerance peculiar</div>
<div style="font-family: Tahoma; font-size: 13px; ">to extreme scale that include, but are not limited to:</div>
<div style="font-family: Tahoma; font-size: 13px; ">* Quantitative assessments of cost in terms of power, performance, and</div>
<div style="font-family: Tahoma; font-size: 13px; "> resource impacts of fault-tolerant techniques, such as checkpoint</div>
<div style="font-family: Tahoma; font-size: 13px; "> restart, that are redundant in space, time or information</div>
<div style="font-family: Tahoma; font-size: 13px; ">* Novel fault-tolerance techniques and implementations of emerging</div>
<div style="font-family: Tahoma; font-size: 13px; "> hardware and software technologies that guard against silent data</div>
<div style="font-family: Tahoma; font-size: 13px; "> corruption (SDC) in memory, logic, and storage and provide</div>
<div style="font-family: Tahoma; font-size: 13px; "> end-to-end data integrity for running applications; Studies of</div>
<div style="font-family: Tahoma; font-size: 13px; "> hardware / software tradeoffs in error detection, failure</div>
<div style="font-family: Tahoma; font-size: 13px; "> prediction, error preemption, and recovery</div>
<div style="font-family: Tahoma; font-size: 13px; ">* Advances in monitoring, analysis, and control of highly complex systems</div>
<div style="font-family: Tahoma; font-size: 13px; ">* Highly scalable fault-tolerant programming models</div>
<div style="font-family: Tahoma; font-size: 13px; ">* Metrics and standards for measuring, improving and enforcing the</div>
<div style="font-family: Tahoma; font-size: 13px; "> need for and effectiveness of fault-tolerance</div>
<div style="font-family: Tahoma; font-size: 13px; ">* Failure modeling and scalable methods of reliability, availability,</div>
<div style="font-family: Tahoma; font-size: 13px; "> performability and failure prediction for fault-tolerant HPC</div>
<div style="font-family: Tahoma; font-size: 13px; "> systems</div>
<div style="font-family: Tahoma; font-size: 13px; ">* Scalable Byzantine fault tolerance and security from single-fault</div>
<div style="font-family: Tahoma; font-size: 13px; "> and fail-silent violations</div>
<div style="font-family: Tahoma; font-size: 13px; ">* Benchmarks and experimental environments, including fault-injection</div>
<div style="font-family: Tahoma; font-size: 13px; "> and accelerated lifetime testing, for evaluating performance of</div>
<div style="font-family: Tahoma; font-size: 13px; "> resilience techniques under stress</div>
<div style="font-family: Tahoma; font-size: 13px; "><br>
</div>
<div style="font-family: Tahoma; font-size: 13px; ">IMPORTANT DATES</div>
<div style="font-family: Tahoma; font-size: 13px; ">Submission of papers: February 11th, 2013</div>
<div style="font-family: Tahoma; font-size: 13px; ">Author notification: March 18th, 2013</div>
<div style="font-family: Tahoma; font-size: 13px; ">Camera ready papers: April 15th, 2013</div>
<div style="font-family: Tahoma; font-size: 13px; ">Workshop: June 17th or June 18th, 2013</div>
<div style="font-family: Tahoma; font-size: 13px; "><br>
</div>
<div style="font-family: Tahoma; font-size: 13px; ">WORKSHOP ORGANIZERS</div>
<div style="font-family: Tahoma; font-size: 13px; ">Nathan DeBardeleben - Los Alamos National Laboratory</div>
<div style="font-family: Tahoma; font-size: 13px; ">Jon Stearley - Sandia National Laboratories</div>
<div style="font-family: Tahoma; font-size: 13px; ">Franck Cappello - INRIA & University of Illinois at Urbana Champaign</div>
<div style="font-family: Tahoma; font-size: 13px; "><br>
</div>
<div style="font-family: Tahoma; font-size: 13px; ">PROGRAM COMMITTEE</div>
<div style="font-family: Tahoma; font-size: 13px; ">Rob Aulwes - Los Alamos National Laboratory</div>
<div style="font-family: Tahoma; font-size: 13px; ">Clayton Chandler - Department of Defense</div>
<div style="font-family: Tahoma; font-size: 13px; ">Robert Clay - Sandia National Laboratories</div>
<div style="font-family: Tahoma; font-size: 13px; ">John Daly - Department of Defense </div>
<div style="font-family: Tahoma; font-size: 13px; ">Christian Engelmann - Oak Ridge National Laboratory</div>
<div style="font-family: Tahoma; font-size: 13px; ">Felix Salfner - SAP Innovation Center Potsdam </div>
<div style="font-family: Tahoma; font-size: 13px; ">Kurt Ferreira - Sandia National Laboratories</div>
<div style="font-family: Tahoma; font-size: 13px; ">Ana Gainaru - University of Illinois at Urbana-Champaign</div>
<div style="font-family: Tahoma; font-size: 13px; ">Leonardo Bautista Gomez - Tokyo Institute of Technology</div>
<div style="font-family: Tahoma; font-size: 13px; ">Hideyuki Jitsumoto - The University of Tokyo</div>
<div style="font-family: Tahoma; font-size: 13px; ">Rakesh Kumar - University of Illinois, Urbana-Champaign </div>
<div style="font-family: Tahoma; font-size: 13px; ">Zhiling Lan - Illinois Institute of Technology</div>
<div style="font-family: Tahoma; font-size: 13px; ">Naoya Maruyama - Tokyo Institute of Technology</div>
<div style="font-family: Tahoma; font-size: 13px; ">Kathryn Mohror - Lawrence Livermore National Laboratory</div>
<div style="font-family: Tahoma; font-size: 13px; ">Rolf Riesen - IBM Research - Ireland</div>
<div style="font-family: Tahoma; font-size: 13px; ">Yve Robert - ENS Lyon<span class="Apple-tab-span" style="white-space: pre; "></span></div>
<div style="font-family: Tahoma; font-size: 13px; "><br>
</div>
<div style="font-family: Tahoma; font-size: 13px; ">See <a href="http://institute.lanl.gov/resilience/workshops/ftxs2013/" target="_blank">http://institute.lanl.gov/resilience/workshops/ftxs2013/</a> for </div>
<div style="font-family: Tahoma; font-size: 13px; ">more information.</div>
<div>
<div class="BodyFragment"></div>
</div>
</div>
</div>
</body>
</html>