
字词转换是中文维基的一项自动转换,目的是通过计算机程序自动消除繁简、地区词等不同用字模式的差异,以达到阅读方便。
字词转换包括全局转换和手动转换,本说明所使用的标题转换和全文转换技术,都属于手动转换。
超级计算机(Supercomputer),指在计算速度或容量上领先世界的电子计算机。它的体系设计和运作机制都与人们日常使用的个人电脑有很大区别。现有的超级计算机运算速度大都可以达到每秒兆(万亿,非百万)次以上。因此无论在运算力及速度都是全球顶尖。超级计算机第一次被使用是在媒体“纽约世界”于1920年关于万国商业机器为哥伦比亚大学建造制表机的报导。
1960年代,超级计算机由希穆尔·克雷在Control Data Corporation里设计出来并带领市场直到1970年代克雷创立自己的公司克雷研究。凭着他的新设计,他控制了整个超级计算机市场,并占据颠峰位置长达五年(1985-1990)。到了1980年代,正值小型电脑市场萌芽阶段,大量小型对手加入竞争。在1990年代中叶,很多对手受不了市场的冲击而消声匿迹。今天,超级计算机成了一种由像国际商用机器公司及惠普等大型电脑公司所特意设计的电脑。虽然这些公司通过不断并购其他公司而增强了自己的经验,但除他们以外的元老公司——克雷研究——依然是超级计算机领域的巨头。
超级计算机一词并无明确定义,其含义随计算机业界的发展而发生变化。早期的控制数据公司机器可达十倍速于竞争对手,但仍然是比较原始的标量处理器。到了1970年代,大部分超级计算机就已经是矢量处理器了,很多是新晋者自行开发的廉价处理器来攻占市场。1980年代初期,业界开始转向大规模并行运算系统,这时的超级计算机由成千上万的普通处理器所组成。1980年代中叶,将适量的矢量处理器(一般由8个到16个不等)联合起来进行并行计算成为通用的方法。1990年代以后到21世纪初,超级计算机则主要由基于精简指令集(RISC)的处理器(譬如PowerPC或PA-RISC)互联进行并行计算而实行。
目录 |
分布式运算所用的软件包括一些标准的应用编程界面(如信息传递界面及并行虚拟机器)及开放源码软件(例如openMosix可以把很多普通的电脑联合成虚拟超级计算器)。
零设定技术方便了即兴建立电脑分布计算网络,而为超级计算机制作容易的编程语言仍然是运算科学的研究课题。
超级计算机常用于需要大量运算的工作,譬如天气预测、气候研究、运算化学、分子模型、物理模拟、密码分析等等。
超级计算机的创新设计在于把复杂的工作细分为可以同时处理的工作并分配于不同的处理器。他们在进行特定的运算方面表现突出,但在处理一般工作时却差强人意。他们的数据结构是经过精心设计来确保数据及指令及时送达——传递速度的细微差别可以导致运算能力的巨大差别。其输入/输出系统也有特殊设计来提供高带宽,但是这里的数据传输延迟却并不重要——超级计算机并非数据交换机。
根据Amdahl's law,超级计算机的设计都集中在减少软件上的序列化、用硬体在瓶颈上加速。
因超级计算机而开发的科技:
矢量处理因超级计算机而建立并用于高性能运算。矢量处理技术后来被用于普通电脑内的信号处理架构及单指令流多数据流(SIMD)。例如:电视游乐器、图像卡等。
超级计算机操作系统虽然是UNIX的变种,但比小型电脑的复杂一点。一般都倾向减少开发它的用户界面,因为可以减少浪费资源在不必要的工作上。同样的道理应用到价值几百万的电脑身上。这个惯例延续到超级计算机,例如SGI都会使用NVIDIA。NVIDIA制造廉价、多功能、高性能的产品。
1980年代初期,超级计算机通常会为了追求性能而牺牲指令集的兼容性及运载速度。它们会使用不同类型的操作系统。雷克-1曾使用6个专属操作系统及并行矢量版本的FORTRAN编译器。
超级计算机的并行架构需要特别编程技术来提高速度。Fortran的专门编译器可以产生的源码,运行比C或C++的更快,所以Fortran仍然被选用作科学编程。为了开发超级计算机的并行性都使用紧接分享记忆的并行虚拟器及信息传递界面。
大致上可以分为三种:
根据摩尔定律及经济规模,一个现代的桌面电脑比15年前的超级计算机有更高性能,皆因某些超级计算机的设计已经放在桌面电脑内。再者,简单芯片的开发及生产成本比特意设计给超级计算机的更便宜。
超级计算机所处理的问题都适合并行化,当中减少处理单元之间的资料传送量。因此,传统的超级计算机可以被电脑丛集所代替。
专用超级计算机都是针对单一问题而开发的电脑。这些电脑都使用专门编程的FPGA芯片及超大型密集芯片,纵然牺牲普遍性也要提高成本效能比率。它们被用于天文物理学及密码破解之上。
例子:
超级计算机速度以每秒的浮点运算"FLOPS" 来作量度单位。 常见的表示电脑中的数量或速度用的单位英汉对照如下:
(电脑中的进制在涉及缩写时通常是以2^10(1024)为进制的)
1K=2^10=1,024
1M=2^20=1,024*1,024=1,048,576
1G=2^30=1,024*1,024*1,024=1,073,741,824
1T=2^40=1,024*1,024*1,024*1,024=1,099,511,627,776
1P=2^50=1,024*1,024*1,024*1,024*1,024=1,125,899,906,842,624
2008年11月16日美国超级计算机公司Cray,推出效能更强的“Jaguar”系列,浮点运算效能可达1.64PFLOPS,采用45376颗四内核的Opteron处理器,362TB的内存,传输总带宽284GB/Sec,硬盘容量10,750TB,内部的数据总线带宽532TB/Sec。这台计算机将摆在美国的国家高速计算机中心,并开放给各界有需要的团体申请使用。
2008年06月10日美国一台军用超级计算机创下每秒运算1.026千兆次(quadrillion)世上最快的运算速度纪录。它一天能处理的数据,相当于全球60亿人46年不眠不休地运算才能算得完。报道指,它将用来处理核武数据的军事机密,而在投入军事用途之前,将先用来模拟气候变迁,更高的运算速度让气候学家得以有更精确的气候模型。
算速较BlueGene/L快两倍
创下新纪录的新计算机,取名为“路跑者”(roadrunner),是由IBM公司以及在新墨西哥州的洛斯阿拉莫斯国家实验室的研究人员花了1.33亿美元设计制造的,速度比先前写下运算速度的IBM的BlueGene/L超级计算机速度还快两倍。
处理内核采自电玩主机
“路跑者”主要采用原本为了电玩而设计的元件组装而成,其中包括采用1.296万个改良版IBM Cell处理器芯片,这款芯片原先是为了新力PS3电玩主机而设计的,另外再加上小部分超微的Opteron处理器,处理内核共有11.664万个。
将被用于处理核武数据
这台超级计算机将被用来处理核武数据的军事机密,其中包括模拟核子爆炸的瞬间,来帮助军方确保年久的核武器能够继续正常运作。在投入军事用途之前,也将先用于对一些复杂问题包括气候变化,进行计算,更高的运算速度让气候学家得以有更精确的气候模型。
运算电耗需300百万瓦
美国能源部国家核能安全管理局长达哥斯提诺说,“路跑者”一天能处理的数据,相当于全球60亿人用计算机每天24小时、每周7天不眠不休地算,要算46年才算得完。不过“路跑者”运算时所需的电能也很惊人,要300百万瓦
专家指,这台每秒浮点运算能力突破千兆次的超级计算机,被视为军事、技术和科学用途上的重要里程碑。前一代计算机需要好几个月运算的数据,如今可缩短到几小时,甚至过去看来无法实践的实验,如今也可望为科学和工程带来根本性的改变,超级计算机同时被视为经济国力的象征。
在Blue Gene/L之前,最快的超级计算机是日本电气株式会社在横滨地球科学学院的地球模拟器。它是由640个特别设计的8阶矢量处理器根据NEC SX-6架构所组成的丛集。它使用UNIX的修改版本。
面世的一刻,地球模拟器的速度是比以前最快的超级计算机(美国加州罗兰士利物摩亚国家实验室的ASCI White)还要快4倍。它的冠军位置维持了2.5年。
首500强超级计算机排名榜可见于 http://www.top500.org/ 。
某些分布式运算把丛集超级运算推至极限。例如SETI@home计划现在平均有72.53TFLOPS运算能力。[1].
2005年5月16日,Folding@home声称拥有195TFLOPS运算能力。[2] 2007年3月25日,借由PS3强大的平行运算能力[3],Folding@home的总运算效能达到0.7PFLOPS,其中PS3占了72%的运算量。[4]
GIMPS运算能力也高达18TFLOPS。
Google的搜寻引擎系统总处理能力界乎于126及316TFLOPS之间。Tristan Louis估计这个系统等于32000至79000台双2 GHzXeon电脑。[5] 由于散热问题,Google的搜寻引擎系统应该属于网格运算。
由古至今:
| 时期 | 超级计算机 | 极速 | 地点 |
|---|---|---|---|
| 1906年 | Babbage Analytical Engine, Mill | 0.3 OPS | 英国 艾萨斯 霍特福格兰 RW门罗 |
| 1938年 | Zuse Z1 | 0.9 FLOPS | 德国柏林Konrad Zuse的父母居所 |
| 1939年 | Zuse Z2 | 0.9 OPS | 德国柏林Konrad Zuse的父母居所 |
| 1941年 | Zuse Z3 | 1.4 FLOPS | 德国柏林德国气体动力学研究所(DVL) |
| 1942年 | Atanasoff Berry Computer (ABC) | 30 OPS | 美国衣阿华州立大学 |
| 1942年 | TRE Heath Robinson | 200 OPS | 英国帕雷屈里庄园 |
| 1943年 | TRE Colossus | 5 kOPS | 英国帕雷屈里庄园 |
| 1946年– 1948年 |
U. of Pennsylvania ENIAC | 50 kOPS | 美国马里兰州Aberdeen实验基地 |
| 1954年 | IBM NORC | 67 kOPS | 美国维珍妮亚州海军试验基地 |
| 1956年 | MIT TX-0 | 83 kOPS | 美国麻省理工 |
| 1958年 | IBM SAGE | 400 kOPS | 美国空军23号基地 |
| 1960年 | UNIVAC LARC | 500 kFLOPS | 美国加州罗兰士利物摩亚国家实验室 |
| 1961年 | IBM 7030 "Stretch" | 1.2 MFLOPS | 美国新墨西哥州洛斯-阿拉莫斯国家实验室 |
| 1964年 | CDC 6600 | 3 MFLOPS | 美国加州罗兰士利物摩亚国家实验室 |
| 1969年 | CDC 7600 | 36 MFLOPS | 美国加州罗兰士利物摩亚国家实验室 |
| 1974年 | CDC STAR-100 | 100 MFLOPS | 美国加州罗兰士利物摩亚国家实验室 |
| 1975年 | Burroughs ILLIAC IV | 150 MFLOPS | 美国加州NASA恩斯研究中心 |
| 1976年 | Cray-1 | 250 MFLOPS | 美国新墨西哥州洛斯-阿拉莫斯国家实验室 |
| 1981年 | CDC Cyber 205 | 400 MFLOPS | (世界很多地方) |
| 1983年 | Cray X-MP/4 | 941 MFLOPS | 美国新墨西哥州洛斯-阿拉莫斯国家实验室,波音公司 |
| 1984年 | M-13 | 2.4 GFLOPS | 苏联莫斯科电脑科学研究学院 |
| 1985年 | Cray-2/8 | 3.9 GFLOPS | 美国加州罗兰士利物摩亚国家实验室 |
| 1989年 | ETA10-G/8 | 10.3 GFLOPS | 美国佛罗里达大学 |
| 1990年 | NEC SX-3/44R | 23.2 GFLOPS | 日本府中市NEC府中厂 |
| 1993年 | Thinking Machines CM-5/1024 | 59.70 GFLOPS | 美国新墨西哥州洛斯-阿拉莫斯国家实验室; 美国国家安全局 |
| 1993年 | Fujitsu Numerical Wind Tunnel | 124.50 GFLOPS | 日本国家宇航实验室 |
| 1993年 | Intel XP/S140 | 143.40 GFLOPS | 美国山迪亚国家实验室 |
| 1994年 | Fujitsu Numerical Wind Tunnel | 170.40 GFLOPS | 日本国家宇航实验室 |
| 1996年 | Hitachi SR2201/1024 | 220.4 GFLOPS | 日本东京大学 |
| 1996年 | Hitachi/Tsukuba CP-PACS/2048 | 368.2 GFLOPS | 日本筑波市筑波大学电算物理中心 |
| 1997年 | Intel ASCI Red/9152 | 1.338 TFLOPS | 美国山迪亚国家实验室 |
| 1999年 | Intel ASCI Red/9632 | 2.3796 TFLOPS | 美国山迪亚国家实验室 |
| 2000年 | IBM ASCI White | 7.226 TFLOPS | 美国加州罗兰士利物摩亚国家实验室 |
| 2002年 | NEC 地球模拟器 | 35.86 TFLOPS | 日本地球模拟器中心 |
| 2004年 | IBM Blue Gene/L (32,768) | 70.72 TFLOPS | 美国能源部/IBM |
| 2005年 | IBM Blue Gene/L (65,536) | 136.8 TFLOPS | 美国能源部/NNSA/LLNL |
| 2005年 | IBM Blue Gene/L (131,072) | 280.6 TFLOPS | 美国能源部/NNSA/LLNL |
|
查 • 论 • 编 • 历
|
|
|---|---|
| 概论 |
高性能计算 |
| 方式 |
Bit-level parallelism · Instruction level parallelism · Data parallelism · Task parallelism |
| 理论 |
Speedup · Amdahl定理 · Flynn's taxonomy (SISD • SIMD • MISD • MIMD) · Cost efficiency · Gustafson定理 · Karp-Flatt metric |
| 元素 | |
| 协调 | |
| 编程 |
Programming model · Implicit parallelism · Explicit parallelism |
| 硬件 | |
| 软件 |
Distributed shared memory · Application checkpointing · Warewulf |
| APIs |
POSIX Threads · OpenMP · Message Passing Interface (MPI) · Intel Threading Building Blocks |
| 问题 |
Embarrassingly parallel · Grand Challenge · Software lockout |
Why are we here?
All text is available under the terms of the GNU Free Documentation License
This page is cache of Wikipedia. History