- 基于AIGC的系统级软件生成平台
- 【100%AI生成】无论代码,还是UI,均完全由AI生成。
【系统级软件】依据功能/UI需求书,支持5万行以上代码及UI自动生成。
【个性定制化】通用办公类软件,满足用户个性化要求。
-
- FPGA加速卡+算法
- 基于FPGA芯片设计的加速卡将FPGA芯片的可编程能力与并行计算能力有效结合,解决了通用芯片性能瓶颈及高功耗问题。
- □ 性能参数
- □ 应用场景
-
- 更多产品
- FPGA加速卡及计算服务器
-
FPGA(Field Programmable Gate Array)是一种可编程逻辑器件,用户可以通过现场编程实现特定电路的功能,是在PAL、GAL等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,FPGA是软硬件合一的器件,既有专用芯片的高性能优势,同时又拥有通用芯片的编程灵活性。
FPGA中的逻辑门资源和接口资源非常丰富,可以根据特定应用需求,定制设计为专用的集成电路系统,在获得高性能的同时还能实现在单位产出方面的高效率,从而降低能耗。FPGA的主要组成部分包括可编程逻辑单元、BRAM、输入输出单元、布线资源、底层内嵌功能单元以及内嵌专用硬件模块。其中内嵌专用硬核包含如串并收发器,乘法器等,底层内嵌功能单元主要指DLL、PLL及DSP等软核,布线资源用于链接FPGA中的各种单元。
FPGA既可以实现组合逻辑电路的功能,又能实现时序逻辑电路的功能,并且能够有效的解决原有的器件门电路数较少的问题。由于FPGA具有布线资源丰富、可重复编程、集成度高、投资较低等优势,在数字电路设计领域得到了广泛的应用。FPGA的设计流程包括设计输入、仿真、编译、下载、通信五个步骤。利用仿真软件设计输入并进行仿真流程,其后通过EDA软件编译,实现分析和综合、布局布线、形成变成文件、时序分析、产生EDA工具网表、产生可下载文件,最后进行板级调试,利用配置电路将相关文件下载至FPGA芯片中,验证实际运行效果。
基于FPGA芯片设计的新深蓝FPGA加速卡将FPGA芯片的可编程能力与并行计算能力有效结合,解决了通用芯片性能瓶颈及高功耗问题。在计算密集型任务(如:矩阵运算、图像处理、机器学习、压缩、非对称加密、搜索的排序)、通信密集型任务(如:对称加密、防火墙、网络虚拟化)等应用领域,FPGA加速卡具备广阔的应用前景。面对数据中心灵活多变的计算任务,利用FPGA加速卡搭建的加速模块,可以保持数据中心的同构性,既能满足加速要求,又能降低调度、运维成本。
新深蓝FPGA加速卡通过自主研发,完成芯片及器件选型、板卡设计、接口设计、通信协议、功能配置、操作系统构建、机箱设计等架构设计流程,并开展了对设计的散热仿真模拟及测试优化,以及整机部署,可构建成一种适用于大规模科学计算的专用服务器。
新深蓝的产品系列包含加速卡、边缘计算卡、四路计算服务器、灵活配置服务器、自定义规格服务器等。其中,加速卡、边缘计算卡主要面向服务器生产厂商提供服务;四路计算服务器、灵活配置服务器、自定义规格服务器面向终端用户提供服务。
面向终端用户的计算服务器可以有条件地提供算法的编写、升级、迭代等服务。面向第三方设备的生产企业可以提供FPGA算法测试及ASIC芯片的设计、流片等服务。
FPGA加速卡内置赛灵思(Xilinx)FPGA芯片,最高配置为8颗FPGA芯片,通过FPGA芯片的互联互通,提高了整体并行计算能力。
新深蓝加速卡相关产品在系统架构、器件选型、功能配置、通信传输、功耗散热等方面进行了全方位底层硬件设计,拥有自主知识产权。并通过对加速卡相关产品进行硬件级及软件级调试优化,构建了稳定高速的性能表现,能够在用户使用中实现高精度、高吞吐、高并行等优势。
可编程特性
FPGA支持多种开发模式,除使用传统的Verilog、VHDL等硬件描述语言(HDL)进行开发外,还支持高层次综合(HLS)工具。HLS可支持主流面向对象的高层次程序语言如C/C++、Python、SystemC。当前一些算法的复杂性与抽象程度已大大增加,使用传统HDL开发在开发时间与开发难度上都面临巨大的挑战。HLS通过将高层次编程语言综合为传输级RTL硬件描述语言,使用者可先用高层次语言快速实现算法设计后,再使用HLS转化为具体的电路逻辑与功能。使用HLS工具可以显著降低开发人员门槛,提高硬件开发效率。
新深蓝加速卡相关产品可根据用户需求,灵活定制加速算法,运用集群并行计算能力,获得大规模硬件级加速效果,并降低能耗。同时还可将加速卡相关产品内核心单独使用,作为FPGA操作培训平台,提高人员技能水平。
高吞吐并行化
在多级矩阵乘法中,GPU为提高并行性,必须先从DRAM读取数据,对整个批次执行AxB矩阵乘法操作,并将中间结果写在内存中,后续的运算需要再从内存中读取中间结果。FPGA则可以利用并行流水线操作直接将中间结果从当前阶段传输到下一个阶段,使整个计算输入可以通过I/O直接一个接一个的流入和流出FPGA,无需等待,实现流式架构,最终完成高吞吐并行化计算。
主板采用国产中科海光系列CPU或INTEL CPU,可支持高负载计算密集型任务的调度作业。同时加速卡相关产品最高支持8条DDR3 ECC分布式内存。
-