14个关键问题,灵魂拷问研发/IT眼中的完美仿真平台
责任编辑:娜娜     时间:2023-05-30     来源:转载于:速石科技
责任编辑:娜娜
时间:2023-05-30  来源:转载于:速石科技
分类: 观点评述
浏览量: 203

上一篇,我们围绕着亿万研发工程师的梦想,考察了市面上几乎所有类型的工业仿真平台,深度评测了他们本质究竟是什么适用场景有哪些分别能给研发和IT工程师们减轻多少工作量。
据此,我们搭建了一个工业仿真平台【心累指数】金字塔模型

image.png

戳这里回顾金字塔模型与基本设定:八大类主流工业仿真平台【心累指数】终极评测(上)
不同厨房/餐厅设定对应着同一层级不同“仿真平台”的本质属性,详细展开可以戳上面的链接。
总之,从金字塔底层到塔尖,不论是对研发还是IT工程师,都是站得越高,用得越爽

你可以跳过下文直接扫码获取白皮书阅读原文,但看完会获得一个新的视角,也非常不错。
image.png
上篇里,我们从基础定义与适用场景出发,讨论了8种平台/方案的产品模式、兼容性、支持的CAE仿真软件、底层资源量与类型、计费模式等信息。
今天,我们将更进一步,从研发和IT工程师的双视角用户体验出发,一起看看这8种平台/方案究竟是如何提升研发效率降低IT工作量的?

image.png


#研发视角

如何提升研发效率?


3.1、需要研发掌握什么技能?
底层:
自己买机器,研发+IT需要联合搞定包括但不限于软件、系统、硬件行情、机房选址、网络配置、IT运维、数据安全、集群调度……等事情。自家IT的能力越强,研发就相对轻松,反之就更心累。
超算中心需要研发点亮部分IT技能
特别是超算中心大多使用Linux系统,要求研发掌握一定的Linux常识才能上手。
贴一张超算的实际运行界面,大家感受一下⸺
image.png


云厂商同样需要研发点亮部分IT技能。但是云厂商可同时提供Windows和Linux的若干版本供用户选择,只不过带Windows系统的云资源普遍要比带Linux系统的贵。
中层:
这一层属于第三方平台,用户没有接触底层资源的权限,自然也不需要有太多IT技能。但这也代表着,很多东西是不能轻易改动的。
如果遇到使用上的问题,一般需要呼唤第三方平台的人来协助。自家IT可能帮不了太多。
塔尖:
针对研发与IT之间的交叉领域,我们的一整套端到端的仿真研发环境将很多IT工作自动化操作,大大减少了交叉领域的工作难度和工作量。另外,还有fastone的R&D-IT团队还可以提供全方位的服务支持。
fastone在支持Windows的同时,也可支持用户在Linux系统中使用图形化界面操作仿真任务,你只需熟悉一下Linux的常用操作与工具(如浏览器、文本编辑器),即可在很短的时间内上手,操作习惯几乎无需改变。
                                                                 image.png



详请可戳:怎么把需要45天的突发性Fluent仿真计算缩短到4天之内?

3.2、是否包含前后处理+求解等一整套完整功能?
底层:
买机器,系统环境都需要自己部署,更别提软件功能了,一切都要靠自己
超算中心和云厂商绝大多数只支持计算求解
中层:
你可在软件平台中直接点击进入相关步骤,完成前后处理和计算求解
其他平台主要集中在计算求解这一环节。
塔尖:
同时包含前后处理+计算求解
 
3.3、可以图形化界面操作吗?
底层:
均无。
中层:
云厂商的仿真平台不支持。
部分硬件厂商的仿真平台可支持图形界面
超算云做了类似电脑桌面的界面,所有服务(包括SSH、上传下载,应用等)都可以在图形界面上操作。
软件平台一般完美支持
                                                             image.png

塔尖:
fastone针对不同的用户,提供多种任务提交方式以供选择。
图形界面模式:可通过Web浏览器启动集群,跳转到虚拟桌面,并可在该桌面直接操作应用进行相应设置以开启云端仿真任务。
任务模式:用户可以通过Web浏览器选择新建任务、选择应用、上传文件、输入参数、配置资源等一系列向导式路径提交任务。
集群模式:对于高级用户,比如本身对应用工作流的理解和编程能力超强,可以不用走普通用户通过应用向导式提交的路径,可以直接根据自己写的脚本,通过Web浏览器选择新建集群,然后按需动态地在云端创建HPC集群。

                                                           image.png

3.4、突然有个紧急项目,我能不能马上用上?
底层:
买机器响应时间最长,采购、运输、调试、部署环境、安装软件一套流程走下来,黄花菜都凉了。
超算中心需要排队,基本不可能满足紧急需求
云厂商可以较快地拿到资源,但配置环境、安装软件也需要时间。
中层:
除了超算云依然面临排队问题,在资源需求量不大的情况下,其他三个平台理论上均能较快地拿到资源并开始计算
塔尖:
快速启动,开即用。
尤其是当这个紧急项目需要非常多的算力时,fastone云平台的全球数据中心能持续稳定地提供用户所需资源类型及数量,分钟级调度开启上万核计算资源,满足业务紧迫度。

                                                              image.png

3.5、自动化程度有多高?
自动化是什么意思?
不需要你一台台地开机器,鼠标简单点几下就能自动开关机;
能够自定义工作流程,不需要每次跑仿真都重复设定;
自动检查任务状态,出现错误可以及时重复提交并通知你;
甚至对于某些因资源类型报错的任务,还能自动定位并调度其他类型的资源来跑任务……
底层:
均无。
中层:
均无。
塔尖:
fastone云平台可提供包括自动化部署、自定义工作流、自动检查任务状态与重复提交、自动定位任务并调度其他类型资源重算等IT自动化能力与Auto-Scale自动伸缩等功能,可快速全面地提升仿真研发效率。
比如我们的Auto-Scale功能可以自动监控用户提交的任务数量和资源的需求,动态按需地开启所需算力资源。在资源不够的时候,还能根据不同的用户策略,自动化调度本区域及其他区域的目标类型或相似类型实例资源。
效果怎么样?看这篇:从4天到1.75小时,如何让Bladed仿真效率提升55倍?

3.6、当有多个仿真任务时,是否支持开多台机器同时跑任务?

多个任务同时在数台机器上跑,这个我们称之为并行计算,一般都需要有调度器的参与。

关于调度器的相关知识,看这里:亿万打工人的梦:16万个CPU随你用

这么多机器,这么多任务,怎么顺利一一配置、启动、关闭,提高整体资源利用率,最好还能自动化管理等等,难度就陡然提升了。

                                                                 image.png

对研发来说,能否支持大规模并行计算,是提升研发效率的关键。

底层:

买机器需要自己搞定一切。

超算中心和云厂商则是为你提供了一个基础架构,只要应用支持,你就可以进行并行计算。

中层:

同样在应用支持的前提下,金字塔中层可以让用户较为方便地进行并行计算。

不过这一层平台提供的只是基础环境,用户能否用好取决于其自身技术能力。

塔尖:

我们自主研发的云原生国产化调度器Fsched,可分钟级自动化调度上万核计算资源,帮助用户应对突发算力需求场景。更重要的是,fastone能够结合业务特点以及应用特性,利用计算机技术提升不同业务场景的计算效率。

举个栗子:这样跑COMSOL,是不是就可以发Nature了


3.7、能否提供任务监控及相应的告警、优化分析功能?

研发工程师关心的主要是自己的任务情况。

底层:
均无。
中层:
均无。
塔尖:
这方面fastone云平台可谓一枝独秀。
我们能多维度监控任务状态,提供基于任务层的监控、告警、数据统计分析功能与服务

                                                            image.png

有啥用呢?戳这两篇了解:
王者带飞LeDock!开箱即用&一键定位分子库+全流程自动化,3.5小时完成20万分子对接
Auto-Scale这支仙女棒如何大幅提升Virtuoso仿真效率?

3.8、仿真文件那么大,数据传输效率跟得上吗?
底层:
买机器如果是在本地进行数据传输,取决于本地网络配置。如果是多地传输,就看你买多大的带宽了。
超算中心对外的网络带宽十分有限,且被很多并发用户共享,数据传输是个大问题,人肉送硬盘有时甚至是最好的解决方案。
云厂商对结果数据支持直接读取,云上存储,按需下载。但怎么用,能不能用好,还是取决于用户自己。
中层:
超算云有专线网络,传输效率优于超算中心
其他三者的传输效率视自身机房条件/资源提供方而定
塔尖:
fastone云平台拥有自主可控的数据传输方案
你只需要把数据上传到的DM(Data Manager)工具上,就可以直接使用数据来跑任务。
与市面上开源的数据传输工具相比,DM使用方便、功能全面,利用fastone自主研发的分段上传、高并发、断点续传等数据传输技术,可大幅优化海量数据的传输效率。

#IT视角

如何降低IT工作量?


4.1、需要IT掌握什么技能?
底层:
自己买机器需要强大的IT团队,搞定机房、硬件、环境、软件……等一系列事项。
超算中心与云厂商的情况比较类似,除了机器在别人机房你摸不着,IT需要协助研发搞定在使用过程中遇到的其他任何问题……
中层:
这一层,自家IT在熟读第三方平台操作说明之后可以帮上一定的忙。
塔尖:
借助多个自动化功能与管理系统(具体可见本章节其他回答),IT只需简单熟悉操作之后便可快速上手平台。
而R&D-IT服务的存在也让IT与研发之间的沟通更加顺畅。

4.2、机器多了之后,方便管理吗?
这个问题其实有两层含义,即机器多了之后——
1)是否可以方便地自动化运维?这里面涉及到包括开关机、软件安装配置、资源监控、集群管理等IT基础工作的自动化程度
2)是否可以方便地分配业务?比如临时需要将一批机器从团队A划拨给团队B使用,是否能够支持IT快速方便地进行配置
而能否做到第二点,事实上是由第一点决定的。也就是说,自动化运维的程度越高,越能够快速方便地分配业务。对IT来说,也就意味着更便于管理。底层:
买机器需要IT自己搞定所有的运维工作,机器越多越麻烦。
超算中心提供统一的人工运维。
云厂商会提供诸如资源监控、集群管理模块等功能,具体使用程度取决于用户本身。
中层:
金字塔中层基本都具备一定的自动化运维能力,如资源监控、权限分配等,但同时也存在着一定程度的功能缺失,比如需要IT自行搞定支持列表之外的软件、除云厂商的仿真平台之外均缺失集群管理模块等等。
塔尖:
fastone云平台拥有完整的全维度自动化运维能力,机器再多都能轻松管理,快速分配业务。
比如大家都熟悉的集群管理,在云端手动管理集群和自动化部署的工作量区别一目了然:

                                                                 image.png


4.3、权限管理方便吗?比如分配资源上限啥的?
底层:
均无此功能。
中层:
均可提供管理员账号和子用户权限分配功能。
塔尖:
支持管理员角色对每一个用户进行相关权限设定,包括预算使用上限和CPU核数使用上限。
4.4、需要用户自己来维护机器吗?
此处的“维护机器”专指对硬件的维护。
底层:
买机器需要自己负责所有机器的维护。
超算中心和云厂商无需维护。
中层:
无需自己维护。
塔尖:
无需自己维护。

4.5、有没有资源监控及相应的告警、优化分析功能?
底层:
买机器需要自己搞定资源监控。
超算中心的监控功能仅存在于全局统计,无法拆开,其他层面的监控功能缺失。

                                                                  image.png

云厂商会提供类似Cloud Watch的基础监控功能,对云资源的监控十分细致,但配置相对复杂。


                                                                   image.png

中层:
基本都支持资源监控功能。
云厂商的Cloud Watch在金字塔底层说过了,就不再重复了。
有的软件平台支持定制监控管理工具,可实时监控任务状态以及CPU/内存等资源的使用情况;也有的做了中央管理仪表板可视化功能,帮助你方便快捷地监控数据。
塔尖:
不同角色的用户可根据自身需求,查看所需的资源监控信息。如研发可查看单个任务的资源使用情况,IT则可通过监控功能掌握平台整体的资源消耗水平。团队管理者可以监控各个重要指标,从全局角度掌握项目的整体任务及资源情况,为未来项目规划、集群生命周期管理、成本优化提供支持。


                                                                   image.png


4.6、有什么安全上的风险吗?
底层:
买机器的都是纯本地资源,需要自己搭建防火墙等安全措施,还得注意机房安全。而且机器在自己上手看似能完全掌控计算资源,其实麻烦更多,软件、硬件、机房、网络、人员……任何环节出了问题都可能影响你的仿真进程。
超算中心的底层是非隔离的,你能看到其他用户的任务信息,这是一个比较致命的问题。

更致命的一点是,而超算由于要优先服务国家级科研项目,在某些情况下,即便已经分配到的超算资源,也有可能会被无条件收回。

想象一下,有一天,你吃着火锅唱着歌,跑着仿真等结果,突然就被收回了资源……任务就凉了。

云厂商的是独占资源,可以理解为在海量云资源中划出一块专属区域供用户使用,别人无法触及。
独占资源意味着:
1)云资源在任何情况下都不用会被抢走;
2)可根据用户的习惯和应用的特性自由选择操作系统,没有任何限制;
3)应用与依赖组件安装灵活;
4)安全。
中层:
跟第三方平台底层资源保持一致。
塔尖:
fastone云平台提供的也是独占资源。
我们提供完整的云安全策略模型,可对整个安全生命周期进行管理。我们用更完善更具体的产品安全架构,全面保障客户业务系统安全,包括身份认证、操作日志、MFA、数据隔离、数据加密、数据审批、日志审计、安全规范、安全组织、风险预警等。


综合对比之后,我们来给8个产品/解决方案排个序:

image.png


来源:转载于:速石科技

点赞人: 娜1 

回复:

Copyright © 2021 .长沙麦涛网络科技有限公司 All rights reserved. 湘ICP备20015126号-2
联系我们