摘要: 与湖畔大学首期学员、阿里云MVP、驻云创始人蒋烁淼面对面
【三位阿里云MVP(驻云CEO、首席架构师、大数据总监)《MVP时间》首次同台授课,“湖畔第一大脑” 蒋烁淼领头线上精讲,内容涉及企业IT架构、混合云存储、大数据方案等实战内容,从技术实战到解决方案,难题痛点一次解透。听课链接直戳:
第一节: 第二节: 第三节: 第四节: 第五节:】阿里云MVP、驻云科技CEO蒋烁淼4月11日做客《MVP时间》,为大家分析在云时代对于企业IT智能诊断的实践与探索。本篇为上期,下期文档
1、 云时代的大背景
屈指算来,云计算已经进入了第二个十年。随着下一代技术如数字业务、物联网和人工智能的实现,云计算已然是业务和IT的关键组成部分。云技术正在从一个市场颠覆者演变为传统和下一代IT中的主力军。
需要强调的一点是,我们认为,真正意义上的云计算就是公有云。为什么呢?
我们先从5G说起。展望未来,5G时代很快到来。大家都在展望伴随5G时代的物联网、边缘计算、人工智能、AR/VR的大变革。而更为实际的,5G时代会发生的事情,是固定网络逐步退出市场,正如之前固定电话慢慢从市场中推出那样。每个人的手机电脑都会以无线网络的方式接入到互联网中。那个时候企业局域网就会消失,局域网消失以后,可能企业内网就消失了,或者说内网就是今天我们在云上看到的VPC、虚拟专有云或者虚拟私有网络,到那个时刻,没有局域网,又何来专有云呢?
随着5G的进入,云计算的发展还是会非常长久的进行下去,直到大部分IT都转入到云计算时代,而那个时候可能会有新的东西出现。
换个角度,今天对于整个世界改变最大的力量是互联网。未来每一个企业都是互联网企业,云就是互联网基础设施。所以说掌握云计算的技术是非常重要的,未来不懂云计算就没有办法在这个市场上生存,如果你是一个IT工程师的话。2、 云时代IT从业者的挑战
云时代的到来对于IT从业者来说带来了极大的变革和挑战。
云计算大数据技术迭代更新,IT从业者需要掌握的技能更广,还需跟上工作节奏。 传统的我们经常会把工程师分成开发人员或者运维工程师、测试工程师,开发工程师又包括前端工程师,后端工程师等。而现在这样的职业分工也产生了变化的趋势。记得前几天有一篇文章说阿里云是不是会杀死运维,大家也知道有个耳熟能详的词语叫DevOps。这也说明了一个问题:云计算厂商把IT基础设施运营起来了,带来了一个重大的变化:企业内部并不需要单纯的运维工程师了。为什么呢?一是因为DevOps的发展,二是因为云计算带来的极大便利使得很多运维工作被大大简化。
举例来说,绝大多数尚未建立完备开发体系的公司,它的开发工程师就可以通过RAM授权的子账号,甚至主账号进入云的控制台修改关键云资源配置,比如对象存储Bucket的修改。
因此,由于云的分布式的变化,每一个工程师都可以通过API或者控制台,快速的改变云的现状,包括配置信息的变更。这使得传统的运维工作离散化了。某种程度上说,不是不需要运维工程师,而是人人皆运维。
在这样的大背景下,传统的运维工程师又何去何从呢?他们的职业发展也面临着巨大的变化。
传统意义上的运维工程师的主要工作,我们经常开玩笑说是搬箱子,插网线和装系统三大件。而今天面对云,这三件事情都不用做了,因为你使用ECS镜像服务器就装好了,甚至你都不需要自己安装MySQL,直接使用RDS就够了。
因此传统意义上运维工程师本身知识结构面临着更新,从传统意义上运维工程师要变成企业内部的云管理员或者成为企业内部云架构师,应该往这个方向去转变。大家也可以到百度百科上看到云管理员这个新职业的描述。3、 云时代企业IT管理的挑战
为应对市场变化的快速响应,企业业务的复杂与变动并存,还需保障IT系统的稳定可靠。
1)除了故障,还有什么更值得我们考虑?
企业将基础设施甚至中间件使用了云计算厂商提供的服务之后,如果云服务出现了故障,我们可以根据SLA的条款,向云厂商索赔。
因而在云上,我们最需要担心的不是云服务的故障,或者说在云上除了故障其实我们还有更多问题需要考虑。举两个例子:
前段时间宝马发生了数据泄漏,原因是它的开发工程师对AWS上存储Bucket没有进行任何安全限制,导致数据可以被任何人读取,甚至包括Google搜索引擎。
系统本身并没有出现故障,但是发现某些应用连接数或者是进程内存占有快速上升,存储量快速上升,很可能是因为开发工程师的BUG,导致你要为云计算厂商一个月多付好多钱,浪费了带宽或者浪费了存储。
为什么这些问题不能提早发现呢?有以下几个原因:
这些云资源的管理本身非常繁琐,往往因为工程师出差或者管理不善等原因,导致域名证书或者主机本身忘了续费,从而引起了业务的中断。
工程师并不具备财务权,传统职责在故障的发现和处理,而上述这些问题的管理并没有得到足够的重视。
因此,重要的问题不是故障,当你到故障那一刻的时候,那个问题已经不小了。
2)复杂、大量数据的挑战
现今我们处在一个复杂的世界中。这个世界的数据不仅仅包含云上的数据,还有你自己物理机房或者说外部的数据,甚至还有IOT,数字化的POS机等持续不断产生的数据。
对一个企业来说,所面对的数据并不一定只是IT数据,大趋势是所有数据最终都可能被汇聚到云上。
3)信息孤立和不对称性带来的挑战
传统IT环境中通常会有一个IT部门负责技术保障,维护管理整个企业内部所有系统,但是随着云的时代到来,任何一个有开发能力或者有系统需求的业务团队,都可以轻松买一两台云主机,装一个软件或者开发一个小程序就可以不再依赖公司统一的IT管理,快速的将自己的业务跑起来。所以在这种情况下,云不仅仅是一个分布式系统,它也使得企业的IT团队,尤其在一些大企业,开始了有了分布式的倾向和趋势。
在这种情况下,会造成一个问题,就是大家的信息可能会相对孤立和不对称。每个企业的IT管理可能会发生随时随地变化,因为它有可能开在不同云账号下,有的一个企业有1000台ECS,可能分布在10个团队,每个团队有100台ECS,这种情况也会有大量的出现。
4)多云和云计算产品迭代更新快带来的挑战
很多企业都慢慢的开始上云,甚至上多个云。但是实际上不管是从大的产品功能角度小到API、备份功能或者一个主机的编码,甚至一些非常非常小的控制参数,比如说备份或者是磁盘拍照等等东西,其实都是不太一样的。
并且各个云计算厂商的产品迭代更新都非常快,要管理的要素更多,甚至包括费用。
为了适应多云环境和云产品的迭代更新,需要企业投入更多的力量进行统一管理。
比方说因为公司的原因,需要同时用多个云账号,甚至多朵云,分别管理维护开发环境、测试环境、预发环境、生产环境,甚至要从费用角度考虑有没有资源浪费。
没有合适工具和管理手段的情况下,管理成本相当高:
人工的方法是记住不同的用户密码,登陆不同的账号,然后去挨个看。
高级点的自己有能力去维护一套连接了这些平台的API,然后通过API的方式去解决。但这个成本同样很高,要对云产品有足够的了解,万一云厂商某个API改了或者是返回结构改了,还得同步学习更新和修正。
5)企业IT管理对象的复杂度带来的挑战
企业IT管理的对象从传统的物理主机、存储、网络、数据库、中间件变成了云计算服务商提供的一台台虚拟主机、云数据库,甚至是云中间件,包括RDS、OTS、KAFKA,这些都是以云服务的形式提供,而无需自己搭建,云厂商把IT软硬件资源,甚至中间件都服务化了。我们关心的不仅包括虚拟主机的情况,还有云中间件、应用层的情况,管理对象更加复杂。
以上各种云时代对于IT管理的挑战,也是为什么我们提出来需要云时代企业IT智能诊断。
本文作者:MVP时间 辰悠
本文为云栖社区原创内容,未经允许不得转载。