现在,只要是在国内的中短途旅行,笔者首选高铁。其实,在全球范围内,高铁已经成了中国制造的一块金字招牌。笔者选择高铁的一个主要原因是准时。这样一个庞大的运输体系,它究竟是如何运作,又是如何保证准时、快速、安全的呢?在探访了中国铁路信息技术中心后,笔者的疑惑终于解开了。
开源云是必由之路
交通运输部发布的《2016年交通运输行业发展统计公报》数据显示:2016年,中国铁路营业里程达12.4万公里,其中高速铁路2.2万公里以上,年内累计实现旅客发送量28.14亿人次,较2015年增长2.79亿人次,完成货运总发送量26.52亿吨。如此庞大且日益增长的客流和物流,肯定需要一套坚实的信息系统作为支撑。
从2014年开始,中国铁路总公司开启了由传统客货运输企业向现代物流企业的转型,其目标是建设世界一流的现代物流企业。业务的转型带动了信息化的发展和跃升,建设高效灵活、部署简便、自主可控的IT基础设施架构是必由之路。一方面,IT基础架构要保证现有业务的正常运转,包括向客户提供便捷的信息查询、线上购票和预订等网络服务;另一方面,IT基础架构还要成为中国铁路总公司内部管理创新、业务创新和应用创新的基石,支撑企业管理从粗放式向精细化转变、从过去生产计划型向主动适应市场需求转变,同时借助云计算、大数据、物联网、移动互联网等新技术对铁路的传统业务进行改造和升级。
但是问题来了,中国铁路总公司传统的“烟囱式”的IT基础设施构建模式根本不能满足快速增长的IT资源需求,昂贵的设备成本、复杂的异构运维、隔离的信息孤岛、大量的资源消耗成为中国铁路总公司转型的瓶颈。
从现在的结果看,“铁信云”成了中国铁路总公司的不二选择。IT系统从封闭走向开放,从以物理设备为主到虚拟化和云,中国铁路总公司变革的决心和心路历程值得深入探究,也许能为其他有意“上云”的企业提供有益的参考和借鉴。
自己掌握主动权
中国铁路信息技术中心技术支持部部长高明星在这个单位一干就是20多年,前10年主要与IBM主机打交道,后10年则与小型机为伴,对于系统平台、数据库、中间件等了如指掌。从2010年开始,随着应用逐渐向x86平台迁移,开放平台、云计算成了高明星工作的重心。“我们之所以构建基于OpenStack的开源云平台,一是企业自身的需求,二是顺应当前IT发展的趋势,这两者正好走到了一个交汇点,水到渠成。”高明星表示。
主机的优势是稳定、可靠,但是高昂的设备和维护成本成了中国铁路总公司不能承受之重。日积月累,中国铁路总公司目前的IT环境是一个混合式的环境,设备众多、管理复杂,如果不变革原有的管理方式,成本将无法控制。其实,在接触OpenStack之前,中国铁路总公司已经在开放、开源方面进行了一些有益的尝试,比如采用x86标准化平台、Linux操作系统等。2007年云计算的兴起、2010年OpenStack项目的诞生,中国铁路总公司一直在关注云计算和开源的发展。在决定从原来的传统架构向云计算架构转型时,中国铁路总公司经过了慎重思考。
“2014年,我们开始承接铁信云项目。一开始,我们计划从第三方采购成熟的云计算产品,然后在此基础上进行二次开发或集成。”北京中铁信科技有限公司(以下简称北京中铁信)技术总监李广谦介绍说,“我们的云计算之路走得小心翼翼,几乎与当时能够提供OpenStack云解决方案的厂商都进行了接触和交流。但是我们发现,很多公司过于追求技术的前沿性与创新性,而忽略了企业需要的是具有绝对稳定性且易用的产品,最好点一下鼠标就能解决所有问题。这显然是一对矛盾。另外,没有一个厂商的产品能够满足我们的所有需求,二次开发的工作量非常大。”
考虑到自身专业技术人员缺乏,以及在OpenStack技术方面底子薄等客观因素,最终,北京中铁信决定采用联合开发的模式,借助云计算公司的技术专长,同时结合自身熟悉铁路系统的优势,秉承“完全自主研发,双方共享研发成果和知识产权”的原则,与北京云途腾科技有限责任公司(以下简称云途腾)签订了战略合作协议。目前,双方联合研发的产品的最新版本为2.2.2版本,并在实践中证明是行之有效的。
“过去,由于对新型互联网应用和云计算等技术的掌控力度不够、技术能力储备不足,我们必须采用与向别人学习、合作的模式,该交的学费还得交。但是,我们不会一直沿着别人的路子走,最终我们还是要靠自己想办法解决问题。”高明星表示。
开源云可以满足生产系统所需
“为了支持铁信云的建设,我们与北京中铁信开创性地进行了联合研发。这种模式本身就是一个创新。“云途腾COO吴凯归纳了以下三点。
第一,中国铁路总公司对生产系统的稳定性、可靠性要求非常高。很多人担心,用开放架构支撑生产型系统,稳定性和可靠性是一个问题。铁信云这个项目正是将开源云用于生产系统。因此,云途腾与北京中铁信花费了大量时间,攻克了许多技术难关,并且经过大量测试和验证,大大提升了OpenStack开源系统的稳定、可靠性。
第二,中国铁路总公司对生产系统的性能和可扩展性要求也非常高。铁路信息系统的整体规模比较大,仅铁信云项目一期上线的物理服务器就有近800百台之多,而这与今后的信息化建设规划要使用的服务器数量相比,只是其中的一小部分。在这样的规模之下,OpenStack开源架构要突破许多技术和应用方面的瓶颈。“我们实现了在近800台服务器之上,建立了超10万个虚拟机的全部在线稳定运行,这种规模在国内是绝无仅有的。”吴凯介绍说,“我们花了几个月的时间进行系统压力测试,顺利通过。此外,在系统上线时,在各种基础环境都准备到位的情况下,只用了7个小时就完成了近800个节点的铁信云产品部署。我们还在今年5月举行的OpenStack波士顿峰会上将此项目的建设经验进行了分享。”
第三,中国铁路总公司的系统中包含很多既有和传统系统,开源云平台如何与这些既有和传统平台进行资源对接和统一纳管理也是一个棘手的问题。云途腾与北京中铁信在这个方面也进行了深入探讨和研究,找到了解决办法,实现了对所有IT资源的高效管理和有效利用。
“铁信云未来的部署不仅仅局限于中国铁路总公司这一级,而是有全国性的规划。”李广谦介绍说,“我们解决了OpenStack交付、部署和运维中的很多Bug,让OpenStack向自动化、简约化的方向发展。”对于OpenStack的后期运维,铁信云也规划部署了OMS系统,云途腾贡献了MagicStack模块以实现自动化联动。北京中铁信还将大数据的底层架构引入OMS系统,通过监控、日志分析,结合大数据进行预测分析与告警。
铁信云已用于中国铁路信息技术中心的2015年公共信息处理平台扩容项目中,按照工程设计规划,拟在铁信云IaaS平台上将部署包括铁路客运、货运、调度、机务和公共基础平台五大类共十几个应用。目前,应用迁移和部署正在有序进行中。
开源云需要相互支撑
作为OpenStack技术的推动者,英特尔为铁信云项目提供了底层硬件平台和软件优化方面的技术指导和支持。
李广谦介绍说:“铁信云构建在开源OpenStack云计算架构上,OpenStack底层使用的是KVM虚拟化技术,而KVM对CPU的指令集有一些特殊要求。英特尔在这方面给了我们很多支持。另外,在提升网卡的性能、功能增强等方面,英特尔也做了大量卓有成效的改进,并在存储、软件等方面给了我们很多指导和帮助。”
“铁信云是一个庞大的项目,接下来还有很多工作要陆续完成。我们正在考虑引进一些新技术的可能性,比如NFV(网络功能虚拟化),英特尔在这方面可以为我们提供帮助。”高明星补充介绍说,“我们规划在天津武清建设面积达几万平方米的新数据中心。我们没有建设如此大规模数据中心的经验,也准备进一步寻求英特尔的支持和帮助。”
“我们与英特尔合作已有四五年时间,看到英特尔对整个开源社区的支持力度非常大。”吴凯肯定了英特尔在开源社区和铁信云项目中做出的重要贡献,“举例来说,在铁信云平台的运维中,IPMI(智能平台管理接口)是一种非常重要的监控手段。三年多前,我们与英特尔就在研究如何更好地利用IPMI,为云平台的管理提供先进的功能,提升运维的效率。我们正在研究像NFV/SDN这样的先进技术如何与企业的生产实践相结合。我们与英特尔、中国铁路总公司在新技术的推广和应用方面有很多相同的思路,可以进行更深入的合作。”
英特尔中国云计算战略总监陈绪博士介绍说,从去年开始,我们看到越来越多“国字头”的企业开始接受并积极部署开源云,包括中国外运股份有限公司、中国铁路总公司等,虽然出发点不同,应用的规模各异,但是有一点是相同的,就是顺应开放、开源的技术发展趋势,利用云计算、数据分析等先进的技术手段,建立新型的灵活、高效的IT基础架构,为企业的业务发展和应用创新提供支撑。