以下文章來源于:深藍(lán)觀
譚卓曌丨撰文 王晨丨編輯 9月2日晚,一個(gè)讓成都人難忘的周五。疫情又起的成都進(jìn)行全民大篩時(shí),核酸系統(tǒng)崩潰,群眾又冷又餓在雨天中排隊(duì)數(shù)小時(shí)。 其背后的軟件廠商——東軟集團(tuán)被罵上熱搜。這一醫(yī)療信息化領(lǐng)域的“老大”、中國第一家上市的軟件公司,一夜之間被扒個(gè)底朝天,背上了“一個(gè)經(jīng)不起考驗(yàn)的核酸系統(tǒng)”的罵名。 而此時(shí),東軟也被“翻舊帳”:今年4月份,上海疫情時(shí),當(dāng)由萬達(dá)信息提供的“健康云”系統(tǒng),在做全民核酸篩查時(shí)被切換為東軟系統(tǒng)時(shí),也一度陷入癱瘓。 成都這次核酸系統(tǒng)故障,技術(shù)層面的討論不止。有人猜測(cè)東軟沒有做好數(shù)據(jù)庫的分庫分表,有人認(rèn)為東軟沒有進(jìn)行壓力測(cè)試…… 無論是哪一種分析,東軟都被打上了“技術(shù)不行”的標(biāo)簽。 在行業(yè)人士看來,核酸檢測(cè)系統(tǒng)并非是簡(jiǎn)單的“技術(shù)”系統(tǒng),而是一個(gè)響應(yīng)甲方需求的應(yīng)急、而又不算規(guī)范的“項(xiàng)目”。在實(shí)力上,東軟并非如此不堪,雖然在某些具體技術(shù)上,可能不及互聯(lián)網(wǎng)大廠,但在項(xiàng)目集成上,這一老牌信息化廠商在業(yè)界口碑并不算差。 9月3日下午,東軟做出回應(yīng),認(rèn)為目前出現(xiàn)的系統(tǒng)響應(yīng)延遲、卡頓等現(xiàn)象與核酸檢測(cè)系統(tǒng)軟件無關(guān),而是網(wǎng)絡(luò)出現(xiàn)故障。對(duì)于這樣一份被認(rèn)為是甩鍋式的回應(yīng),不買賬的不僅是成都人民。 在疫情下,全民核酸檢測(cè)這兩年里,杭州、澳門 、西安、上海等十多個(gè)城市先后有過核酸系統(tǒng)崩潰故障。有的軟件供應(yīng)商快速解決問題,而有的問題卻遲遲得不到解決?!斑@么多城市已經(jīng)有過前車之鑒,為什么還一個(gè)個(gè)接著出現(xiàn),難道這個(gè)問題的鍋只甩給軟件廠商?” 上述人士對(duì)全民指責(zé)軟件廠商不解,他認(rèn)為技術(shù)的漏洞向來不是最重要的癥結(jié)所在。軟件廠商真正難辭其咎的是在于企業(yè)管理層面,是否愿意砸資金、砸預(yù)算、砸團(tuán)隊(duì)?據(jù)業(yè)內(nèi)人士分析,僅成都一個(gè)城市,需要的軟件廠商運(yùn)營人員應(yīng)該有百人左右。而作為甲方,面對(duì)一個(gè)非高頻使用、但一旦進(jìn)入應(yīng)急狀態(tài)要求極高的核酸檢測(cè)軟件時(shí),是否愿意加大投入?“成都的問題需要引起其它城市管理層的注意,否則隨著天氣變冷,出現(xiàn)類似的問題將非常麻煩?!?/span> 而這些問題如不厘清,東軟不會(huì)是最后一個(gè)眾矢之的。 -01- 在使用健康碼做全民核酸檢測(cè)的這兩年里,有更多類似信息被湮滅。 據(jù)紅星新聞?wù)恚?020年5月6日,杭州健康碼無法打開;2021年5月7日,澳門健康碼連續(xù)兩日出現(xiàn)異常情況;2021年8月2日,山東健康碼卡頓;2021年12月20日,西安一碼通崩潰;2021年12月25日,天津健康碼出現(xiàn)異常;2022年1月10日,廣東地區(qū)日常使用的粵康碼和天津市核酸檢測(cè)系統(tǒng)相繼被曝系統(tǒng)崩潰;2022年4月14日,上海健康云故障——這也是出現(xiàn)在東軟系統(tǒng)上線時(shí)。 “每當(dāng)一個(gè)城市核酸系統(tǒng)出現(xiàn)問題,信息化領(lǐng)域就討論一兩天?!币患裔t(yī)療信息化服務(wù)商高層對(duì)此已司空見慣。 他所在的公司原本負(fù)責(zé)地級(jí)市的醫(yī)療信息化項(xiàng)目,當(dāng)中標(biāo)西北某一個(gè)省份的健康碼運(yùn)營后,系統(tǒng)訪問量從原來的幾十萬擴(kuò)增到幾百萬,系統(tǒng)一下子出現(xiàn)卡頓。 核酸系統(tǒng)崩潰的原因幾乎都是因?yàn)椴l(fā)量太大。好比一個(gè)衣柜里放了鞋子、衣服、褲子,有人要穿鞋,有人拿衣服,有人拿褲子,當(dāng)所有人都涌入一個(gè)衣柜門的時(shí)候,衣柜就不夠用。這個(gè)時(shí)候,技術(shù)人員需要把鞋放一起,把上衣歸置起來,把褲子疊一塊,多開幾個(gè)衣柜門。還是不夠用,開更多的門,逐步去優(yōu)化。 網(wǎng)絡(luò)也是如此,在同一時(shí)間節(jié)點(diǎn),當(dāng)千萬級(jí)別的訪問量全部涌向目標(biāo)服務(wù)器時(shí)候,就如早高峰時(shí)期的高速路出口,全線擁堵。行業(yè)技術(shù)控們把這種情況稱為高并發(fā)。 硬件和軟件上,任何一個(gè)小毛病和小細(xì)節(jié),都會(huì)導(dǎo)致最終的崩盤。具體原因,需要根據(jù)“系統(tǒng)日志”,這一記錄了系統(tǒng)運(yùn)行狀況的東西來一一排查。硬件基礎(chǔ)設(shè)施,包括服務(wù)器的內(nèi)存、網(wǎng)絡(luò)存儲(chǔ),還有國家特別重視的安全問題。剩下的才是架構(gòu)設(shè)計(jì)、代碼、數(shù)據(jù)庫這些軟件應(yīng)用系統(tǒng)。 至于東軟的問題到底出在哪里,上述人士認(rèn)為,沒有拿到東軟系統(tǒng)的日志情況之下,很難下判斷。它的健康碼中間連了多少個(gè)第三方系統(tǒng)、有多少接口,目前都不清楚。 看似簡(jiǎn)單的核酸碼背后,有無數(shù)的第三方系統(tǒng)與接口,這一些看不見的鏈接,如毛細(xì)血管般縱橫交錯(cuò)。一旦一方出了差錯(cuò),也會(huì)影響最終運(yùn)行。 毋庸置疑的是,東軟在技術(shù)和管理的細(xì)節(jié)層面存有不足?!拔覀兘o醫(yī)院做系統(tǒng)的時(shí)候,同樣的系統(tǒng),在別的醫(yī)院可以,但到了某一個(gè)醫(yī)院就不行,這里涉及到每家公司給的接口、形式不一樣。雖然中間程序是一樣的,但整個(gè)接口方式,提供的硬件,都是有偏差的。”一位行業(yè)人士提及,在訪問量沒那么大的時(shí)候,這些小毛病都被掩蓋掉,但突然一秒鐘就上來幾十萬或幾百萬訪問的時(shí)候,是不容許企業(yè)犯錯(cuò)的。而東軟,很顯然在細(xì)節(jié)上沒有處理好。 好的系統(tǒng)都是用出來的。不用的時(shí)候,都會(huì)覺得那些是小問題,一旦用起來,尤其是在訪問量大的時(shí)候,小毛病就會(huì)以幾何級(jí)數(shù)無限倍放大。 而多位業(yè)內(nèi)人士認(rèn)為,東軟系統(tǒng)在多個(gè)北方城市核酸檢測(cè)時(shí)應(yīng)用過,沒出過太大的問題,但這些運(yùn)行良好的城市往往是人口在1200萬以下的中小規(guī)模的城市。“一旦進(jìn)入人口2000萬以上的大型城市,進(jìn)行全民核酸檢測(cè)的時(shí)候,東軟應(yīng)該這方面的經(jīng)驗(yàn)有限。”東軟在上海和成都出現(xiàn)問題,都因?yàn)檫@兩個(gè)城市都是人口超過2000萬人的超級(jí)城市,且做的是全城大篩。 一位核酸檢測(cè)企業(yè)人士回憶,后來東軟在上海的問題得以解決,是讓核酸檢測(cè)機(jī)構(gòu)在夜里某個(gè)時(shí)段不集中上傳檢測(cè)結(jié)果——相當(dāng)于在一條馬路上用分流的方式,解決了擁堵的問題。 -02- 標(biāo)題:上海疫情兩個(gè)系統(tǒng)切換 4月上旬,在上海,健康云的系統(tǒng)切換成了東軟的核酸檢測(cè)系統(tǒng)。東軟系統(tǒng)剛上線時(shí),也出現(xiàn)過和成都此次類似的系統(tǒng)崩潰。 在上海一些核酸檢測(cè)企業(yè)看來,健康云系統(tǒng)是對(duì)核酸檢測(cè)企業(yè)比較友好的系統(tǒng),從用戶掃碼檢測(cè),到裝車、運(yùn)輸?shù)綄?shí)驗(yàn)室,每一步企業(yè)都可以從后臺(tái)查到。這意味著,一旦出了問題,企業(yè)很容易查到問題出在哪一步。當(dāng)一些居民著急等核酸結(jié)果,電話給檢測(cè)企業(yè)時(shí),企業(yè)工作人員憑借身份證號(hào)碼就能查到核酸檢測(cè)結(jié)果。 而核酸檢測(cè)企業(yè)和部分區(qū)和區(qū)以下的政府部門是沒有權(quán)限查看東軟系統(tǒng)內(nèi)部核酸檢測(cè)進(jìn)展的。當(dāng)有居民在未出結(jié)果時(shí)致電檢測(cè)企業(yè)時(shí),企業(yè)難以憑借居民身份證信息查詢。 但另一方面,相關(guān)人士認(rèn)為,雖然對(duì)核酸檢測(cè)企業(yè)的服務(wù)不夠開放,東軟系統(tǒng)更有助于疫情集中管理。 東軟系統(tǒng)條碼不和居民身份證具體信息關(guān)聯(lián),意味著條碼可提前印刷,采樣的時(shí)候節(jié)省時(shí)間。但采樣時(shí)節(jié)省下的時(shí)間,需要上傳前預(yù)留信息核對(duì)的時(shí)間——這意味著壓縮了核酸檢測(cè)企業(yè)的檢測(cè)時(shí)間。 -03- 應(yīng)急軟件的投入難題 2011年,12306網(wǎng)站剛上線時(shí),同樣因?yàn)榭D而被噴得狗血淋頭。搶票軟件的加入,更加劇了它的堵塞。在春運(yùn)高峰這一“極端條件”之下,網(wǎng)上購票的希望幾乎渺茫。而這就是一個(gè)邏輯比較簡(jiǎn)單的賣票軟件,而就是這么一個(gè)簡(jiǎn)單的軟件,一位行業(yè)人士指出,阿里卻用了好幾年的時(shí)間,投入了高昂費(fèi)用,系統(tǒng)才得以優(yōu)化。 但核酸檢測(cè)不可能給廠商充足的時(shí)間調(diào)試。“在好幾個(gè)廠商跟平臺(tái)連接的情況下,解決高并發(fā)量的問題,就如同被束住手、束住腳,非常難?!币晃恍袠I(yè)人士指出。 某些地方健康碼工程,一開始只是一個(gè)獨(dú)立的小項(xiàng)目,由某一個(gè)大公司的小團(tuán)隊(duì)在開發(fā)運(yùn)作。但隨著防疫任務(wù)越來越重要,系統(tǒng)也需要升級(jí)迭代。從經(jīng)濟(jì)角度考量,不可能再推倒重來,企業(yè)只能開著飛機(jī)換引擎。原來用以代步的小奧拓,如今承載著賽車的職能,在這種情況下,給它改裝,難上加難。 這也涉及到政府和廠商是否愿意投入的問題。 核酸碼系統(tǒng),并不是高頻用的一個(gè)軟件系統(tǒng)。但使用的時(shí)候,對(duì)企業(yè)要求又極高,最高訪問量會(huì)突破原來系統(tǒng)極限,這就需要一筆新的投入來維護(hù)升級(jí)。實(shí)際上,無論是作為甲方的政府,還是乙方的廠商,都不愿意在硬件上投入過多?!耙坏┫氲狡綍r(shí)不用,投入意味著浪費(fèi)。而往往是出了問題之后,才覺得這個(gè)事情很重要?!币晃会t(yī)療信息化從業(yè)人員坦言。 另外一些廠商則認(rèn)為,核酸碼的業(yè)務(wù)場(chǎng)景不復(fù)雜,因此在前期投入中,尤其不愿意在騰訊云、阿里云服務(wù)器上投入過多。 他透露,某一個(gè)GDP較為落后的省會(huì)城市在服務(wù)器上的投入,一開始只有幾十萬的費(fèi)用,因?yàn)橐咔榉揽?,最終到了百萬級(jí)別。這對(duì)于地方財(cái)政拮據(jù)的省份而言,已是一筆不菲的投入。 騰訊、阿里、華為等公司的云計(jì)算服務(wù)器,可以按月購買,擴(kuò)容能力強(qiáng),是應(yīng)急情況之下的最佳選擇。但大多數(shù)地方衛(wèi)健委不會(huì)把這些高度敏感的數(shù)據(jù)交給第三方,反而更愿意購買實(shí)體服務(wù)器。 這些大鐵殼子般的實(shí)體服務(wù)器,帶來數(shù)據(jù)安全的同時(shí),在應(yīng)急條件之下會(huì)暴露一個(gè)缺陷:空間是否夠用。 -04- 多方協(xié)同問題 “每個(gè)城市疫情的應(yīng)急預(yù)案里,原則上要考慮到最高峰的那個(gè)點(diǎn)上,到底有多大的并發(fā)量?!?/span>上述人士認(rèn)為,這屬于項(xiàng)目管理本身的細(xì)節(jié)問題。 哪怕臨時(shí)通知說12點(diǎn)之后全員核酸,在這個(gè)情況下,管理上怎么應(yīng)對(duì),如何去協(xié)同?就小毛病而言,幾個(gè)廠商一起來跑一遍系統(tǒng),逐一排查軟件硬件,類似這樣的演練是必要的。 但事實(shí)上是,某個(gè)城市什么時(shí)候發(fā)生疫情,什么時(shí)間點(diǎn)做核酸,都是不可控的。核酸檢測(cè)采樣的調(diào)度、居民的安排,這些都是不確定因素,為急需確定性和規(guī)范化的軟件設(shè)計(jì)增加了難度。 “我們之前在西北那個(gè)省份,也沒做事先的排查。臨時(shí)通知上線系統(tǒng),真的來不及?!?/span> 這也是網(wǎng)民在指責(zé)東軟失職的一個(gè)關(guān)鍵點(diǎn)——內(nèi)部的壓測(cè)是否到位? 這涉及到了與其他廠商的協(xié)同問題。一個(gè)系統(tǒng)工程背后,除了系統(tǒng)集成商之外,包括多個(gè)分包商。西安的一碼通,曾集結(jié)了電信、東軟、美林和安恒等公司。 大多數(shù)情況之下的壓測(cè),各個(gè)廠商有點(diǎn)“各自為政”的意思。一般,軟件廠商會(huì)自己測(cè)試自己,鮮少幾家聯(lián)合起來測(cè)驗(yàn)?!安煌瑥S商坐在一起的時(shí)候,大家都覺得自己沒有問題,都會(huì)覺得是別人的問題。理由也會(huì)一致,我們的系統(tǒng)在別的地方跑過,沒出岔子?!?/span> 原則上,監(jiān)督管理部門要把所有廠商叫在一塊協(xié)同作戰(zhàn)。但一個(gè)廠商負(fù)責(zé)人坦言,在沒有頂層統(tǒng)籌的強(qiáng)壓之下,廠商之間的溝通和協(xié)調(diào)很難達(dá)成。甚至應(yīng)對(duì)這一局面,各家的心思都極為微妙。 “每個(gè)廠家在系統(tǒng)上的投入都是一筆巨額開支,在應(yīng)急狀態(tài)之下,如果上面領(lǐng)導(dǎo)沒表態(tài),也沒明確是公益性質(zhì)還是有償?shù)母冻觯瑥S家相應(yīng)選擇也是謹(jǐn)慎的?!?/span> 但東軟這一事件,也給一家醫(yī)療信息化廠商帶來一個(gè)集體反思——在系統(tǒng)部署之初,根據(jù)城市規(guī)模,先測(cè)算一下最高峰值訪問量,經(jīng)過應(yīng)急演練、壓測(cè)演練之后,必須得和政府提出相應(yīng)的資源配置。 在常州,一個(gè)500多萬人口城市,曾經(jīng)也出現(xiàn)過系統(tǒng)故障。在組織核酸檢測(cè)時(shí),大白會(huì)提示,“打開場(chǎng)所碼,截屏即可,不要在同一時(shí)間點(diǎn),大家都涌入一個(gè)系統(tǒng)中?!?/span> 這是技術(shù)層面之外,一個(gè)城市應(yīng)急預(yù)案的管理能力問題。 聲明:本文觀點(diǎn)僅代表作者本人,不代表煜森資本立場(chǎng),歡迎在留言區(qū)交流補(bǔ)充;如需轉(zhuǎn)載,請(qǐng)務(wù)必注明文章作者和來源。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)?jiān)诒酒脚_(tái)留言,我們將在第一時(shí)間刪除。