作者 | 王耐
編輯 | 石亞瓊(郵箱:syq@36kr.com)
**
為了服務企業(yè)的數字化轉型,數據科學平臺(Data Science and Machine Learning Platform,簡稱DSML)的服務商大量涌現,比如Databricks、Dataiku、Domino Data Lab、Alteryx等企業(yè),其中Databricks被納斯達克列為2022年最值得關注的IPO之一。
根據Gartner的調研,63%的企業(yè)計劃加大在DSML方面的投入,這也是CIO優(yōu)先級最高的品類。Gartner將DSML平臺定義為核心產品和相關集成產品、組件、庫和框架(包括專有、合作伙伴和開源)的支持產品組合。該平臺還支持將數字化解決方案合并到實際業(yè)務流程、組織的基礎架構及產品和應用程序中。簡而言之,就是把集中的數據資源、技術能力和分散的業(yè)務團隊、業(yè)務場景打通,讓數據變成更有價值。
成立于2015年4月的和鯨科技(全稱:上海和今信息科技有限公司)前身為數據競賽平臺科賽網,目前是一家專注于“數據科學協同平臺”的數據智能科技公司和平臺服務商,公司以“Connect People with Data”數據與人的價值鏈接”為使命。公司在近日還獲得A+輪融資,由考拉基金領投,五源與線性跟投數千萬人民幣。
公司搭建的數據科學協同SaaS產品“ModelWhale”,可滿足數據科學家、人工智能工程師、商業(yè)分析師等數據工作者在線完成算法建模、數據分析、數據可視化等任務,并支持私有化部署和云端協同,幫助企業(yè)、高校、科研機構、政府機構開展工業(yè)級數據科學與人工智能的應用研發(fā)。除此之外,公司還經營中國最大的數據科學開源社區(qū)——“和鯨社區(qū)”,幫助中國的企業(yè)和機構對接優(yōu)質開源算法、開源數據、算法人才。
和鯨科技業(yè)務
數字化轉型已是共識,業(yè)界討論的重點也從“為什么數字化”,變成了“如何數字化”。埃森哲和工信部下屬機構聯合完成的《2021中國企業(yè)數字轉型指數研究報告》(以下簡稱為《報告》)發(fā)現,中國企業(yè)數字轉型指數從2018年的37分,已上升至2021年的54分。轉型成效顯著的領軍企業(yè)達到16%,比去年提升了5個百分點。
值得注意的是,《報告》中還提到,盡管領軍企業(yè)的數字化優(yōu)勢在持續(xù)擴大,但多數企業(yè)因為戰(zhàn)略部署落后、基礎薄弱、組織架構不合理、人才不足等因素,只能采取小修小補的方式,兩者的差距不斷拉大,數字化的馬太效應已經凸顯。成本高、風險高、見效慢、差距大的問題,使企業(yè)在數字化轉型上如履薄冰、舉步維艱,如何破冰成為企業(yè)急需解決的問題。
為了幫助企業(yè)應對這個難題,和鯨科技的回答是:以數據人才為杠桿,以組織協作為樞紐,實現數據要素的價值閉環(huán)和價值循環(huán)。
數據要素的價值閉環(huán)
和鯨科技的主要產品是數據科學協同平臺——ModelWhale,其主要是為了幫助企業(yè)打通“數據協同、數據利用、業(yè)務落地、能力復用”的端到端流程,從而讓數據變得有用處、有價值,同時實現人才和技術資產的積累,最終構建起“人才技能、技術落地、業(yè)務效益”三者的良性循環(huán),進而支撐企業(yè)的數字化轉型。
在企業(yè)級數據平臺市場中,和BATH等巨頭的競爭是繞不開的話題,和鯨科技創(chuàng)始人范向偉對此表示,BATH的定位是做數字化底座,和鯨科技專注于上層應用的協同場景,也就是數據要素的“最后一公里”。
相對于市場的同類產品,和鯨的差異化在于將協同能力作為內核,將敏捷開發(fā)、DevOps的理念,落實在了模型開發(fā)與應用的全流程之中。BCG的研究報告《金融機構如何駕馭大數據》顯示,協同是大數據應用最主要的瓶頸,挑戰(zhàn)要高于技術因素和資源因素。尤其是局部驗證了數據對于業(yè)務的價值之后,當企業(yè)希望規(guī)?;胤糯筮@種價值,協作的瓶頸就會凸顯。
和鯨科技的主營業(yè)務是數據科學協同平臺ModelWhale的SaaS產品,該產品專注于實現組織內部的數據人員和業(yè)務人員的實時協同,也支持跨地域、跨組織的協同場景。
跨地域、跨組織的協同
和鯨科技業(yè)務迭代
數據科學協同平臺ModelWhale,分為三大板塊,分別 包括基礎層、協同層、開放層。通過三大板塊的層層遞進,來實現數據科學能力從IT端到業(yè)務端的銜接,將開放、協作、復用的理念落地,最終構成了數據智能應用的敏捷開發(fā)和精益創(chuàng)新的閉環(huán)。
在基礎層,需要實現的是技術能力的彈性利用、動態(tài)組合。ModelWhale可實現統一高效的數據管理和資源調度,支持低代碼、Notebook和CloudIDE的三種開發(fā)模式。其中,ModelWhale的資源調度能力,可滿足不同級別的模型訓練需求。該平臺以云計算能力為基礎,自主研發(fā)了高可用的算力調度器,具備按需計算、彈性擴容的優(yōu)勢,從而可以支持從1個用戶到數千個用戶的低成本、高效率地快速拓展,幫助企業(yè)節(jié)約可觀的算力成本。低代碼、Notebook和CloudIDE的支持,對應了不同背景的用戶的技能條件與需求特點,也覆蓋了數據應用從探索到開發(fā)、從工程化到生產上線、從運維到迭代的整個生命周期的開發(fā)需求。
開發(fā)模式、數據管理、資源調度
在協同層,實現的是個人、團隊和基礎設施三者的持續(xù)拉通、成果復用。ModelWhale積累了數據科學的全要素、全流程的協作能力組件,能對各類研究課題、算法項目、分析任務,進行分工拆解、任務分配、數據接入、資源分配、進度監(jiān)控、成果驗收、成果復用等項目管理工作。該平臺也可支持對單個成員的資源用量監(jiān)控和用戶群組管理,在項目開展前后可以有效規(guī)劃資源、避免浪費、保障計算資源的合理分配使用。通過協作層的支撐,可以讓合適的數據,被合適的團隊,在合適的任務上,實現緊密地咬合、持續(xù)地迭代、高效地復用。簡而言之,也就是實現敏捷開發(fā)理念和數據科學實踐的結合。
ModelWhale適用研究
在開放層,實現的是個人、企業(yè)與開源技術生態(tài)的協同共生、成果共享。在基礎層和協同層的能力之上,ModelWhale可以與和鯨社區(qū)實現系統化的打通?;诤亡L社區(qū)數據開發(fā)者的算法能力、建模能力,企業(yè)可以將企業(yè)的數據應用需求,與高校、科研機構、社區(qū)開發(fā)者進行對接。通過ModelWhale的全流程的托管,可以保障開放層開發(fā)過程中的安全性、高效率,以及開發(fā)成果的可用性、可維護性。通過ModelWhale的開放協同的能力,個人和企業(yè)都可以用更低的成本、更快的速度,實現"(數據+算法+算力)*人才"的價值閉環(huán)和價值放大。
(數據+算法+算力)*人才
數據科學協同平臺ModelWhale目前主要使用場景在科研機構、企業(yè)和高校。在采訪中,范向偉提到,自從ModelWhale產品問世,連續(xù)三年,產品收入均保持了每年2倍以上的增長,并在市場的競爭中,占據了相對領先的位置。標準產品的年銷售收入,從三年前的百萬級,達到現在的千萬級。目前公司的營收占比中,科研的份額占到了2/3,政企占到了1/3。對此范向偉補充到,數據協同的能力是不斷驗證、不斷迭代、不斷疊加的,靠的是滾雪球,打的是持久戰(zhàn),沒法一口吃個胖子,也沒有這個可能性。
數據科學平臺的國內市場還處于成長期,離歐美發(fā)達市場還有3-5年的距離。和鯨科技認為,技能賽事、培訓教育、科研協同是國內平臺型產品的一個很好的切入點。在數字化的進程中,這些場景是頭部客戶在人才和組織成長方面的剛需。從科研切場景切入,也可以幫助平臺完成核心能力、核心用戶的原始積累與需求驗證。通過教育、科研、企業(yè)的有序分層,形成有梯度的市場滲透、能力疊加,能幫助平臺繞開“城墻”,實現更快、更穩(wěn)、更精準的迭代升級與產品增長。
和鯨科技目前的平臺客戶場景包括氣象、醫(yī)院、藥企、高校、科研、新能源、傳統能源、金融等多個場景??蛻舭ㄇ迦A大學、上海交通大學、中石油、國家氣象信息中心、中國電信、中國醫(yī)學科學院、解放軍總醫(yī)院、強生醫(yī)療、默克制藥、信通院、國家人口與健康數據中心、北京醫(yī)保局、金風科技、九坤投資等多個國家級和行業(yè)級的頭部客戶。
和鯨科技客戶
和鯨科技的典型客戶,如國家氣象信息中心、解放軍總醫(yī)院、協和醫(yī)學院、金風科技,有著共同獲客、轉化、增購的路徑。和鯨科技對此補充到,機構內的數據科學家、數據分析師,通過和鯨社區(qū)的內容與活動,可體驗到ModelWhale在特定場景的數據應用的功能優(yōu)勢。經歷個人版的試用之后,再向所在的團隊進行組織版和企業(yè)版的推薦。這也實現了從個人到團隊,再到機構的價值驗證和價值放大。ModelWhale在經過金風科技數據部門的驗證、采購、局部落地之后,進一步拓展場景,在一年的時間中,實現了平臺用戶從30人到300人的增長,覆蓋了集團公司三十余個部門。
產品體驗推動增長(PLG)
以解放軍總醫(yī)院、協和醫(yī)學院等頭部的醫(yī)療客戶為例,范向偉在采訪中介紹到,醫(yī)學的復雜性很高,數據智能也是剛需,但醫(yī)生、研究人員普遍不具備專業(yè)的編程能力。ModelWhale可以通過低代碼的簡單易學的方式,最小化技能門檻,并通過協同能力,使IT、臨床、研究等不同崗位的人才相互配合,通過背靠背的協作,實現數據應用的價值閉環(huán)。通過社區(qū)用戶覆蓋頭部客戶,再通過頭部客戶的實踐,實現腰部客戶的復制,成為了和鯨的業(yè)務增長的效率杠桿。
頭部客戶的成功落地,為其他的機構、企業(yè)提供了平臺落地的背書與示范?;陬^部機構知識庫、案例庫的沉淀,數據平臺從產品到落地,也逐漸走向了標準化、普及化。范向偉對此介紹到,和鯨在和解放軍總醫(yī)院、協和醫(yī)學院等頭部醫(yī)院的合作中,其實也是在共建算法庫、知識庫、案例庫。頭部機構的機器學習、人工智能的課程與案例,本身就是面向行業(yè)中的醫(yī)生和學生的。目前和鯨與頭部醫(yī)院、頭部藥企共同組織的數據競賽,每年覆蓋的人數可達到上千人、幾百家醫(yī)院。
除了醫(yī)療、生命科學等科研場景,在企業(yè)場景中,數據平臺不僅要面對大量IT系統的對接、打通需求,還要面對復雜的業(yè)務場景,這使得銷售成本、實施成本、研發(fā)成本都很高。如果產品無法定位到精準的應用場景、用戶人群,無法用可控的成本滿足客戶需求,實現數據價值的落地,那么數據平臺產品的采購、復購的成功率就會很低,研發(fā)和分銷也無法實現提速,這會形成一種惡性循環(huán)。
數據科學平臺的選型和落地,有著很高的復雜性和實施風險,客戶的產品選型是高度謹慎的,公司在頭部客戶在選型和落地上的經驗積累,提升了公司標準產品的服務能力和規(guī)模商用的影響力。公司表示,目前和鯨科技已在氣象、醫(yī)療、科研、能源、金融等領域實現了部分頭部客戶的覆蓋與轉化,以及高比例的復購與增購。
產品體驗推動增長(PLG)
SLG(銷售驅動增長)賣軟件靠的是銷售渠道,而PLG(產品主導型增長)更注重用戶和產品,通過產品自身實現獲客。此模式獲客成本低、增長速度快、迭代效率高,典型公司比如Atlassian、Canva、Zoom等。PLG對產品研發(fā)與市場營銷,都提出了很高的要求,中國目前能夠面向頭部客戶,走通PLG的企業(yè)仍是少數。
隨著企業(yè)對成本-效益和可持續(xù)性的敏感度提升,為了滿足客戶需求,服務商就需要提供更低成本、更快迭代、更高效率的方案。PLG模式對于企業(yè)客戶也意味著更低的試錯成本、部署成本和維護成本。順應企業(yè)客戶的需求和技術發(fā)展的趨勢,是整個SaaS行業(yè)在重點探索的方向。
PLG模式的商業(yè)邏輯是產品主導、加速迭代。推出高質量的產品是前提,而產品優(yōu)質首先需要有足夠深的用戶洞察。只有圍繞用戶洞察和用戶痛點,才能持續(xù)地驗證產品設計、提升產品性能、疊加產品壁壘。所以PLG的邏輯起點是,平臺公司需要先找到核心用戶、形成與核心用戶之間的共生關系。
和鯨科技的前身是科賽網,現在已經演化為擁有25萬注冊的和鯨社區(qū),社區(qū)在過去六年保持了每年100%的增速,成為了最大的第三方的數據人才社區(qū)之一,注冊人群覆蓋了全國的主流高校、研究院和企業(yè)。和CSDN等傳統開發(fā)者社區(qū)相比,和鯨社區(qū)的差異化能力,在于數據分析的流程、代碼、結果是可以在線運行、實現端到端的復現,其他用戶可以對社區(qū)內的模板進行運行、修改和進一步的分享。
和鯨社區(qū)交互界面
和鯨社區(qū)通過和各個行業(yè)的頭部客戶合作,已組織了超過200場專業(yè)數據科學與人工智能競賽,累計有10萬多數據人才參加,解決了超過20類人工智能業(yè)務問題,累計算法解決方案2000多項。數據競賽將數據、算法、人才和行業(yè)應用場景匯集在一起,形成了聚集效應。多年的數據競賽服務經驗,也提升了和鯨在數據人才和行業(yè)企業(yè)中的知名度和影響力。
競賽和社區(qū)為和鯨帶來了大量精準的專業(yè)用戶群體,也為數據科學協同平臺ModelWhale的發(fā)展提供了多方面的賦能。在采訪中,范向偉提到社區(qū)和競賽,一定程度上降低了數據平臺的綜合成本。對此他解釋到,建設數據平臺的成本上包括三個方面,一是開發(fā)成本,開發(fā)起步階段常常需要超過數十人的開發(fā)團隊、上億的投資金額;二是銷售成本,平臺的銷售周期很長,面對激烈的競爭,需要維護龐大的銷售團隊和售前團隊,很多技術廠商的銷售成本會占到總成本的五成以上;三是服務成本與定制化成本,因為數據平臺在企業(yè)的落地場景豐富而復雜,數據平臺解決不了的業(yè)務問題,往往需要較高強度的定制化和服務來打補丁。
2021全國人工智能大賽
擁有一個規(guī)模領先、增長領先的一個開發(fā)者社區(qū),就可以在社區(qū)做用戶需求的調研、測試。這些用戶既是產品當前的使用者,也是潛在的產品用戶。相比傳統的市場渠道,社區(qū)的觸達面更廣、增速更快。通過社區(qū)也可以觸達數字化成熟度更高的標桿客戶,這相應也可以降低銷售成本、縮短銷售周期,帶來更高的客戶匹配度和滿意度。
和鯨通過在競賽和社區(qū)積累了大量注冊用戶,這些用戶通過內容和活動拉動,進一步成為ModelWhale平臺的使用者、推薦者和分享者。從個人用戶向機構客戶的轉化,為打通一個B2C2B的鏈條閉環(huán)提供了可能。范向偉在采訪中表示,數據科學平臺是通用技術平臺,數字化轉型是全面變革,只有體驗足夠好、迭代足夠快的產品,才能夠滿足企業(yè)客戶數字化的需求。經過七年的積累,和鯨實現了社區(qū)增長、產品打磨、銷售增長的飛輪,也成功跑通了PLG的商業(yè)模式。目前的產品訂單中,約80%來自于社區(qū)用戶的推薦,80%以上的簽約客戶完成了復購和增購。
疊加社區(qū)和PLG模式
社區(qū)和競賽,不僅幫助和鯨科技實現了平臺產品研發(fā)、推廣、落地的閉環(huán),還促進了平臺的用戶洞察和快速迭代。社區(qū)模式和PLG模式,形成的疊加效果,為數據科學平臺的落地構建了一個價值更高、成本更低、速度更快的良性循環(huán)。在競爭激烈、門檻堅硬的數據平臺的市場中,和鯨占據了一個相對獨特的生態(tài)位。
在采訪中,范向偉也表示,數據科學平臺是天花板很高、壁壘也很高的通用技術平臺,也是有著樞紐地位的兵家必爭之地,一邊要對接體系龐大的云計算生態(tài)、開源生態(tài)、數據資源,一邊要對接高增長、跨行業(yè)、跨場景的業(yè)務需求。市場需求和底層技術,都在快速、深刻的演變過程中,如何把握住不變的核心變量,才是行業(yè)終局的勝負手。長周期的平臺的發(fā)展,主要矛盾在于:要持續(xù)平衡好“產品迭代、行業(yè)資源、業(yè)務增長”三個飛輪的關系。在把握技術趨勢和需求趨勢的同時,既要防止定制化、同質化的過擬合,也要盡早布局行業(yè)的稀缺要素與入口位置,形成企業(yè)的產品迭代飛輪、資源壁壘飛輪,疊加之后形成業(yè)務增長飛輪。
對于和鯨來說,產品迭代飛輪是產品體系和用戶反饋的良性循環(huán),資源壁壘飛輪是頭部的企業(yè)客戶和高潛力的個人用戶。這是在迭代數據能力、分享開源成果、跑通應用閉環(huán)的過程中,形成的一種難以替代、持續(xù)演化的共生關系。
關鍵詞: