格物钛，甘做AI铺路石的隐形英雄

2021-08-26 15:42:49 来源：钥城网

（记者于洪涛）采访崔运凯，是在台风“烟花”登陆前的一个下午。那天的上海，天空虽然有些阴沉，风却不大，典型的台风来临前的宁静。

作为90后的创业者，崔运凯也是一脸的风轻云淡，如同他创办的AI数据基础设施公司格物钛一样的行事风格。在有些浮躁的国内AI市场上，这颇有些不易。

为了让消费者和投资者看得到，为了让自己的业务显得“性感”，绝大多数的AI创业公司都选择从事那些最终消费者能够看到的顶层应用业务，比如人脸识别、智能语音之类的。

与他们不同，格物钛却选择了打造下一代AI数据平台，去帮助千行百业的AI应用开发降低难度、提升效率。在此过程中，格物钛扮演一个铺路石的角色，专心打造AI的底层数据基础设施，成为AI市场的隐形英雄。

立下“让AI触手可及”的愿景

崔运凯先后毕业于上海交通大学与美国宾西法尼亚大学，2015年作为早期员工加入到Uber的无人驾驶部门，从事人工智能研究和产品化工作，后来成为该部门最年轻的Tech Lead Manager。

在Uber，灌满100PB（1PB=1024TB）的数据池可能只需要几个月的时间，这是硅谷其他以处理结构化数据为主的公司不可能遇到的。这相当于让崔运凯提前5-6年看到了AI落地面临的问题。

当时，Uber 除了在印度有很大的数据生产团队外，还将部分数据需求外包给位于西雅图的创业公司，除了要承受昂贵的价格（当时的定价是1张图片5美金），冗长的等待时间（5000张图片大概需要做4个月），还要解决数据的对接、跨境分发、检索、整理及真值数据的保存和使用等一系列难题。而对于无人驾驶来说，训练至少要亿级图片，这无异于把问题难度又放大了数万倍。

2018年，崔运凯回国创业，担任一家高精度地图公司的合伙人。在研发过程中，需要收集海量数据来进行模型训练。为了管理和使用这些数据，崔运凯需要一个合适的数据平台，却苦于找不到一家能够满足需求的公司。

这时的他深刻意识到，无论是国内还是国外，人工智能的整个工具链都非常早期和不完善，如果再做一家AI公司，还会遇到同样的工具问题，还得花大代价把这些问题再解决一遍。

为此，崔运凯干脆决定自己来搭建这样一个平台，通过打造AI的数据基础设施，去系统性地解决问题，使得前东家这样的AI应用开发，难度更低、效率更高。

从创业的第一天起，崔运凯就给格物钛制定了明确的企业愿景：“让AI触手可及”。格物钛服务的对象是AI开发者，他希望通过努力降低AI应用开发门槛，降低高质量数据获取、存储和处理成本，让普通开发者能更好地把时间和资源投入到业务创新上。

帮助AI开发者打牢高质量数据基础

秉持“让AI触手可及”的理念，崔运凯和他的格物钛开始了在国内AI数据基础设施领域的创业步伐，很快获得了红杉、真格等一线投资机构的青睐。

统计数据显示，全球AI市场都在快速增长，我国的AI产业规模早已突破千亿元，正在向万亿级迈进。然而，在众多创业公司和各类行业用户都在积极拥抱AI的同时，另一项调查显示，只有8%的数据专业人士认为他们的组织正在使用AI，未能成功实施人工智能和机器学习的主要原因则是数据质量问题。

人工智能和机器学习的基础就是数据，没有数据也就不会有ML或AI，所谓的机器学习就是机器输入并学习数据，从而输出正确的编码，而不好的数据比没有数据更糟糕。

数据质量差，对于AI应用来说很可能是致命的。比如在自动驾驶场景中，如果原始图像数据中的婴儿车或者自行车没有被准确标注出来，很可能导致车辆在实际道路驾驶时，无法准确识别进而引发交通事故。

“Garbage in,garbage out”。显然高质量的训练数据，对于模型训练效果至关重要，但对于绝大多数的算法工程师来说，这是一项巨大挑战。

崔运凯说，像Uber这样的大公司尚有能力搭建数据基础设施，而创业公司和小规模企业，需要把时间和精力放在自己的产品打磨上，这些数据基础工作理应交给格物钛这样的专业公司来做。这种精细化的分工，在传统IT和云服务领域早已如此，在AI领域也是大势所趋。

为AI开发者而生的格物钛，专注于解决AI开发中的数据痛点，目前主要从事两大业务，一是面向机器学习的非结构化数据平台——TensorBay，二是构建以AI开发者为核心的海量公开数据集社区——Open Datasets。

开启以数据为中心的AI时代

崔运凯介绍说，在国内还没有与格物钛从事类似业务的公司。从全球来看，格物钛的业务模式与Scale AI很像。2016年由两位华裔创办的Scale AI，估值超73亿美金，去年营收上亿，是有史以来最快突破1亿美元的公司之一。

Scale AI从数据标注业务做起，客户已经遍及多个行业，业务范围也逐步拓宽。与Scale AI类似，格物钛为客户提供的也不仅仅是数据标注服务。

崔运凯表示，格物钛提供的是以数据为中心的解决方案，数据标注是其中很重要又最容易理解的一个环节，但并不是全部。

格物钛的核心产品TensorBay，是一款非结构化数据管理平台。之所以瞄准非结构化数据，是因为其在整体数据的占比越来越高。

IDC报告显示，未来非结构化数据将会占据数据总量的80%，其中就包括AI训练经常要用到的视频、图像、语音等类型数据。比如我国每年销售的摄像头达到上亿个，产生的数据则可以达到十几ZB（1ZB=1万亿GB），由于数量过于庞大，这些数据未能得到很好的保存和利用。

崔运凯更愿意把格物钛的产品放在MLOps工具链去理解。

早前，机器学习一贯以模型为中心，更强调构建模型、调整超参数或选择正确架构，来提升AI模型效果。AI/ML最权威学者之一吴恩达上半年发布了课程《MLOps：从以模型为中心到以数据为中心的AI》，他认为“以数据为中心”的时代已然来临。

格物钛TensorBay的设计理念，也更偏向于以数据为中心的AI策略，用工具链和系统化的方法来提升数据质量，通过不断地喂给数据，让模型保持轻微调整，这会使模型的效果批量提升成为可能。对于规模精简的算法团队而言，显然以数据为中心的策略相比于以模型为中心的策略更具可操作性。

打造全球最大的公开数据集

格物钛除了通过TensorBay提供非结构化数据的管理、查询、协同、可视化和版本控制功能以外，也在积极构建公开数据集社区Open Datasets，为全球AI开发者提供高质量的开源数据集。

我们都知道，AI应用需要依赖大量的数据进行模型训练。然而，可用的数据集一直都是市场上的稀缺资源，尤其是随着AI应用向千行百业的逐步渗透，对数据集尤其是高质量数据集的需求越来越大。找数据难、买数据贵，成为全球AI开发者普遍面临的问题。

与此同时，秉承开源的思想，也有一些数据的拥有者，希望能够分享自己的数据集，使其价值能够得到充分释放。格物钛的Open Datasets可以被简单理解为是“GitHub for Data”，目标是打造成全国乃至全球最大的公开数据集社区，与AI开发者和行业合作伙伴一起，打破数据孤岛、共建开源数据生态。

比起“数据是新石油”这个说法，崔运凯更倾向于认为“数据是用之不竭的阳光”，因为数据是非竞争性的，可以被任意数量的公司或个人同时使用和重复使用，而不会发生减损。

格物钛为此专门发布了“寻集令”生态合作伙伴招募计划，面向全球市场吸纳优质公开数据集合作伙伴。据了解，目前Open Datasets已有1200+个优质数据集，涵盖了各行各业，用户可以免费上传和开源下载，并支持云端读取。

为提升用户的使用体验，Open Datasets 提供了在线数据可视化功能，无需下载处理，即可在数据集详情页查看标注情况及标签分布。同时，对于数据集发布方，Open Datasets 自身丰富的流量及讨论功能也为连接用户提供渠道。

甘当铺路石的隐形英雄

在奥运赛场上，吸引眼球的都是那些光鲜亮丽的金牌获得者，而不是那些为选手们提供幕后服务的人和机构。在国际网坛，人人都熟知德约、纳达尔、费德勒、穆雷这四大巨头，却很少有人知道位于佛罗里达小城的IMG Academy，很多知名网球选手都是在那里训练成长起来的。

默默无闻，不等于没有价值。恰恰相反，这些甘当铺路石的隐形英雄，不仅正在发挥越来越重要的作用，其市场价值也在不断提升。正如硅谷教父彼得·蒂尔所言：“在激烈的竞争中，AI公司们会出现又消失，但是Scale会一直存在，因为它提供的是整个AI/ML行业的基础设施，数据是这个行业最重要的东西。”

崔运凯说，虽然现在人人都在谈AI，但真正用到AI的公司还不是很多。目前AI在国内发挥的作用仍然只是冰山一角，许多应用还没有落地。未来当AI像云一样普及时，格物钛希望能够成为云市场的亚马逊。

当然，对于成立仅仅两年的格物钛来说，梦想才刚刚开始，前面的道路还很长。在为AI市场铺路的同时，格物钛今天所做的一切，也是在其未来的雄心壮志铺路。

那一天，应该不会很远。

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

格物钛，甘做AI铺路石的隐形英雄

相关文章

隐形

英雄

铺路石

热门文章

热点排行

猜你喜欢