欢迎访问:沃派博客 每天不定时发布IT文章相关资讯
当前位置:沃派博客-沃派网 > IT文章 > 正文

帮百度AI干脏活累活的公司,都死了

03-12 IT文章

帮百度AI干脏活累活的公司,都死了

文 |  李夜

在接触数据采标行业过程中,黑智听到一个陆奇和河南标注工厂的故事。

据悉,大部分河南标注工厂用的是百度的标注工具,干的是百度的活。陆奇掌旗百度时,放出了大量采标需求。当时,活不难(准确率只有90%),标注的利润空间可以达到60%—70%。有些企业盲目扩张,一下子招了几百人;陆奇离开后,百度需求恰也减少。2018年下半年,准确率又普遍提高至95%-96%,活难干了。这些工厂只会百度的标注工具,很难接别家的业务,因此死了一批。没有死的工厂不得不裁员,目前处于艰难转型中。

当河南标注工厂艰难转型时,张三的标注公司却正式营业。公司初建,百事繁杂,前几天,黑智才在中午空闲时间,联系上他。他告诉黑智,两个年前的单子需要返工,一直在忙。对于初建公司,忙比闲好。如果有一天空闲下来,张三说他晚上都会睡不着觉,“一天没活干,几千块钱就打水漂了。一个月得支出15万(注:目前,公司有65名员工)。”

在他看来,标注行业是一个苦行业,“前半年,一定会赔钱的,你要做好一个人赔一万块钱的准备。”他笑着告诉黑智,“如果你和谁有仇,就劝他干标注吧。”这是标注圈有名的段子。标注圈说大不大,说小也不小,分了四个梯队。张三说,他的公司属于第三梯队。第一梯队,比如百度众测、京东众智等。第二梯队,比如龙猫数据、Testin云测、倍赛BasicFinder、数据堂等。他将第二梯队和第三梯队的关系,比做小房地产开放商和搬砖工人。第三梯队之下,是数量巨大的小作坊,团队规模在3-5人之间。

帮百度AI干脏活累活的公司,都死了

标注行业又是一个有前景的新生行业。

新生意味着不确定与无限可能,“干标注就像将水倒进一个水桶里,每拉一个框就是添一碗水。目前,谁也不知道还能添多久,只有水溢出来时,才知道。”这并不妨碍张三设计未来,“第一步,现阶段先服务好第二梯队,以后搞一个平台,把公司做成第二梯队。”

300亿市场与转折点

数据采集、标注市场有多大?300亿元。

1984年前后,这个市场就出现了。欣博友的公司是众多公司中的一家。当时,这些公司更像一个“录入公司”——将纸质内容电子化,而不是标注公司。“录入”是一个劳动密集型的工作,一家公司需要雇佣很多人来做这件事。智联招聘显示,欣博友在公司人数项上,勾选的是“1000—9999”。

和欣博友不同,海天瑞声成立于1998年,做的是语音标注,自建了很多语音库,业内人士告诉i黑马&黑智,重复销售以前做的语音库是海天瑞声比较大一块业务。数据堂成立于2011年,通常外界对其最深印象是“它是国内最大的数据交易平台”。这和其起家业务相关。

2015年前后,随着以榜单中的人工智能公司TOP50的强势崛起,数据标注和采集需求逐渐多了起来。这个市场才真正意义上形成,也即前面提到的四个梯队。他们作为乙方,进入到这个日益扩大的市场,为估值超10亿美金的AI独角兽服务,教能够改变世界的人工智能产品学习。

1.得数据者得AI的天下

数据是AI公司的必需品。就像人每天需要一日三餐,而AI模型也每天需要数据的喂养。数据和AI模型的关系,倍赛BasicFinder创始人兼CEO杜霖理解深刻。高中期间,他开始研究计算机视觉,高三发表了论文。大学期间,他也一直在做相关的研究。他知道数据对于AI模型的重要性,并得出“AI建模没有门槛,数据才是门槛”的结论。

在他看来,现阶段的人工智能是简单的认知智能。“认知智能就是帮你去识别、分类这个世界。分类器的构造是个数学问题,就是由数据堆起来的。”“深度学习本质上是个数学问题,是由大量的样本空间数据反向构造分类器的系数空间的过程。你要有很多样本,什么叫样本?知道正确答案的才叫样本。这跟我们小时候求多样式、求系数式是一个道理。我们要有很多空间中的已知点,才能拟合成一个多样式。同理,深度学习也是这个模式,也需要大量样本,也即标定好的数据。”

于是,杜霖认准了“在现阶段工业界的AI应用研发,标数据是一定跳不过去的,可能10年之内都要依赖于标数据。”数据对于AI的重要性如斯,但数据的标注和采集公司并没有学界、业界、资本甚至是媒体的认可,光环一开始便属于那些做模型研发的AI公司,比如商汤科技、旷视科技等。

版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/43512.html