This website requires JavaScript.
AI数据服务公司「爱数智慧」完成B轮融资

AI数据服务公司爱数智慧已于2021年初实现B轮融资,融资金额实现数千万人民币。本次融资的资金将主要被用于打造覆盖全球的AI开源社区MagicHub,人工智能对话式AI的训练数据集产品设计和数据采集标注SaaS平台的研发等方面。


伴随着人工智能在各种场景的落地应用,上游的AI数据服务行业的市场规模不断发展。数据、算法、算力是驱动人工智能发展的3个核心要素。数据作为人工智能技术架构的基础层,其数量和质量会与此同时影响到算法的训练效果。AI数据服务是指将语音、视频、文字等原数据经过加工处理后形成AI算法模型能够与此同时使用的训练数据。


爱数智慧创立于2016年,为超100家国内外客户带来专业的人工智能数据解决方案,包含数据处理方案设计、训练\测试数据集产品、数据标签化,以及数据处理系统的私有化部署等。爱数智慧不仅有着十几万小时的覆盖多语种多种方言的训练数据集,还为大型客户带来数据采集标注私有化部署。



张晴晴认为数据识别率的提升包含3个阶段:分别是0-90%,90%-95%、95%-100%,第一阶段的绝大部分场景并不需要定制数据,标准化训练数据集即可达到;第二阶段可以使用标准化+部分定制的垂类数据集,第3个部分才真的必须100%精准定制。语音数据的标签化涉及到语音、情感、信号等多维度,规则和规范十分复杂,一旦某些步骤出现问题,数据训练出来的效果也许会不尽如人意,非常浪费客户的成本和生产周期。


为响应国家十四五规划提出的支持数字技术开源社区,与此同时在行业精耕多年的经历,爱数智慧发现AI工程师最崩溃的就是如何在汪洋大海里找到好数据/能用的数据。俗话说,巧妇难为无米之炊,数据作为基础层,为算法带来了坚实的基础,没有好数据,什么也做不了。于是,MagicHub开源社区应运而生。MagicHub开源社区的发布将达到更多的行业和AI从业者对于训练数据的需求、减少数据使用门槛,解决找数据难的问题,爱数智慧可能在4月15号开源30种语音训练数据集,第一批数据集包含NLP数据集、ASR数据集、TTS数据集和LEX发音词典,涵盖了多个语种、场景和领域,将来每个月都是会更新训练数据集。