希尔贝壳:做好AI数据基础服务,实现人工智能民主化,我们任重而道远
人工智能时代已然来临,贝壳伴随着人工智能在各个场景中的做好智落地应用,算法、数据实现算力不再是基础高壁垒,为了不断提高算法精度,服务算法所必须的人工任重数据需求也空前爆发,一度催生了AI基础数据服务行业的民主繁荣。
行业繁荣的化们景象之下,还存在着一些问题,而道由于AI基础数据服务的贝壳数据标注业务相对门槛较低,玩家鱼龙混杂,做好智使行业标准模糊,数据实现服务质量参差不齐。基础目前多以人工标注为主,服务传统标注工厂在“人工成本”方面的人工任重优势正不断被削弱。因此,增强数据处理平台持续学习和自学习能力,利用机器学习辅助人工提升标注维度和精度,同时降低人工成本已经成为产业共识。另外,数据采集层面,针对数据源的版权问题、采集标准问题还没有很好解决;数据库的建设及服务还保持着一定的壁垒,通用场景的AI技术不断成熟,如何建设高精尖数据库在行业当下也需要去解决。
希尔贝壳成立于2017年,深耕场景AI数据服务,做好数据服务的技术创新同时并开始思考数据产业的下一步方向。
疫情肆掠过后,人工智能应用落地速度加快,而这背后,身处AI基础数据行业的希尔贝壳也在加速前行。
用机器辅助做数据标注切入AI基础数据服务行业
希尔贝壳创业初始聚焦语音数据服务,和创始人的背景密切相关。希尔贝壳CEO卜辉从韩国高丽大学AI实验室硕士毕业后,就一直从事智能语音技术及数据库建设方向的工作,对语音数据库以及语音智能产品有着深入的研究。
AI的算法需要大量带标签的数据,数据标注则是由人工为主导,在“有多少人工就有多智能”的产业背景之下,革新技术,行业标准和门槛的提升则显得更为迫切。
在人工智能快速迭代更新的节点,卜辉发现AI技术成本的变化速度惊人且市场竞争激烈,“比如一套通用AI系统相比一年前,价格基本折了三分之一,但是成就技术的数据并没有贬值。相反,数据处理、采集和加工的人力成本越来越高”。
在这样的背景下,智能化辅助标注平台显得尤为重要。这和卜辉最开始切入行业的初衷不谋而合。希尔贝壳的数据标注平台在工作高峰期拥有上万人在并行做数据标注的工作,如何在降低人工成本的情况下保证数据质量,卜辉认为,应当基于一个强大的智能化工作平台,通过完善算法模型和利用大数据分析来提高数据质量的管控和质检,将重复的标注工作做到智能化管理,提高数据标注效率。成熟的算法好比智能车间里的机器人,大数据分析系统好比智慧大脑在24小时做项目管理工作。
对此,希尔贝壳2018年研发并应用了四套智能标注系统来降低数据处理的成本:语音数据质量评测系统、语音自动标注系统、音频检索系统、智能化标注众包大数据分析系统。在数据任务分发、自动纠错、数据质量跟踪上,提高了数据标注的效率,降低了1/3的人工成本,实现从人工到技术,再让技术辅助人工完成高效的标注工作。
但卜辉对数据的思考并不止于此,“让懂技术的人去做数据,可以看到数据完整的生命周期。另外在数据采集方面,要确定版权除了人为的协议,还需要技术的加持,我们已经在开发电子认证、数据加密,既要考虑版权也要重视数据流通的安全。”在卜辉看来,好的数据能够帮助算法更好的去落地。
对此,希尔贝壳还拥有自建数据库的能力,并根据不同应用场景定制优质的数据库,以提高深度学习的算法精度,精准解决产品在场景下的技术痛点。
探索及制作高精尖数据库
自建数据库,是希尔贝壳创立之初就带有的基因,经过4年的探索之后,卜辉越发地重视数据库的业务,高精尖数据库的研发投入也不断扩大。并且在2019年,与西北工业大学音频语音与语言处理研究组联合成立“智能语音与多模态数据实验室” 。
目前,希尔贝壳的客户包括阿里、腾讯、京东、联想、百度等,“大部分客户更多的合作在于希尔贝壳的数据采标方案、数据的质量和专业的服务上。”此外,希尔贝壳持续在数据开源的项目上做投入,目前开源的数据库申请规模已经达到了500+,实现了我们开源数据助力产学研共同发展的目的,在希尔贝壳的品牌建设上也树立了口碑,在业务上也给希尔贝壳开拓了新的方向。而卜辉提到的开源数据项目,就是【AISHELL系列的精标语音数据集】。
响应国家号召,加深【开源】项目建设
今年3月12日,新华社播发 《 中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》,其中【开源】首次被明确列入国民经济和社会发展五年规划纲要。从纲要提到的“支持数字技术开源社区等创新联合体发展,完善开源知识产权和法律体系,鼓励企业开放软件源代码、硬件设计和应用服务”,可以看出国家在战略层面对「开源」的肯定和支持。这足以说明开源是大势所趋。
希尔贝壳成立之初就建立了开源社区,开源了178小时的AISHELL-1中文普通话精标语音数据集。同时搭载全球最大开源语音识别系统Kaldi做了一套开源方案,将有研发价值的数据贡献到科研教育机构。
AISHELL-1开源之后,卜辉发现,高校学生在使用这套方案的同时,很多中小型企业也在利用它进行语音识别技术的研发和产品相关研究,但效果就偏弱了一些。
因此,在2018年6月23日Kaldi第三届全国线下技术交流会上,作为联合主办方之一的希尔贝壳再次开源了全球最大的中文开源数据库AISHELL-2,时长1000小时。这个开源项目不只局限于数据,还包括Kaldi配套的recipe应用。同时成立了AISHELL Foundation来共同推进语音数据和技术的不断开源计划。
AISHELL-2由1991名来自中国不同口音区域的发言人参与录制,文本内容主要涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。并经过专业语音校对人员转写标注,通过了严格质量检验,数据库文本正确率在98%以上。
AISHELL-2是全球最大的中文语音数据开源项目,也是最成功的。也正是因为这次开源,不仅让希尔贝壳被业界所知晓,更是让让希尔贝壳收获了全球的智能语音研究高校合作资源。 “AISHELL-2的开源项目,确定了数据开源的模式,即算法方案、优质的数据集、实验系统的描述这三个维度来做方案,让开源项目能够惠及更多的开发者。对比CV领域ImageNet这样的开源数据库,我们做的还远远不够,但我们会持续做下去,也希望整个产业有更多的人来贡献。”卜辉强调。
数据库做为数据产品需要经历投入成本、市场认可、数据库质量三个维度考核,这也形成了数据库的建设壁垒。AISHELL-1 & 2中文普通话精标语音数据集的建设与开源也验证了希尔贝壳自建数据库的能力。成熟的算法要解决场景化的匹配调优问题,让AI找到了新的挑战。相对AISHELL-1 & 2 赋能基础的语音应用技术,场景化的数据库建设更为复杂,需要考虑技术的满足指标和真实场景数据的匹配等等。场景数据开源的方案希尔贝壳也陆续公开发布了 HI-MIA,智能家居场景的语音唤醒开源项目;联合昆山杜克大学一起发布的多说话人语音合成项目AISHELL-3。 更是把智能语音技术+数据开源的方案树立起了希尔贝壳自有的能力门槛,前沿技术落地数据先行的理念在希尔贝壳充分得到验证。
今年希尔贝壳会推出AISHELL-4,聚焦会议场景的智能语音技术方案,目前开源项目的论文已经公布,该项目方案也是产学研最全面的会议场景方案,相信会推动智能语音技术在会议场景的研究及落地。
希尔贝壳目前已形成了智能语音技术+数据的矩阵开源方案,覆盖语音识别、声纹识别、语音合成、场景智能语音技术应用方案。
数据服务的创新思考:算法和数据的辩证关系
在不断拓宽业务的深度和广度的同时,卜辉更着重思考业务背后的技术逻辑,如何用技术助力和创新业务。创业期间,卜辉一直在思考数据标注、数据采集、数据库和算法之间的联系。在卜辉看来,数据和算法之间是一个辩证的关系,数据是算法的基础,但开源的算法也为数据质量助力,此外,数据库的建设也需要有前沿算法的意识。“因为数据库是为算法和应用层服务的,在对算法有一定的了解背景下去做数据库,则更为清晰。另外,技术落地数据先行是一个必然的趋势。当技术逐渐成熟后科研人员更聚焦用数据去验证技术。”
在AI基础数据服务行业中,希尔贝壳已经拥有了成熟的两大业务形式,包括数据集产品(自建并开源数据库)和数据需求的定制服务(数据采集/标注)。卜辉说道:“做好场景下的数据采标,垂直在场景建数据库,已经成为希尔贝壳的特色和亮点。在AI新基建的路上,非结构化数据的管理、标注、分析、安全等还有很多问题需要解决,基础数据服务要跟上产业的发展投入研发拓展创新,才能真正做到服务产业服务好产业。”
尽管身处在AI基础数据服务行业,但从希尔贝壳的4年发展路径来看,聚焦场景化数据业务,其对人工智能数据的思考和创新不止于此,这和创始人卜辉的创新思维有很大的联系。卜辉一直强调,创新的力量,“尽管数据服务属于人工智能产业的基础层,越基础越要做到扎实,思考不能局限在这一层,从产业的角度去思考和改变,不断提升我们的业务能力。”
在卜辉看来,希尔贝壳用4年的时间做数据层面的创新只是第一步。谈及未来的规划,卜辉说道:“通过技术引领数据业务的发展,通过数据带动技术产业的成熟,在未来用前沿的数据库去服务开发者和科研人员,降低企业在算法落地层面的成本。还要用更多的开源数据与教育、研发、产品等相结合让技术落地走进更多的场景,为实现人工智能民主化希尔贝壳还需要更努力。”
雷锋网雷锋网
友链
外链
互链
Copyright © 2023 Powered by
六合彩图库源码【购买联系电报bc3979】AC彩票网站源码|六合彩源码|彩票搭建|新中原六合彩源码|【网站bc9797.com】六合彩论坛源码【联系飞机bc3979】
sitemap
-
文章
49
-
浏览
7435
-
获赞
3
热门推荐
-
Adidas x PRADA 全新联名鞋款下月登陆,不再超限量发售!
潮牌汇 / 潮流资讯 / Adidas x PRADA 全新联名鞋款下月登陆,不再超限量发售!2020年02月27日浏览:2745 自年初的首波预告后,由 Adidas温州空管站团委组织团员青年参加安全生产咨询日志愿服务活动
为进一步提升广大团员青年的安全意识和应急能力,增强安全责任感,6月16日,温州空管站团委组织团员青年参加了2023年安全生产咨询日志愿服务活动。本次活动在温州龙湾国际机场候机楼举行,主题为&ldquo安全生产月|海系地面代理人安全检查
通讯员:赵会媛)安全是民航行业的永恒主题,也是航空运输企业的生命线。在这里我们迎来了海南航空,天津航空,乌鲁木齐航空地面代理人来喀什机场的安全检查。海系地面代理人对喀什机场的各项安全检查是发现和消除事喀什管理公司运管委开展“以练促学”岗位练兵活动
通讯员 :孙翔宇)为进一步加强实习人员对通导工作的熟悉和了解,帮助其尽快转变身份、进入角色,喀什管理公司运行管理委员会通导岗位结合实际,以工作需求为出发点,组织实习人员进行了此次实操和理论岗位练兵活动ADER Error 2020 春夏系列 Lookbook 赏析,风格多元化
潮牌汇 / 潮流资讯 / ADER Error 2020 春夏系列 Lookbook 赏析,风格多元化2020年02月29日浏览:6773 就在秋冬新品发售接近尾声之际古代四大极品奸臣,为何奸臣多书法高手?
中国历史上,曾出现不少才华横溢的一代名臣和传奇英雄,但也不乏独具才华的著名奸臣。翻开尘封的历史资料筛选一下,不难看到,这历史上著名奸臣阵容中有四大极品奸臣。他们是北宋的蔡京、南宋的秦桧、明代的严嵩和清马伊磊调研喀什管理公司
6月12日,新疆机场集团党委书记、董事长马伊磊调研喀什管理公司。在喀什管理公司区域管控中心,马伊磊听取了运行指挥、安检质控、飞行区监管、安保控制中心当日值班人员简要工作汇报,就安检实时传输实现三机场同“五进”宣传齐上阵 筑牢安全“防火墙
通讯员 曾丹)为了更好营造安全生产月期间,人人知安全、守安全的宣传氛围,6月16日,塔什库尔干机场组织场务、消防、安检、地服等专业人员联合机场派出所民警开展安全生产“五进”宣传4项国标促质量管理提效加力
中国消费者报报道(记者任震宇)日前,市场监管总局、国家标准委公布了4项和质量管理相关的标准,分别是GB/T19010-2021《质量管理 顾客满意 组织行为规范指南》、GB/T19013-2021《质开实班组“两会”,聚焦应急复盘——西北空管局空管中心飞服中心报告室开展安全生产月专项活动
今年6月是第22个全国“安全生产月”,西北空管局空管中心飞服中心报告室紧紧围绕“人人讲安全、个个会应急”的安全生产月主题,重点关注近期雷雨季节运行工作和宁夏空管分局进近管制室组织召开典型案例分析会
为准确分析进近管制室安全运行风险,及时传达上级会议精神和领导要求,提高干部职工安全理念、清醒认识安全风险、及时制定有效举措确保雷雨季节和暑运保障“两个绝对安全”,近期,宁深化应急管理 备战雷雨季节——东北空管局空管中心塔台管制室开展雷雨天气应急演练
今年6月是全国第22个“安全生产月”,与此同时,自从入夏以来,雷雨天气情况屡有发生。由于雷暴、雷雨等强对流天气会严重影响航班的飞行。为最大限度地减少因雷雨等恶劣天气而导致的航班延误和不安全事件的发生,杰克沃克官网(杰克沃克上海服饰有限公司)
杰克沃克官网(杰克沃克上海服饰有限公司)来源:时尚服装网阅读:2552请问武汉哪里有卖杰克沃克(jackwalk)的第三方售卖平台。根据查询杰克沃克在国内的售卖平台显示,截止到2022年10月12日,阿克苏机场开展欢庆父情节主题活动
中国民用航空网通讯员韦丽丽 赵雯瑾讯:“恐惧时,父爱是一块踏脚的石;黑暗时,父爱是一盏照明的灯;枯竭时,父爱是一湾生命之水;努力时,父爱是精神上的支柱;成功时,父爱又是鼓励与警钟。深化青济协同,共保航班正常
随着雷雨季节的到来,航班保障工作难度增加,青济两地运行保障人员面临着较大的难题。为确保两个绝对安全的目标,竭尽全力保障航班正常,6月16日,运行指挥中心开展了青济两地交流总结会,针对当前青济航班存在的