“人是人工智能时代的关键” Crowdworks 收集“数据标注者”
发表时间:2022-01-16 08:48:13 作者: 来源:互联网
“人工智能(AI)无法自行学习,因此需要大量的学习数据。人类被调动起来处理数以万计的数据。毕竟,即使在人工智能时代,人也是关键。” 11月26日,Crowdworks首席执行官朴敏宇在首尔驿三洞Crowdworks总部会见了“经济朝鲜”,眼睛闪闪发光。由 CEO Park 运营的Crowdworks
是一个数据标记平台。它收集、处理和标记人工智能学习所需的数据。CEO Park于2017 年成立 Crowdworks ,认为高效的数据收集应该是AI行业发展的基础。自1996 年以来,
CEO Park一直在AI行业工作,并亲身感受了市场的变化。他创办了Metawise,这是一家成立于2000 年的AI搜索引擎解决方案公司,梦想将AI商业化,但由于缺乏基础设施不得不关闭业务。人工智能情况如此糟糕,以至于花了一周的时间来训练一页信息。2010年初到年中,云计算发展起来,谷歌、亚马逊等全球IT公司开始认真投资人工智能行业,他再次看到了机会。毕竟,支撑AI行业的是数据,所以我们通过AI学习数据标记来确定我们的业务方向。
朴的预言成真了。随着Clova 和 GiGA Genie 等AI演讲者的出现以及政府的数字新政政策,人们认为AI是日常生活中的技术,而不是遥远未来的技术,这提高了人们对数据标签的认识。Crowdworks 在成立三个月后收到了 Naver 的第一笔投资。Crowdworks 从一名员工开始,迅速发展到120人。截至今年11月,累计工作数据已超过8000万。去年的销售额为73亿韩元,最近,韩亚金融投资、Kiwoom 证券和 eBest Investment & Securities 参与了价值200亿韩元的IPO前。(上市前投资)已完成。
Crowdworks 是一家人工智能公司,但具有讽刺意味的是,它关注的是“人”。这是因为他认为人类的力量是处理信息以用于人工智能的必要条件。它还通过在韩国首次引入一种让公众参与AI数据标记项目的方法而引起关注。不仅是专家,任何对特定领域有兴趣和基本知识的人都可以参加。以下是与朴社长的问答。
为什么数据标签很重要?
“人工智能仍然不可能自学。因此,在人工智能技术应用于现实生活之前,数据标注是必不可少的。在这种情况下,需要人工处理过的学习数据。例如,在一张猫的照片上贴上一个名字标签,上面写着“这是一只长得像这样的猫”。通过重复这项任务,人工智能识别的物体数量会增加。”
不同领域的AI学习数据有何不同?
“学习数据用于各种领域,数据量在很大程度上很重要,)'分为需要高数据的字段和反映特异性的字段。在口译和笔译的情况下,数据量很重要。特别是与书写不同,语音中有很多省略和缩写,因此确保尽可能多的情况是最有效的。就像你在多个地区生活过就能听懂方言一样,AI口译和笔译的经验点很重要。在与人类生活直接相关的领域,例如医疗数据或自动驾驶,数据的质量很重要。即使训练数据显示出99 % 的准确率,它也会变成无用的数据,只有 1% 除外。因为1%的事故风险。最后,不断为法律、生物、化学、物理和体育等专业领域创建不同的人工智能服务。为了处理每个领域的数据,需要一定的知识水平。在这种情况下,任何拥有足以得出准确答案的学士学位的人都可以参与数据标注。”
提高数据准确性的方法有哪些?
“数据的命脉是准确性和速度。Crowdworks汇集了超过300,000人,以高速收集海量数据。由于未指定多数参与,因此可能会出现数据质量方面的问题。为了解决这个问题,我们引入了100 % 检查系统。一条数据与几名工人的检查相交。所以,一开始,我们只关注数据管理本身,但现在我们管理的是人。”
如果人工智能可以利用更多的信息,人类的工作会消失吗?
“人工智能的作用不是‘替代者’,而是‘帮手’。不需要人的时代出现的概率很低。尽管简单和重复性的工作可能会消失,但需要专业知识的工作会继续增加。医疗领域越来越青睐人工智能的使用。这并不意味着医生的数量正在减少。在法律领域也是如此。如果AI有助于确定客户请求的级别,则可以减少浪费的时间。相反,人类正在学习如何更有效地赚钱。”
在韩国600多家众包公司中,Crowdworks的竞争力是独一无二的。
“这是一种通过反复试验获得的技能。140不止一项专利证明了这一点。Crowdworks 为数据标记过程中所有可能的情况申请了专利。每个异常和处理方法都被注册为专利。这使得增加进入该技术的障碍成为可能。
工人4年积累的行为数据也具有竞争力。我们是唯一通过分析数据标注者的行为模式来匹配公司和人力资源的人力资源技术。今年还推出了零工经济平台“Crowdjobs”。我觉得随着全球正式工人数量的减少和自由职业者的数量的增加,需要一个针对零工 (没有组织和固定通勤时间的工人)的人力资源平台。我认为这为我提供了一个新的机会,让我可以随心所欲地工作,甚至可以非面对面地赚钱。Crowdworks 已经超越了AI数据平台,成为了零工经济平台。”
新冠病毒感染 (COVID- 19 ) 是否对 Crowdworks 产生了影响?
“由于 COVID- 19带来的非面对面文化和数字化转型的影响,基于人工智能的在线服务的发展加速,对这个工作组的需求自然增加了。我公司累计会员人数从去年的11万人增加到今年的11人它每月增长了两倍多,达到300,000个。我认为,在不久的将来,数据标注员将通过建立自己的职业来引领国内人工智能行业的发展。”
未来的计划。
“我们计划从海外收集本地贴标机。我们还考虑建立一个系统,将来自印度、越南、泰国和中国等低工资国家的数据标记员收集并分配给他们,供国内检查员进行首次检查和二次处理。我想扩大全球交流,比如美国的Amazon Mechanical Turk,它在190个国家/地区拥有众包劳动力。还计划在明年下半年进行首次公开募股 ( IPO )。我认为首次公开募股是公司的成年仪式。就像他们成年后自己对一切负责一样,上市公司也应该对所有指标负责,包括稳健性。我们会一步一步准备。”