2019语言与智能技术竞赛开始报名 百度为三大竞赛任务提供核心数据集
2月25日,2019语言与智能技术竞赛正式开启报名通道。本届竞赛由中国计算机学会(CCF)和中国中文信息学会(CIPS)联合主办,百度公司、中国计算机学会中文信息技术专委会和中国中文信息学会评测工作委员会联合承办。获胜团队将分享总额27万人民币的奖金,并将在第四届“语言与智能高峰论坛”举办技术交流和颁奖。届时,国内外学术界、工业界知名专家学者,也将面向社会公众介绍国内外语言与智能及相关领域的发展趋势和创新成果。
语言是人类信息传递最重要的媒介,让机器理解语言并使用语言进行交互是走向通用人工智能的重要挑战。竞赛旨在为研究者提供学术交流平台,进一步提升语言理解与交互的研究水平,推动语言理解和人工智能领域技术和应用的发展。本届竞赛设立了三个任务,包括机器阅读理解、知识驱动对话和信息抽取。百度将为本次竞赛的三个任务提供大规模标注的中文数据集,同时也会提供三个任务的开源基线系统,助力参赛选手。
本届竞赛的机器阅读理解任务是“2018机器阅读理解技术竞赛”的延伸。任务数据集包含约28万来自百度搜索的真实问题,每个问题对应5个候选文档文本,以及人工撰写的优质答案。2018机器阅读理解技术竞赛上,优胜系统已经可以基本正确回答75%以上的问题。而2019年,竞赛内容将重点关注当前优胜阅读理解系统尚不能正确回答的问题,旨在全面评测机器进行深度语言理解以回答复杂问题的能力。换而言之,今年的竞赛任务将更具挑战性,本届参赛者需要让系统变得“更智能”。
开放性人机对话是人工智能的高级挑战,主动对话是实现人机充分交互的关键。本次竞赛的知识驱动对话任务将在250万知识信息构建的知识图谱基础上,人工标注3万组有主动能力的对话数据,用于探索知识驱动的主动对话技术。值得一提的是,知识驱动对话任务使用的是百度首次开放的数据集,包括电影和娱乐人物领域有聊天价值的知识信息,如票房、导演、评价等,人机对话的话题也将围绕电影或娱乐人物展开。
信息抽取是知识图谱构建及应用的重要基础,本次竞赛的信息抽取任务将面向真实的知识图谱构建应用场景,并发布业界规模最大的中文信息抽取数据集,包含超过43万三元组数据、21万中文句子及50个已定义好的schema,具有极强的实战性,可以有效提升中文信息抽取技术及中文知识图谱构建技术的研究水平。本次信息抽取任务所使用的数据集,均是首次用于竞赛活动中。
此次竞赛任务覆盖语言理解、人机对话、信息抽取等三大核心技术,均为自然语言处理和人工智能领域的重要前沿课题。选手在进行竞赛的同时,他们的突破也将有力推动搜索、推荐、人机交互等应用迈入新的台阶,进一步推动语言理解和人工智能领域技术研究和应用的发展。
事实上,百度不仅为本届竞赛提供了大规模数据和开源基线系统,助力参赛选手,同时也一直是中国人工智能发展的重要推力。百度在自然语言处理与知识图谱领域沉淀与积累多年,全面布局,走在领域前沿,发挥『头雁效应』,致力于打造人工智能时代强大的语言与知识处理技术和平台,让计算机更深入地理解人类语言与知识,服务亿万用户,让人们的生活更加美好。2019年1月,百度联合国家深度学习技术及应用国家工程试验室,打造黄埔学院,以培养能够将深度学习落地产业的首席AI架构师为核心宗旨,打造深度学习高级人才的成长引擎,填补人工智能人才缺口。
此前,中商产业研究院公布数据称,2018年中国人工智能市场规模约为238.2亿元,增长率达到56.6%。预计2019年,中国人工智能市场规模将近280亿元。这片广阔的市场蓝海,将成为从业者持续创新的驱动力。拥有国内领先的人工智能技术的百度,已在蓝海中打造强大舰队。同时百度也在转换角色,面向行业输出优势资源,助推我国人工智能技术的发展。