从技术角度来看,自然语言处理是比人工智能两大热门投资板块即视觉和语音更为关键的高级智能,大规模语言模型是该领域取得突破的关键微软全球合伙人,微软亚洲互联网工程研究院副院长,首席科学家蒋大新博士最近几天出席华泰证券行知新经济云峰大会数字技术专场,分享大规模语言技术的落地实践和发展趋势
自然语言处理,语音和视觉都是人工智能的热点领域人类智能自下而上包括计算智能,感知智能,认知智能和创造智能视觉和语音属于感知智能,而自然语言处理属于更高级别的认知智能,被誉为人工智能的皇冠上的明珠要构建真正的人工智能,自然语言处理是不可避免的一步伴随着大数据,大计算能力和深度学习的浪潮,自然语言处理进入了快速发展时期
大规模语言模型突破:预训练和微调的新范式
自然语言处理的最新重大突破是在2018年底,BERT模型诞生,它在经典阅读理解测试集中超越了人类的准确性BERT融合了自然语言处理领域深度学习的成果,功能特别强大,具有以下特点
特征学习BERT作为一种深度神经网络,可以从数据中自动提取有效的特征表示,避免了人工特征设计费时费力的步骤
自我监督学习BERT采用自监督学习的方法,可以自己构造训练数据,使用网页数据作为训练集,这样就可以训练上亿个参数模型
创造预训练和微调的新范式这一点尤为重要,它宣告了大规模预训练模式时代的到来过去自然语言处理需要根据任务选择相应的模型,导致每个任务只能从头开始训练模型,数据不能共享,模型不能混合小数据训练限制了自然语言的应用可是,BERT模型将训练分为两步第一步是预训练,通过自我监控的方法从大量文本中学习语言特征表示,得到大规模的预训练语言模型,帮助模型执行不同的任务第二步是模型微调,针对具体任务,可以用较少的数据训练出具体下游任务的模型,在具体任务上可以取得更好的效果比如预培养模式就像本科生学习各种基础课程,而微调则是研究生的专业课,更容易掌握基础知识,学习专业课程,这是BERT的主要思路
按照BERT的思路,大家都把模型做大做强了比如2020年3月,微软推出图灵模型,参数是上一代的10倍,达到170亿个参数,仅仅三个月后,GBT3车型再次推出,翻了10倍,达到1750亿参数,轰动一时国内科技公司也预训了一批大机型,比如华为盘古,腾讯盘古,参数分别达到1000亿和2000亿最近发布的GBT3智远无刀模型已经达到1.75万亿参数预训练技术和由此产生的大规模模型正在迅速推动自然语言处理的发展,使大量应用成为可能
帮助数字化转型:关注平台层和工具层
四年前,我们开始与企业合作,探索如何应用大规模语言模型推动数字化转型联系了很多企业,包括政府部门,发现数字化转型有一些共同的痛点想要拥抱AI的企业通常有两种选择:购买AI解决方案或构建自己的AI能力,但两者都有问题如果采购会面临技术黑箱,扩展性差,与自建系统深度融合等问题,但是,自建存在技术门槛高,人工成本高等问题
经过一段时间的讨论,我们找到了一条中间道路,推出了Carina平台,该平台包括数据层,平台层,工具层和业务层这四层中,微软主要负责平台层和工具层,把我们擅长的技术集成到这两层,而企业可以根据具体的业务场景开发应用,让企业充分利用我们的技术,不需要我们深入了解企业的具体业务数据层和业务层,因为企业之间存在很大的差异,很难有统一的解决方案,所以合作的方式多种多样
平台层的目标是围绕机器学习模型的生命周期,为企业提供模型开发和部署的环境和工具例如,Carina包括四个平台:培训,部署,调度和共享在这个框架下,我们根据企业运营商的痛点设计具体的功能和模块经过不断的开发,验证和改进,这个平台已经非常稳定和易用,可以支持成千上万的人同时一起开发比如Carina在华泰稳定运行三年多,给IT部门和相关业务部门带来了很多帮助
工具层的目标是提供各种自然语言处理模型,调用接口和定制工具,供企业在各种场景下开发特定应用时使用这一层需要解决三个挑战:自然语言处理任务众多,算法不同,标注数据昂贵且质量越高越贵,一般模型在细分领域往往表现不佳
第一步是预训练大规模语言模型我们广泛采用了包括微软图灵模型在内的流行预训练模型,为后面的所有工作打下了良好的基础
第二步是基于通用模型微调不同的任务我们使用各种注释数据有了这些数据,平台上每个任务的性能都得到了体验,能够满足工业应用的需求
第三步是针对不同的领域做进一步的微调这一步,平台为用户提供工具,方便用户添加知识和数据,使模型能够适应用户的具体场景
第四步,把大模型压缩成小模型,在线部署最常用的方法是知识教师,它可以生成大量的训练数据,然后训练一个小的学生模型通常这种小型号只有几十兆,可以在CPU上运行
展望未来的突破点:跨语言模式和多模态
大规模语言模型技术的未来是怎样的在我看来,常识和推理还有很长的路要走,需要很长时间才能解决跨语言和多模态有望在未来几年取得突破
跨语言模型发展迅速,不仅用于机器翻译,还用于数百种语言的自然语言处理任务。除了学术研究非常活跃
,工业界的跨语言模型也到了成熟落地时期,比如微软的所有产品都要求支持200多个地区的100多种语言。
目前,语料丰富的大语种已经实现了工业级应用,但是许多小语种,由于语料很少,尤其是双语拼音数据的缺乏,效果还不理想,有待研究的重点是如何把大语种的丰富语料知识应用到小语种上另外,即使是大语种,有了落地的成熟工业级应用,但我认为也就是八,九十分的水平,最后的十分,二十分非常难拿比如歧义,我的钢笔没有水了,机器可能不理解这是指墨水,从而翻译成水,再比如缺少对应翻译,一带一路,到基层去这类内容就很难翻译,只能意译这也是有待解决的问题
多模态是指让计算机拥有处理语音,文本,图像,视频,知识等不同模态信息的能力过去,语音,视觉,自然语言处理几大人工智能领域平行发展,彼此很少有交流,模型之间可以互相交流,但一个模型很难同时接受多个模态的输入很多学者相信,人类不论接收外界信息还是表达意图,都会综合运用大脑中多个感知和认知模块,既然人类智能是多模态的,我们也应该让机器把不同模态的信息加以融合,所以多模态学习成为当前的热点方向之一另外,多模态研究如果能够突破,增强现实,虚拟现实,虚拟人类等方向也会得到飞跃式发展
我一直认为要让机器理解常识,就需要机器把多种模态联系起来我们人类获得常识的途径往往不是单纯通过文本,而是通过自身在现实世界中的体验如果让机器也获得自身体验比较困难的话,就退一步,让机器能够观察到现实世界的体验是多模态的,这对机器理解常识也会有所帮助,从这个意义上说,多模态对推动整个通用人工智能的发展意义非常重大
自然语言处理处于一个美好的时代,虽然还有很多问题没有解决,但是已经有很多成功的商业应用我相信伴随着技术的进一步发展,一定能够更好助力数字化转型
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。