TMT观察网

写对联,做唐诗,上海这个AI公司正在“复活曹雪芹”互联网+

一些文学问题,最终都是数学问题。 国足0:3负于伊朗后,如果以「抱憾冯潇霆」作为上联,你会对出什么下联? 「缅怀谢安石」,这是人工智能给出的答案。 一个让人吃惊的事实是——今天人工智能的中文阅读能力达到『高中生』水平,写作达到『小学生』水平。 这意味着:包括『审批、审计、简报』等和文字阅读理解相关的工作可以交给AI来完成;而在不久的将来包括『文案、记者、作家』等和书写相关的职业也将面临着AI的挑战。 终于继在国际象棋、围棋等智力游戏领域完成对人类的反超之后,AI进入了『创造性』的工作领域——在文学、音乐等工作中替代人们作文和作曲。 一直以来人们都以为那些重复性的工作会被AI取代,而文艺创造领域一直是人类固守的智力高地,但现在看,在人工智能面前人类没有什么真正的“智力高地”。 依照这样的学习速度,距离AI写出《红楼梦》——复活曹雪芹的日子或许不远了。 (达观数据创始人、CEO陈运文) 在上海张江的浦东软件园内,「商业江湖」见到了达观数据的创始人兼CEO陈运文,他们研发的人工智能系统已经可以替代人类进行“阅读理解”工作,开始在企业审计、文本搜集等领域进行应用。 陈运文是复旦大学计算机博士,曾在百度、盛大、腾讯等负责大数据研发、人工智能和自然语言处理系统,是业内顶级的教授AI学习文字的专家。 他的主要工作就是通过自然语言处理技术让计算机学会阅读并书写文字。
抱憾冯潇霆,缅怀谢安石 「抱憾冯潇霆,缅怀谢安石」,这是人工智能系统对出的对联。 「商业江湖」于1月25日采访了陈运文,当天中国队在2019亚洲杯1/4淘汰赛中0-3负于伊朗队抱憾出局。这输掉的三球全部源自于国足后卫的失误,其中尤以冯潇霆第一球失误为憾。 在验证AI性能时,『商业江湖』记者将『抱憾冯潇霆』作为上联输入系统,而AI快速对出来八个下联,第一个是『缅怀谢安石』。 这个下联不仅工整,而且意味深长。谢安石是东晋政治家,在「淝水之战」中以八万兵士大破百万敌军,为东晋赢得十余年的和平,是李白的偶像。 字面上以谢安石对应冯潇霆,而背后的寓意却是以『淝水之战』对应『中伊之战』,并且用『缅怀』对应『抱憾』。 不知道AI系统是否真的理解这个故事,但如此对句,让这个下联在词字对仗的同时甚至有一丝幽默的味道。 (关于抱憾冯潇霆,AI对出了8个下联) AI所以能对出如此工整的下联和数学相关——越是有规则的中文表达方式,越容易被人工智能学会。 『对联要求字数相同、押韵、平仄等等,这种规则越多,AI运算起来目标就越明确,所以写出来的对联也就越工整。』陈运文说。 陈运文和同事们研发的这套系统名为「仓颉」,取「造字」之意,这是一套用来处理「字词级别」的系统,而另一套用来「批量处理文章」的系统名为「毕昇」。 『就像小学生学习语文那样,我们要让AI学会什么是名词、动词、形容词,理解什么是「主谓宾、定状补」,让他们经过大量的阅读训练来逐步理解文字的意思。』 陈运文说,今天AI系统对于「词性」和「句式」的分析远超很多本科生。 『如果将一个句子放到仓颉系统中,他能快速的分辨出句子结构,什么是主语谓语,什么是倒装从句,这可能超过很多白领的水准,AI对于规律的掌握,对于逻辑的学习远超人类。』 现在随便从网络上复制一篇新闻稿放到「毕昇」系统中,它能瞬间识别出这种文章的『核心信息』——总共有多少个名词、动词、形容词;人名、地名、单位名。 甚至可以建立人物、事件关系图,例如文中出现冯潇霆,那么「毕昇」会以他为主要人物构建人物图,列出冯潇霆的队友、教练、竞争对手、相关人物等等。 (分析新闻稿后,AI自动生成的语义图谱) 『这和人类的阅读习惯类似,如看到《三国演义》人们就会想到曹操、刘备、诸葛亮,草船借箭、罗贯中等关键词,然后可以理解这个词背后想要表达的意思,我们希望计算机也具备这种「力透纸背」的能力,能通过综合的知识去理解当前的文词。』 达观曾将5万余首唐诗输入AI系统做分析,发现唐诗中出现最多的字是「人」,其次是「山」和「风」字。『所以唐诗有以人为本的说法。』此外,唐诗中出现最多的颜色是「白色」,包含颜色的诗句中有1/5都是指白色。而唐诗中另两组高频词是「悲和思」、「春和秋」,这给人们惯用的「伤春悲秋」找到了理论依据。 互联网的出现为AI建立起一个庞大的内容网络,通过这个网络,AI几乎可以掌握人类有文明史以来所有的内容。同样一个人物或事件,人类能关联的信息如果是10的话,计算机可能是10万。 『文史资料无论是采集还是存储的成本都非常廉价,存储200万册红楼梦这样的书籍大概需要2-3T的空间,一年的存储成本大概只要1000-2000元,这就意味着我们一年只需要花2000元就可以把一座大学的图书馆藏书都给存下来。』 陈运文说,海量的素材资料为人工智能提供了足够的『运算食粮』,通过阅读这些内容,AI可以快速学习,像人类一样理解文本语义。 不要小看『读懂文本』的能力,实际上今天社会上很多工作都和『阅读理解』相关,今天达观的AI系统已经可以『自动写文章摘要』,能够『像秘书一样提炼文章的核心观点,并且可以分析出文章观点的正向和负向。』
理科生正在改变文科世界 AI的文本阅读理解能力为达观数据在商业社会中找到了盈利的方向。 2016年上半年的某天,陈运文同事接到一个陌生电话,对方自称是国内知名电信企业某技术部门负责人,对达观的技术很感兴趣,希望能面谈。 『我同事当时吓一跳,以为是骗子。』陈运文说。 但随后的对话让他打消了这个疑虑,对方称他们在网上看到达观发布的一篇技术文章,和他们当前遇到的一些技术困境相关,希望邀请达观的技术团队到深圳做当面交流。 当时,该企业希望提高「用户搜索」的准确性,作为知名的手机品牌,他们希望快速了解用户的搜索需求,比如用户在搜索「XX手机好不好?」的时候,他们可以匹配对应内容。 但汉语的表达方式并不唯一,有时候同样一个意思可能有多个语句表达,例如上述这句话还可以用「XX手机怎么样?」「XX手机好用不?」等句式替代,类似这样的语义搜寻问题让实力雄厚的大企业也感到困惑。 『不同地区、不同文化程度的人,他们搜索的句子很可能完全不同,我们很难穷尽这种表达方式。 所以在文本阅读处理时,需要让计算机灵活适配各种不同的表达。』陈运文说他们后来帮助该企业设计了一个『非常精妙的算法』解决了这个问题。 现在这家公司已经成为达观长期的合作客户,而他们的合作也不再局限于「搜索分析」,而已经进入到「信息反馈」领域。 消费者每天会在中文网络上发布超过100万条关于企业产品的评价信息。如果让人来阅读这些信息,十个人的团队可能需要一天时间来完成,但人工智能只需要几分钟。 『AI系统可以为这些信息去归档整理,甚至是贴标签。』 如AI会判断每一条评论的属性,是「积极正向的还是消极负面的」,并为之贴上标签,同时会抓去关键词来告诉管理者,消费者的评价主要集中在哪些方面。这就方便了品牌方了解用户需求,了解舆情环境,并做出应对。 『此前这些工作都需要专门的人工处理,而现在计算机都可以完成。』陈运文说。 人工智能的这种『阅读理解』能力正在逐步改变那些文字工作者的职业环境,很多此前需要人工阅读审核的工作,今天都交由人工智能来完成,金融机构就是其中之一。 『我们帮助某金融机构设计的系统可以自动识别招股书里面的数据和含义,他们给我们列出来大约3000个审核点,我们让系统学会识别和判断,提高人工审核的效率。』 陈运文解释说,普通企业送审的招股说明书厚达500页,『常人看一遍就需要一个月』而现在他们用计算机来做初审,可以快速的发现说明书中的『数字错误或者重大风险』。 『公司上市往往需要一年得时间过会,其中很重要的原因就是阅读时间漫长,就算人工分头来阅读招股书也需要花费很长时间。』 某全球著名的会计师事务所也是达观数据的客户,他们正试图用AI替代人来来做审计。审计工作中大量的时间都花在「阅读」上,一旦审计一个公司,这些审计师需要阅读大量的公司合同进而将数据摘录到审计底稿中。 现在AI可以帮助他们完成这些工作,AI系统可以将企业合同中的「关键要素」抽取出来,然后导入审计师设计好的基础格式中,用以生成基础版的审计报告。 『当然,今天的AI还不能取代审计师来做审计报告,但它们可以辅助审计师快速的抽取数据。』 陈运文解释说,审计师此前需要一个月做的「基础审计报告」,今天AI「两分钟」就可以完成,单从速度方面比较AI比人类有着绝对的优势。 『人类一秒钟大概阅读24-30个字,也就是一条微信的长度,而AI一秒钟可以阅读1万个字,这将极大的缩短人们的工作时间。』 凭借AI『阅读理解』的能力,现在达观数据的客户包括中国光大银行、中信建投证券、海尔、长虹、平安等机构。 比较而言,今天人工智能在阅读方面的应用还更多的体现在理解「数字」上,和文字相比,数字显然更方便人工智能理解阅读。 『人脑不擅长记忆数字。』这甚至可以从人类文明点起源中找到依据。在公元前2500年,活动在西亚地区的苏美尔人创立了「楔形文字」,而今天能够找到的最古老的楔形文字是一块被称为『库辛石板』的泥板。 考古学家破译了这块泥板后发现这是一条「财务」信息——『在37个月间,总共收到29086单位的大麦,由库辛签核。』 人类第一条文字用来记账,这说明正是因为人脑不擅长记录数据,所以才将数字以图形的方式记录。现在这种差异以另一种方式延续——人们将不擅长记忆的数据交给电脑来记载。 但随着人工智能的发展,这些电脑不再局限于记忆数字,而开始通过数字为媒介,逐步进入记忆理解文字的范畴。 现在达观的文字系统已经从造字阅读的「仓颉」「毕昇」上升到书写诗歌「苏轼」,可以想象随着AI对于文字掌握能力的提高,「雪芹」的出现或许并不遥远。 『一些文学问题,最终都是数学问题。』陈运文感慨道。 --END--
版权所有:商业江湖    转载联系微信号:living_lu   邮箱:luhl2017@126.com 卢或者,一个有着2年海上经历的远洋船员;4年市场经验的石油销售,8年媒体经验的商业记者自媒体人。 同步更新,搜狐号、今日头条、UC、百家、企鹅号、大风号、网易号等。