会计论文

首页 » 常识 » 预防 » 冯志伟我老了,机器翻译依然年轻
TUhjnbcbe - 2024/9/8 17:19:00
皮肤白癜风 http://www.jk100f.com/m/

学人小传

冯志伟,年生于昆明。年考入北京大学地球化学专业,年从语言学专业研究生毕业,后到天津、昆明的中学任教。年考入中国科技大学研究生院,公派至法国留学,学习数理语言学和机器翻译。回国后到中国科技信息研究所工作,后调入国家语委语言文字应用研究所(现属教育部)任计算语言学研究室主任、研究员。研制了世界上第一个从汉语到多种外语的机器翻译系统、世界上第一个中文术语数据库。曾获得奥地利维斯特奖、中国计算机学会NLPCC杰出贡献奖。用中外文出版《现代术语学引论》《自然语言计算机形式分析的理论与方法》《自然语言处理综论》等著作及译著40多部。

冯志伟在国际会议上与外国专家讨论。

本版图片均由作者提供

当今世界,人工智能研究方兴未艾,而机器翻译被学术界视为人工智能研究皇冠上最耀眼的一颗明珠。作为我国计算语言学的开拓者之一,世界上第一个“汉语到多种外语机器翻译系统”的研制者冯志伟,今年已经82岁高龄了,仍然活跃在机器翻译领域。

两个多月前,他又走上清华大学的讲台,以“机器翻译和它的四个类型”为题发表演讲。基于规则的机器翻译、基于实例的机器翻译、统计机器翻译、神经机器翻译各有什么特点,难点在哪,前景如何,冯志伟娓娓道来。他告诫年轻学者,不要过分迷信目前广为流行的基于语言大数据的经验主义方法,不要轻易忽视目前受到冷落的基于语言规则的理性主义方法,而是要努力综合运用两种方法,把机器翻译研究推向深入。

从昆明到北大

年4月,冯志伟生于云南昆明一个贫困家庭。他的稚幼岁月是在跑警报躲轰炸的战火中度过的。

年11月24日,防空警报骤响,只有5岁零7个月的冯志伟和母亲一起跑向城外,慌忙奔跑的人群把这对母子冲散了。这是日军对昆明的第次轰炸,投弹多枚。天黑尽了,冯志伟还没有回家。第二天,父母在城里城外穷找了一天,也不见他的影子。母亲哭得死去活来,以为宝贝儿子被炸成了碎片。直到黄昏时分,冯志伟竟自己摸进了家门。原来,他在轰炸声中跳进了稻田里一个大炸弹坑。紧接着,近旁炸弹爆炸的泥土覆盖住他的全身,他休克了将近一夜,直到天亮才醒来。冯志伟挣扎着爬出炸弹坑,随后又昏倒在田埂边。一位好心的农民发现了他,把他抱回家洗浴、喂饭,直至傍晚,把他送上回家的大路。

年7月15日,7岁的冯志伟跟着舅舅到云南大学至公堂参加李公朴先生追悼会,一位长者正在那里慷慨激昂地演讲:“人民的力量是要胜利的,真理是永远存在的……反动派,你看见一个人倒下去,可也看得见千百个人继起的……我们不怕死,我们有牺牲的精神!我们随时像李先生一样,前脚跨出大门,后脚就不准备再跨进大门!”此人就是闻一多。当天下午,闻一多在回家途中遭国民党特务伏击,中弹牺牲。这场演讲给冯志伟留下了深刻印象,对闻一多先生的崇敬之情一直伴随着他。长大之后他才知道,舅舅是中共地下党员。

年,冯志伟以优异成绩考取了北京大学地球化学专业。昆明一中的校长和老师都无比高兴,表扬他为学校争了光。可回到家,父亲却不同意冯志伟到北京大学读书,要他先工作养活自己,然后再多挣点钱补贴家用。父亲那时是昆明市蔬菜公司的会计,要用自己微薄的工资养活家中的7个孩子。这样的安排,也是无奈之举。

母亲一听,断定这将会毁了聪明儿子的前途,和父亲吵了起来。第二天一早,母亲带着冯志伟到左邻右舍、亲戚朋友家化缘、借贷,终于凑齐了从昆明到北京的路费。

从理科到文科

从云南边疆进入北京大学,冯志伟深知这个机会来之不易,学习非常刻苦。课余时间,他喜欢钻进北大图书馆,探寻学术前沿。有一次,他在外文图书室看到了美国语言学家乔姆斯基的论文《语言描写的三个模型》。这是一篇语言学论文,却发表在自然科学的信息论杂志上,冯志伟感到特别好奇,怀着极大的兴趣通读了全文,认识到这是乔氏应用数学中的“马尔科夫链”来描述自然语言的生成过程,为语言建立了一套独特的数学模型。

冯志伟下定决心要学习这种崭新的语言学理论,于是向学校提出申请,要求转到中文系语言学专业学习。校方认为,这种从理科到文科的跨专业转系没有先例,因此未予批准。此后近一年,冯志伟一而再、再而三地向学校恳求,最终如愿,但条件是从理科二年级转到文科一年级,从头学起。父亲盼着他早日毕业挣钱养家,他却从理科转到文科,白学了两年,父亲气得直骂:“愚蠢!”

冯志伟由此开始了跨学科的学术研究。转入语言学专业一年之后,这个“愚蠢”的儿子写出论文《“语法”定名胜于“文法”》,刊于《中国语文》年第2期。《中国语文》是语言学界的顶级刊物,大学二年级的学生在这样的刊物上发表文章,实属罕见。

年11月,《文汇报》刊发了陈望道、吴文祺、邓明以撰写的文章《“文法”“语法”名义的演变和我们对文法学科定名的建议》,12月又登载了傅东华的文章《“文法”定名优胜于“语法”》。冯志伟读了这两篇文章,认为学术界已经使用“语法”多年,语法定名胜于文法。双方的意见针锋相对,于是引起了一场学术争论。这场学术争论的结果,“语法”的定名取代了“文法”。冯志伟的名字在北京、上海传开了,可是许多人不知道他只是一个大学二年级的学生。

年,冯志伟考取了北大研究生,师从岑麒祥教授学习现代语言学流派的理论。他仍然迷恋数学与语言学的跨学科研究,把毕业论文题目定为《数学方法在语言学中的应用》。岑麒祥教授认为,这个题目偏到理科方面去了,不像传统的语言学研究,未予批准。冯志伟向王力教授汇报了自己的想法,王力教授主张中文系的人也要学习数理化,认为用数学方法进行语言学研究有道理,可以大胆尝试。睿智而豁达的岑麒祥教授改变了想法,同意了冯志伟的选题。

于是冯志伟精心撰写这篇论文,顺利完成,准备答辩了。可是,年5月“文革”开始,答辩无法进行。冯志伟等待又等待,最后还是不能答辩,到年8月下旬,他领到了北京大学研究生毕业证书,被分配到天津唐口三中教英语。

手工计算汉字的熵

在天津教了三年英语,年8月,冯志伟调至昆明五中当物理教师,他的语言学专业已经没有用武之地了。但是,他没有放弃跨学科研究,经常到云南省科技情报研究所和云南省图书馆,阅读外文书刊,密切跟踪国际数理语言学研究进展,利用业余时间写成长篇论文《数理语言学简介》,发表在年第4期的《计算机应用与应用数学》杂志上。这篇文章犹如空谷足音,使人们认识到,在极其艰苦的条件下,仍然有人继续进行着跨学科的探索。

那段时间,冯志伟还研究了汉字的“熵”。熵是物理学术语,用于量度某些物质系统的状态,英语字母所含信息量的大小也可用“熵”来表示。信息论的奠基人香农使用手工查频的方法,统计出英语26个字母在文本中出现的频度,经过复杂计算,确定英语字母的熵为4.03比特,奠定了信息论的理论基础。

香农又提出了“编码定理”,他指出:在编码时,码字的平均长度不能小于字符的熵。英语字母采用单字节编码,码字的长度是1个字节,相当于8比特,大于英语字母的熵,符合香农的“编码定理”。因此,采用单字节来给英语字母编码,是符合数学原理的。

20世纪70年代,国外已经广泛使用计算机了。冯志伟想,中国人将来也要使用计算机,那时,就必须要给汉字编码,使得汉字也可以在计算机上自由地输入、输出、传输。但是,汉字究竟要使用多少字节来编码呢?根据香农“编码定理”,要给汉字编码,首先就要计算汉字的熵,这是冯志伟最为关心的问题。他想,如果汉字的熵大于8比特,那就不能采用单字节编码了,我们就必须另辟蹊径,研制新的编码方式。汉字数量庞大、笔画繁多,汉字熵的计算特别艰难。首先要进行字频统计,然后再计算汉字的熵。冯志伟动员岳父和10位朋友一起工作,没有计算机,主要使用计算尺和算盘来手工计算。冯志伟岳父在云南省粮食厅工作,算盘打得非常熟,他打算盘,配合冯志伟拉计算尺进行计算。最后,冯志伟根据手工统计得出的1万多个汉字的频度,经过精心计算,确定汉字的熵值为9.65比特。这样,汉字只好采用双字节(2字节=16比特)来编码了。冯志伟的这项工作,为20世纪80年代汉字的双字节编码提供了可靠的理论基础。

冯志伟始终认为,9.65比特只是一个估测出的汉字熵值,还需要采用更加精密的手段进行检验。20世纪80年代,北京航空学院计算机系教授刘源使用计算机统计了汉字的频度,并计算出汉字的熵为9.71比特,与冯志伟通过手工计算估测的结果相差不大。

年春,全国科学大会召开了,在“尊重知识、尊重人才”的口号声中,北京大学开始行动,希望把远在昆明的冯志伟调入北大,而冯志伟在昆明五中教学成绩优秀,学校舍不得放他走,调动没有成功。

其时,中国科技大学研究生院正式在北京成立,开始招生,冯志伟抓住这个机会,经过认真准备,一举考中,昆明五中只好放他走了。年国庆节之后,这个39岁的壮汉又变成了学生,背着书包从昆明到北京去上学。

闯进机器翻译的迷宫

那一年,中国科大研究生院录取新生名,决定选派其中的名公费出国留学,冯志伟就是其中一员。

年12月20日,冯志伟乘飞机到达法国巴黎,在中国驻法大使馆报到之后,先到维希的“嘉文澜”语言学院进修法语。年3月1日,冯志伟乘火车从维希抵达格勒诺布尔。一下火车,他就看到格勒诺布尔理科医科大学应用数学研究所“自动翻译中心”主任沃古瓦(Vauquois)教授亲自来火车站迎接。沃古瓦是数学家、天文学家、计算机科学和计算语言学家,又是国际计算语言学会议(COLING)的主席,他曾带领自动翻译中心研制了俄-法机器翻译系统,达到国际领先水平。

冯志伟在沃古瓦的悉心指导下,闯进机器翻译的迷宫,环顾细查,借鉴创新。他掌握了最新的计算机编程技术,学会了使用当时最先进的IBM大型计算机,开始研制“汉语-法语机器翻译系统”。

在机器翻译的研究中,冯志伟提出了多叉多标记树形图模型(Multiple-branchedMultiple-labeledTreeModel,MMT模型),用多叉树来改进直接成分分析法的二叉树,首先对源语言的字符串进行形态分析,把线性字符串转换成有层次的多叉树来表示源语言的句法语义特征,然后进行源语言多叉树到目标语言多叉树的转换,最后把目标语言多叉树转换为目标语言的字符串作为译文输出。对于多叉树中每一个节点上的信息,他还使用多标记来改进传统的单一标记,精心设计了一套复杂特征集(

1
查看完整版本: 冯志伟我老了,机器翻译依然年轻