中大新聞中心
中大工程学院研发全港首个错字和粤语检测系统
香港中文大学(中大)系统工程与工程管理学系黄锦辉教授及其研究团队最近开发了全港首个加入粤语元素的「错字和粤语检测系统」,是唯一专为香港学生量身打造的自动中文检测系统。系统已在语文教师和中小学生间进行测试,效果令人满意。
随著社交网络及即时通讯软件兴起,年青人惯以各式各样的口语、缩写、谐音,甚至中英及符号夹杂的文字与人沟通,使部分学生的书面语表达能力大受影响。中大团队透过大量粤语数据挖掘、深入的计算和分类技术,研发「错字和粤语检测系统」,冀有助改善中小学生的中文书写水平。
中大团队将此系统应用于香港中小学生的中文作文,一篇几百到一千字的文章,只需数秒时间便可完成分析。大多数错别字会被标示出来,误报率也极低。此外,系统能为每一个错别字和粤语口语提供修正的建议,更可为部分粤语用法提供对应的中文解释。该系统将逐步开放予全港中小学校使用,预料全面推广至教育界后,可为中文科教师和学生提供一个简单易用的辅助教学工具,增添学生的学习乐趣,并提升语文能力。此外,研究团队计划在本年内将系统转化为办公室软件(如MS Office)的插件,开放予公众使用。该系统近日于2017中国创新创业成果交易会展出。
系统利用智慧演算法更准确地识别错字
该系统主要分为错字检测和粤语检测两部分。使用者输入中文句子或篇章后,系统会首先运用「错字检测模组」为句子进行分词(Segmentation)及词性标注(Part-of-speech tagging),以检测句子中不能与前文后理组成通顺句子的字,这是系统认为最可能出现错误的部分。虽然其他研究机构亦有利用此逻辑进行类似的研究,但基于现有演算法的限制,它们很容易把常用单字(例如「的」、「地」、「是」等)误判为错字。中大团队所开发的系统以大数据(Big Data)及深度学习(Deep Learning)为基础,并配合独特的智慧演算法,能有效地识别句子中的不恰当的口语与倒装用法。团队亦建构了一个包含60,000多个中文字的混淆集,通过评分的机制,从而提议最合适的替换字词。
通过粤语检测冀改善学生以口语入文的习惯
系统独有的「粤语检测模组」是用以检测字句中有否粤语的口语用法,例如将「喜欢」写作「钟意」。此模组建基于一个庞大的粤语词语字典库,内含约12,000个词语,现时仍在不断扩充及优化中。模组还配置一个构造规则库系统,经参考多份文献后,以粤语语言规则和词性标注(Part-of-speech tagging),构造了多条规则,适用于基本的粤语句子结构。系统还可以检测量词的用法是否正确,例如「一条鱼/一尾鱼」、有否输入了简体字,以及倒装用法,如「紧要/要紧」等。
黄教授的科研团队精于自然语言处理、网路资讯挖掘、谣言检测等领域,他表示:「选择粤语为检测主体,原因是粤语是个精密的语文系统,当中包括独特的语法规则、大量的口语词汇,这亦增加了检测工作的挑战和难度,项目有望能推进中国语文之学习。」
中大系统工程与工程管理学系研究员冯沛璋博士表示:「语言与文字会随著时间及地域而不断发展和演变,因而难以制定一套永久通用并放诸四海皆准的用法,所以我们所设计的系统加入了人工智能和深度学习等元素,能根据使用者选词造句的要求及语文教师的设定等,不断自我改进和更新相关的词语和语法规则,进一步完善其中文检测功能。」
中大在今年的「路透社:亚太区最具创新力大学」(Reuters: Asia Pacific region’s most innovative universities)排名中,再次在香港区位列榜首,整体排名第27位。
中大一直致力推动创新科技,目前在全球各地有超过750个获授权的专利项目,大部分已经与业界达成合作协议,把创新科技引入市场。单在2016-17年度,中大已申请了183个专利,以及有88项专利获审批授权,涉及医疗科技、生物科技、信息科技、电讯及材料科学等领域。中大积极推动校内的创新创业气氛,于2014年成立前期创业育成中心(Pre-incubation Centre,简称Pi Centre),并透过知识转移,协助校内师生将其研究成果应用于社会,至今已建立共32家初创企业,业务范畴涵盖崭新诊断平台以至视觉引导机器人。