您的位置:首页 >知识百科 >

计算机系统分析语言语法的差异

几十年来,语言学家一直在绞尽脑汁思考各种语言的语法究竟有何不同。博士候选人MartinKroon开发了一个计算机系统,使我们更接近于找到答案。他的博士学位。防御时间为11月10日。

了解语言之间的异同将使我们更接近了解我们的大脑如何工作。毕竟,发现不同语言共有的结构可以告诉我们很多关于大脑如何处理语言的信息。然而,到目前为止,很难确定语言相同或不同的所有方式。

“这一切都是手动完成的,但是有很多语言,基本上你可以在其中生成无限数量的句子,”Kroon解释道。这意味着存在偏见的风险。“你必须提前选择你要比较的东西,这可能会导致你忽略一些事情,或者反过来确认一些根本不经常发生的事情。”

压缩语言

因此,Kroon决定采取不同的方法。计算机系统应该可以在更大范围内比较不同的语言。“我主要使用欧盟会议的记录,因为它们被翻译成所有欧盟语言,”他说,然后解释了他如何将两种方法应用于数据。

“首先,最小描述长度(MDL)原则给我留下了深刻的印象。这实际上是一个压缩问题,就像你在计算机上所做的一样:如何让大数据尽可能小,以便它们适合zip文件?为此,MDL搜索频繁出现但不太长的模式。例如,在荷兰语中,这可能是“文章+名词”。这种模式很容易压缩,你不会在捷克语中找到它,例如,因为捷克语没有文章。”

他发现系统有效。转录中的模式出现了,表明句法的相似性和差异性。然而,与此同时,计算机经常会发现仔细检查后与语法几乎没有关系的差异。

“有些文本是手动翻译的,所以你无法再在语法上比较它们,”Kroon说。“例如,最初的英语‘tothematterathand’被翻译成荷兰语为‘ennuheteigenlijkeonderwerp’(=‘andnowtheactualsubject’)。这意味着同样的事情,但在以下方面却完全不同语法和结构。”

将英语投射到匈牙利语上

此外,语言描述语言的方式并不总是有帮助:在荷兰语中使用的语言现象的描述在捷克语中找不到,反之亦然。例如,“tedoen”(=“todo”)中的荷兰语“te”在结构上被标记为介词,而其英语对应物“to”在结构上被标记为助词。或者更随意的是,欧盟在捷克语中经常被标记为“形容词+名词”,而在英语中则被标记为“专有名词”。

“因此,在第二次测试中,我将一种语言的注释投射到另一种未注释的语言上,”Kroon说。“那时我对捷克语的了解太多了,所以我在第二次测试中使用了匈牙利语。首先,我们必须弄清楚句子中哪些单词是彼此对应的,然后我们可以说:这是英语中的有限动词,那么这可能也是匈牙利语的限定动词。”

与此同时,一位匈牙利语语法专家手动编制了一份英语和匈牙利语之间差异的列表。理想情况下,该软件会发现相同的特征相似点和不同点。“这并不完全奏效,”Kroon不得不承认。“我们发现我在软件的基础上提出的许多假设都得到了证实。但与此同时,我们无法找到所有特征差异。所以我的结果大部分可以给语言学家一个正确的推动力方向:试试看这里,因为这些可能是有趣的模式。但完全是自动的?到目前为止,我们仍然需要太多的人工解释。

因此需要更多的研究。Kroon认为这绝对值得。“所有的研究都是从一个问题开始的,而这个问题之所以存在,是因为我们可以把我们的想法变成文字。在我看来,这意味着研究语言与其他一切一样重要。”

免责声明:本文由用户上传,如有侵权请联系删除!