大型语言模型(LLM)训练数据中有限的语言多样性通过边缘化印度语言等语言来加剧数字鸿沟。英语在训练数据中的主导地位并没有给LLM留下捕捉代表性较低语言丰富性的空间,这突出了他们表现中的偏见。提供一种补救措施,以数据为中心的微调,一个用额外和多样化的数据丰富模型的过程,显示了前景。特别是,与印度语言进行了微调的LLM在翻译这些语言方面显示出了改进的能力,即使使用最小的平行语料库也是如此。尽管印度语言的标记化成本很高,但微调可以显著提高模型的能力,解决对语言多样性构成威胁并加速语言灭绝的语言差距。因此,在LLM训练过程中优先考虑特定语言的数据丰富是弥合这一日益扩大的语言数字鸿沟的一条实用途径。
2023-11-18 06:20:15 +0800
LLM优先考虑流行语言,有可能导致低资源语言的数字过时。由于语言主导地位严重倾向于英语,这些代表性不足的语言在人工智能模型中经常被忽视,这会影响多语言优化。随着印度政府资助的项目通过设计针对鲜为人知的语言的LLM来遏制这种不公平现象,需要谨慎。尽管这些冒险是出于善意,但矛盾的是,它们可能会在不知不觉中加速语言灭绝。LLM的高质量翻译可能会无形地削弱保护这些语言的紧迫性,从而加速语言根除。促进LLM多样性以防止某些语言在技术上边缘化的举措应在战略上保持平衡,以帮助语言保护,而不是加速它们的废弃。在LLM中更广泛地包含低资源语言可以使他们具备多样化的多语言能力,从而创造一个公平的技术语言环境。因此,必须谨慎推动数字多语制,以防止LLM反映我们世界的语言差异,以免它们在数字领域放大这些差异。
2023-11-18 14:32:13 +0800
评论
大型语言模型(LLM)训练数据中有限的语言多样性通过边缘化印度语言等语言来加剧数字鸿沟。英语在训练数据中的主导地位并没有给LLM留下捕捉代表性较低语言丰富性的空间,这突出了他们表现中的偏见。提供一种补救措施,以数据为中心的微调,一个用额外和多样化的数据丰富模型的过程,显示了前景。特别是,与印度语言进行了微调的LLM在翻译这些语言方面显示出了改进的能力,即使使用最小的平行语料库也是如此。尽管印度语言的标记化成本很高,但微调可以显著提高模型的能力,解决对语言多样性构成威胁并加速语言灭绝的语言差距。因此,在LLM训练过程中优先考虑特定语言的数据丰富是弥合这一日益扩大的语言数字鸿沟的一条实用途径。
2023-11-18 06:20:15 +0800
LLM优先考虑流行语言,有可能导致低资源语言的数字过时。由于语言主导地位严重倾向于英语,这些代表性不足的语言在人工智能模型中经常被忽视,这会影响多语言优化。随着印度政府资助的项目通过设计针对鲜为人知的语言的LLM来遏制这种不公平现象,需要谨慎。尽管这些冒险是出于善意,但矛盾的是,它们可能会在不知不觉中加速语言灭绝。LLM的高质量翻译可能会无形地削弱保护这些语言的紧迫性,从而加速语言根除。促进LLM多样性以防止某些语言在技术上边缘化的举措应在战略上保持平衡,以帮助语言保护,而不是加速它们的废弃。在LLM中更广泛地包含低资源语言可以使他们具备多样化的多语言能力,从而创造一个公平的技术语言环境。因此,必须谨慎推动数字多语制,以防止LLM反映我们世界的语言差异,以免它们在数字领域放大这些差异。
2023-11-18 14:32:13 +0800