《失落的卫星》:中文失语症

刘子超写过一本书,名叫《失落的卫星》,记录他深入中亚大陆游历的所见所闻,书里有段感慨,在满是英文的世界,如果一个国家不注重文字与语言的建设,以后能看见的只能是它过投来的文字,谁知道真假对错(大意)。失去文字和语言,意味着整个文化的消失。
我最近沉迷ChatGPT,看见一段视频,讨论中文AI语料的复杂性,ChatGPT 是LLM(Large Language Models,大规模语言模型),所谓语言模型,就是用来处理语言文字(或者符号体系)的 AI 模型,发现其中的规律,可以根据提示(prompt),自动生成符合这些规律的内容。
AI的终极目标是成为「通用人类智能」(artificial general intelligence,简写 AGI),如果创造出像人类那样全方位的推理、思考、分析的机器,那么,整个人类危险了。
ChatGPT的成功关键来源于语料库的准确性,目前,英语比中文准确,有一个原因是英语有许多语料库是中文无法企及的。
在获取信息方面,英文有维基百科、reddit、Common Crawl……
在学术研究方面,有《自然》《科学》《柳叶刀》等期刊杂志,甚至论文查重平台和学术规则,也是用英文建立的。
至于程序员使用人数最多的代码社区GitHub也是英文建立的。
在丰富的语料库加持下,不断进行训练,ChatGPT才能通过许多考试,如同人般进行对话交流。
反观中文,对比英文语料库,中文有拿出手的语料库吗?别说语料库,经过不断围城,连开放的门也已经关闭,更别说小视频里不断出现替换的敏感字词。一方面,平台不停提高技术手段,限制对手爬取信息,另一方面,人们不停规避敏感词,进行同音字词替换,在建立高墙的同时,中文语料库不断萎缩也很难。现在的中文,正在成为荒漠,如果没有活水,很难确保语料库的丰富。
我一直在学中文,每天会看见无数陈词滥调的词语,汉语曾经是多美的语言,唐诗、宋词、元曲、明清小说……发展至今,变得毫无美感,用分析语料人的话说,除了脏以外,再也找不到能形容现在中文近况的词。
在使用ChatGPT的过程中,我发现它在不断学习的过程中,学会了我们说大话,写大词,甚至还学会在标题和文章里频繁使用感叹号,它仿佛是一面镜子,不停反射整个中文语料的贫瘠。这或许是不让写、不让说、不诚实的中文环境下面临的真正困境。
《失落的卫星》里,刘子超深入中亚,去过的地方是一个个小国,由于英语的快速发展,许多人已经放弃学习本土语言,语言有多重要?我不禁想起一句古诗:
少小离家老大回,乡音无改鬓毛衰。
儿童相见不相识,笑问客从何处来。