古文AI发展现状及未来
本文最后更新于 265 天前,其中的信息可能已经有所发展或是发生改变。

2023-05-30 09:13:26 星期二

    注意:本文所探讨内容可能具有较强的时效性,不保证随时更新,请仔细辨别。同时本文可能综合许多学术大佬的观点,若正式发表则加上对应参考文献。

1.思维悖论

        从某些程度上说,中文世界的AI本身就是一个悖论,也就是中文AI只会说话但没有思维(国产鹦鹉?)。智性思维和悟性思维的差异,外加上物象和意象乃至最终物境和意境,似乎中间就是差了那么一点点,无法衔接。这个问题需要从计算机的发展史和AI的发展史讲起,而且重点不是技术,是使用的语言。

1.1 计算机与AI的语言来源

//感谢GPT-4
机械计算机时期(17世纪-19世纪):这一时期的代表设备是由法国数学家布莱斯·帕斯卡和英国数学家查尔斯·巴贝奇设计的机械计算机。他们的计算机可以进行基本的加法运算,巴贝奇的设备还可以进行除法和乘法。这些机器都是完全机械化的,通过手动操作进行控制。

电子管计算机时期(1930年代-1950年代):电子管计算机的代表设备是ENIAC(Electronic Numerical Integrator and Computer)。ENIAC由一万八千多个电子管、一万五千个继电器、七十千个电阻器、十万个电容器和近六千个手动开关组成。ENIAC的控制方式依然比较原始,需要通过物理接线的方式编程。

晶体管计算机时期(1950年代-1960年代):随着晶体管的发明,计算机开始变得更小、更便宜、更快、消耗的电力也更少。同时,计算机语言开始发展,例如汇编语言和FORTRAN,它们使得编程变得更简单,不再需要物理接线。

集成电路时期(1960年代-现在):随着集成电路的发明,计算机变得更小,性能更高,价格更低。在这个时代,出现了更高级的编程语言,如C,C++,Java,Python等等,它们使得编程更加简单,功能也更强大。

量子计算机时期(21世纪初-至今):这是计算机的最新发展阶段。量子计算机利用量子力学的特性进行计算,理论上,它们的计算能力远超过传统的计算机。然而,到目前为止(2023年),量子计算机仍处于实验阶段。
//感谢GPT-4
人工智能(AI)的发展历史也相当复杂,但可以分为几个关键阶段:

概念提出和早期实验阶段(1950年代-1960年代):这个阶段的重点是为AI定义理论基础。AI的概念首次被提出是在1956年的达特茅斯会议。在此期间,研究人员使用了许多不同的编程语言进行实验,例如LISP和Prolog,这两种语言后来成为了AI研究的主要工具。

经验扩展和技术成熟阶段(1970年代-1980年代):在这个阶段,AI开始被应用于真实世界的问题。例如,专家系统的开发。专家系统是一种能模拟人类专家解决特定问题的计算机系统。这期间的AI开发主要还是使用LISP和Prolog语言。

机器学习和神经网络时代(1990年代-至今):从1990年代开始,AI研究的重点逐渐转向机器学习和神经网络。这个阶段主要的编程语言包括Python和R,而专门的机器学习库和框架,例如TensorFlow和PyTorch,也开始广泛应用。Python因其语法简洁,生态丰富,成为了主流的AI开发语言。

目前(2023年),Python仍然是AI领域的主要编程语言,其配套的库如NumPy, SciPy, Matplotlib, Pandas等为数据处理和科学计算提供了便利。在机器学习和深度学习领域,TensorFlow, Keras, PyTorch等框架是最常用的工具。

综上,人工智能从最早的LISP和Prolog,到现在的Python等,一直在不断地探索和发展,其编程语言也不断适应AI发展的需要。

        可以看出,整个计算机是以英语为基础语言进行控制的机器,而在其上运行的人工智能程序,也是以英语为基础的。可以说,它们都是被智性思维的语言所支配。那么,完全的智性思维能不能诞生悟性思维?我在这里不敢下定论,但是我可以表明的观点是:很难,乃至于不可能。

1.2 悟性思维可否完全通过语言呈现


        但是,如果我们给它加入一定量的悟性思维成分,它可以拥有悟性思维吗?也很难说。因为悟性思维在机器的运行中是不被允许的,底层的制约让他无法“悟”。但是可以假装悟道,也就是复读,或者组合与聚合。这样一来似乎我们能够知道她说得出部分悟性思维的句子,但是目前没人知道这是他自己产生的还是简单凑出来的。让他自己说是不可信的,但是外接观测也是无法确定的。
        所以,AI面对全世界语言中悟性思维最强的古文,似乎是无法和人一样进行理解的。具体一点就是只知道表层所指,无法感知意境。

2.现状

        功业未尽,仍需精进。前人栽树,后人乘凉。

2.1 对话

        从目前来看,暂无可以完成文言文对话的AI。笔者用《论语》微调ChatGLM而成的AI只能理解一半,常常还需要笔者本人的领悟能力。同时,对于可能有变成复读机的对话AI,在此表过不提。

2.2 续写

        较为成型的AI是SikuGPT,它使用纯文言文语料和GPT2的方法精炼而成,也就是将纯悟性思维的语料丢到一个纯智性思维的框架中。经过笔者测试,只能说邯郸学步学了一半,像模像样。它并不具备对话能力,只有续写能力。而同样的续写在RWKV等出现后变得极其方便,可以快速使用某些文本炼出,但是缺乏公认的评价标准,无法验证文言文能力。

2.3 翻译

        古文翻译则一言难尽,古籍酷有类似的工具,但是笔者认为翻译的需求不大,只是检验他的一种方式。冯友兰的观点是:翻译即解释。希望它能够正确阐释本意吧。

2.4 断句

        标点断句目前有北大吾与点古联自动标点系统古籍酷几家。做的都还算可以,但是个别错漏难以避免,建议自行判断。这个是目前AI的局限性。

2.5 光学符号识别

        以阿里云的汉典重光古籍酷为代表,识别能力较好。百度API对刻本识别能力较好,抄本等仍需学习。目前来看,字符集是一大瓶颈,倘若字库中没有该字则会输出错误的字。纠错能力也是一大瓶颈,它无法完全模仿人类的认字方式。

3.未来

        我们把五千年的文明融进智性思维的AI是可能的吗?或许是可能的,但是路是艰难的。

3.1 字符集

        目前的类ChatGPT型AI或者说以其为标准的AI 基本上使用utf-8编码,这是一件好事情。但是,UTF-8更新中文字符的频率一言难尽。民间为了显示,先行使用某些区块(E等扩展区)和自制字体(全宋体)以求显示字典中的某些字符。但是这种做法也不能算长久,最终还是要让位置的。
        我们有没有一种可能把所有的字都转换为正体字输入呢?很难,或者说又开始破坏文本,削足适履。我们自己的文本,需要我们自己掌握话语权,不能被印欧语系牵着走。语言可能变成技术壁垒

3.2 增添意境

        可以说AI理解不了文中或者诗中的意境就等于理解不了这篇文章的灵魂,理解不了古文传千年的原因。希望不是通过翻译的形式去呈现它可能的领悟,那个是对文本的破坏。我们知道,诗中有画,画中有诗。也就是说,可以通过各种形式表示同一个意境。那么,多模态古文模型,倘若真的领悟,则文图对应,既可以品诗也可以赏画。这个只是笔者的假说,一种可能的方法。(笔者还在思考中。)

3.3 博古通今 中外兼修

        取其精华,去其糟粕。不能一味稽古,也不可一味言今。需要二者有机结合才是真。并且,许多学术成果,是借助今天的考古挖掘、数字化、OCR等方式得出。我们的AI也需要尽可能跟上时代,至少向GPT4多多学习。尽可能满足人类的需求,学会世间所有知识。(这是笔者的假说,实际上可能不止一代人才能实现,拭目以待。)

4.结语

        古文AI方兴未艾,等待我们进一步探索。AI产生悟性思维的可能性,也有待进一步论证。炼丹吧,炼丹吧。希望有生之年,能看到那么一两个,领悟意境的AI。

暂无评论

发送评论 编辑评论

|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇