关于搜索(本地篇)
前言 上次写搜索已经是500多天之前了,事实证明技术也有了新的发展。所以,我决定重新写一下有关于搜索的文章,也作为我自己的记录。同时,我自己的原则是其他人讲的比我好就用其他人的,也省的我重复造轮子。 注意 本机系统为WIN10/11最好,WIN7我不排除会出现什么奇奇怪怪的问题,同时我现在也没有WI…
ubuntu22.04开启热点实现共享网络
如果直接问AI,给的方法就会造成只能从有线网络连接并且发送到无线网卡,这不好。 要在Ubuntu系统上使用KDE桌面环境开启Wi-Fi热点,你可以按照以下步骤操作: 确认无线适配器支持AP模式: 确认你已经使用iw list命令检查过你的无线网卡支持AP(Access Point)模式。这是开启热点…
语言·计算&LLM——4. LLM基础知识
前言 这部分内容主要是作为理解LLM1运行规律的铺垫,这种穿透了自然语言和机器语言的机器需要一系列的前置知识才能完全理解。 基础知识 这些作为基础的知识铺垫,希望大家能够掌握并且可以带着这些内容进一步阅读下去。如果不能掌握也请带着问题继续阅读。我不一定完全结合LLM进行解释,毕竟现在所有东西都才刚刚…
语言·计算&LLM——1. 计算与计算机
前言 从人类开始认识数字的那一刻起,计算就成为了一个核心的问题。最初,人们通过数数和用手指头计算来解决简单的数学问题。随着时间的推移,人类发明了算筹和算盘,不断改进他们的计算方法。这一切的目的都是为了解决一个问题:如何准确快速地计算出数学公式的结果。随着数学的不断发展,算式变得越来越复杂,从简单的加…
语言·计算&LLM——0. 题记&序
0.0 题记 这个世界从不缺语言和计算,把他们好好的合在一起,就可以变成LLM。 0.1 序 这是一系列的文章,或许很多类似的知识都会出现在各种自媒体和书籍中,但是我想从语言学的视角来谈谈这些问题。同时使用最简单的语言展开我的叙述。所以请不要说书面语体的事情。这些都是基础知识,我会从最初的计算机一步…
古文免费OCR——以ndlkotenocr为例
请仔细在电脑上阅读完原文再操作,同时如果有不懂的请及时询问chatgpt等ai,并且上网查询。也可以发邮件联系我。(请查看上面联系站长)顺便感谢一下他们开源出GPU版本的模型供我们使用。 简介 这是一个利用NDL古典籍OCR技术将古典文献资料转换为文本数据的应用程序。版本3相较于之前版本在汉籍资料的…
ubuntu折腾
原因懂得都懂,被win弄得烦死了。直接一次性给出把,懒得写那么多了。 查看版本 cat /proc/version Linux version 5.15.118 (runner@fv-az360-832) (x86_64-openwrt-linux-musl-gcc (OpenWrt GCC 12.…
乔迁之文
    不知不觉,网站更新了三个版本,服务器也到期了。最开始在阿里云用新人加学生买了四年,没想到一晃而过。去年阿里云有优惠99一年续费同价,所以买了一台备用。今日迁移完成,特以此文记录过程,以便后世。 一、迁移方式    &ens…
差异产生文字

file
文字是个很神奇的东西,是利用差异进行表意的极致。无论是任何文字的类型,或者放大一点叫做任何传达信息的方式都利用了差异。因为如果相同就只能传递一种甚至什么都不能表达。(在特定情况下除外,早已写入或者被暗示的情况不算,比如说白色。)所以,文字利用了纸面的空白,或者说人类利用了这些差异进行记录。如果一张纸都是白色,那么可能什么都表示不了,但是在上面写上一两笔就不一样了。而用不同的颜色写上一两笔又不一样了。比如说《红字》。但是简简单单的利用空白还不够,需要对文字的差异程度进行处理。相当于是利用差异但是差异到什么样才算另一种意思或者能记录下另一种音符乃至音节。

比如说下面这些,看似都一样,并且人们也倾向于把这些都认为一样的。

文件传偷助手
文件传输助乎
文件转输助手
文仵传输助手
文件传输肋手

但是,很明显,里面混杂了一些差异并不太大的字符,对日常的表意进行误导。这是一种语言的文字系统需要去解决的问题。到底怎么样才算是一个独立的字。

鉴于我自己的水平,我无法完整的论证差异的大小,或者说无法完整度量这个因素。一方面是差异大小与认知相关,如果上面的例子把字单独拿出来放大,可能多数人都能发现其中的问题。但是在大家早已接受文件传输助手这几个字的组合情况下,会默认把类似的字符归一化,相当于下意识的用已有认知去推断这些字符。这在某种程度上是节约思考时间的方式,和打乱顺序依旧可以阅读一样。但是在差异过小却又需要辨析的情况下,只能够主动放慢速度进行辨认。同时,如果差异过多,超过了人类的认知水平,一样无法达到传输或者表达或者记录的效果。类似于某些马赛克,五彩斑斓的它们充满了差异,但是应该没有人用这些形式来记录语言。

另一方面是载体差异,相当于这些字符在哪显示或者说他们利用什么来表达这些差异。说来也奇怪,文字需要表达吗?需要。可以理解为表现形式,在什么上面或者用什么方式看到这些文字的。比如说我这段话的背景颜色用贴近于文字本身的颜色 , 这样一来,就很难辨认出到底里面有啥。(我没有把这个底色改成白色,因为那样的话就没有差异,不符合我们的论证了。)

所以,我们可以说,文字或者说信息的传递,一方面是需要差异,另外一方面是需要完美的表达这些差异。并且在某种程度上需要依靠人类的认知程度和客观载体进行表达。

121 日 , 2024 22:47
被转化成文字的世界

把这个世界变成文本之后
只有人可以完全理解
文本永远不是单个符号
它们靠着文本之间的空白而存在
得以区分,互相连接

114 日 , 2024 16:02
总算在今年内修好了书库
1230 日 , 2023 0:25
古文AI发展现状及未来
2023-05-30 09:13:26 星期二     注意:本文所探讨内容可能具有较强的时效性,不保证随时更新,请仔细辨别。同时本文可能综合许多学术大佬的观点,若正式发表则加上对应参考文献。 1.思维悖论     &n…
今夜,我们一起流浪

和我们一起流

在夜里

拍打着一起的我们

夜继续流

流向无光的夜

浪接着拍

拍打成星的我们

一起

一起

330 日 , 2023 1:11
面对新事物的思考与实践:心态、成本与实操

FROM CHATGPT:
面对未知的事物,首先我们需要保持一个良好的心态。在面对挑战时,我们要用开放包容的心态去思考,去面对这一切。面对新事物,我们需要考虑其中涉及的成本问题,包括实操和总结的成本。在这个过程中,我们可以用AI来帮助我们总结,例如使用B、Y和PDF等技术,提高工作效率。

在使用新技术时,我们不需要亲力亲为,而是要对我们的用途和使用场景进行充分概括,明确我们的需求所在。评估新技术能否满足我们的需求,如果能,我们就可以继续实操;如果不能,我们可以分享给需要的人。因为有时候我们并不是不需要这些新事物,而是对它们的需求并不完全。

在评估新技术的价值时,我们可以从不同的层面来看待:圈内、行业内、整个市场或上下游供应链体系。我们要分辨新技术到底是危机还是一个变化,还要看媒体渲染的神乎其神是否合理。在面对新技术时,我们需要寻找解决方案,将我们所知道的功能和玩法相互连接,创造出更加满足自己需求的物。

我们要认识到工具的存在合理性和合法性,更要利用这些工具改善生活,尽最大可能去使用它们,创造更多价值。面对新工具时,我们需要提前具备一定的知识、能力、思维、金钱和时间等资源。如果没有,请直接学,想方设法地拥有它们,因为这是当今社会生存的本能。

在接受新信息时,我们要保持开放的态度。虽然没有人知道最终的结果,但是时间会见证一切。最后,我们需要不断地提高自己,具备面对新技术、新工具的能力。在这个过程中,我们将更好地适应这个快速发展的社会,成为一个有能力、有思考力的人。

326 日 , 2023 21:01

我拦下了雪
盘问着风
带来西伯利亚的松鸣
哐当哐当
在冷暖交融之际我选择坚守
你说,我该让雪消失吗?

315 日 , 2023 13:41
语言-技术壁垒

利用不同语言的特点变成技术壁垒。如果说一个技术是印欧语系中出现,那么它将非常适合该语系环境下运行,但是转移到汉藏语系则会出现诸多困难。以NLP的分词为例,汉语是没有词型变化的,但是英语有。所以从英语国家传来的一系列技术需要进行本土化,这进一步增加了时间和成本。要么就是你只能服从你选择的那套技术体系。(比如说张慧和杨炳钧的《情态隐喻视阈下网络游戏话语的符号暴力研究》用的例子是英文版原神,不是中文版。)这样一来,言必称abc,怕是不大好吧。

主要问题不在语言,也在语言。这种人类创造出来束缚自己的工具终将成为一种武器。不是听不听得懂,或者说简单的文化渗透,这在二战用烂了。(参考《最后一课》)而是体系渗透,你需要的所有东西都是用我的语言写成,那么你被迫接受我的整套语言体系。即使是全部重构,也无法推翻或者完全替代。因为你的工具就是用我的语言写成的。在这个世界上,从零开始的成本比直接干掉对方高得多。

我们有没有可能打不过就加入呢?或者魔改后脱胎换骨呢?这就见仁见智了。

305 日 , 2023 9:32

一些技术类文章,我想想还是丢到B站,为的是更多人可以看到,给后世参考。
file
https://www.bilibili.com/read/readlist/rl681758

301 日 , 2023 17:05