121 日 , 2024 22:47:24
差异产生文字

file
文字是个很神奇的东西,是利用差异进行表意的极致。无论是任何文字的类型,或者放大一点叫做任何传达信息的方式都利用了差异。因为如果相同就只能传递一种甚至什么都不能表达。(在特定情况下除外,早已写入或者被暗示的情况不算,比如说白色。)所以,文字利用了纸面的空白,或者说人类利用了这些差异进行记录。如果一张纸都是白色,那么可能什么都表示不了,但是在上面写上一两笔就不一样了。而用不同的颜色写上一两笔又不一样了。比如说《红字》。但是简简单单的利用空白还不够,需要对文字的差异程度进行处理。相当于是利用差异但是差异到什么样才算另一种意思或者能记录下另一种音符乃至音节。

比如说下面这些,看似都一样,并且人们也倾向于把这些都认为一样的。

文件传偷助手
文件传输助乎
文件转输助手
文仵传输助手
文件传输肋手

但是,很明显,里面混杂了一些差异并不太大的字符,对日常的表意进行误导。这是一种语言的文字系统需要去解决的问题。到底怎么样才算是一个独立的字。

鉴于我自己的水平,我无法完整的论证差异的大小,或者说无法完整度量这个因素。一方面是差异大小与认知相关,如果上面的例子把字单独拿出来放大,可能多数人都能发现其中的问题。但是在大家早已接受文件传输助手这几个字的组合情况下,会默认把类似的字符归一化,相当于下意识的用已有认知去推断这些字符。这在某种程度上是节约思考时间的方式,和打乱顺序依旧可以阅读一样。但是在差异过小却又需要辨析的情况下,只能够主动放慢速度进行辨认。同时,如果差异过多,超过了人类的认知水平,一样无法达到传输或者表达或者记录的效果。类似于某些马赛克,五彩斑斓的它们充满了差异,但是应该没有人用这些形式来记录语言。

另一方面是载体差异,相当于这些字符在哪显示或者说他们利用什么来表达这些差异。说来也奇怪,文字需要表达吗?需要。可以理解为表现形式,在什么上面或者用什么方式看到这些文字的。比如说我这段话的背景颜色用贴近于文字本身的颜色 , 这样一来,就很难辨认出到底里面有啥。(我没有把这个底色改成白色,因为那样的话就没有差异,不符合我们的论证了。)

所以,我们可以说,文字或者说信息的传递,一方面是需要差异,另外一方面是需要完美的表达这些差异。并且在某种程度上需要依靠人类的认知程度和客观载体进行表达。

114 日 , 2024 16:02:11
被转化成文字的世界

把这个世界变成文本之后
只有人可以完全理解
文本永远不是单个符号
它们靠着文本之间的空白而存在
得以区分,互相连接

330 日 , 2023 1:11:48
326 日 , 2023 21:01:17
面对新事物的思考与实践:心态、成本与实操

FROM CHATGPT:
面对未知的事物,首先我们需要保持一个良好的心态。在面对挑战时,我们要用开放包容的心态去思考,去面对这一切。面对新事物,我们需要考虑其中涉及的成本问题,包括实操和总结的成本。在这个过程中,我们可以用AI来帮助我们总结,例如使用B、Y和PDF等技术,提高工作效率。

在使用新技术时,我们不需要亲力亲为,而是要对我们的用途和使用场景进行充分概括,明确我们的需求所在。评估新技术能否满足我们的需求,如果能,我们就可以继续实操;如果不能,我们可以分享给需要的人。因为有时候我们并不是不需要这些新事物,而是对它们的需求并不完全。

在评估新技术的价值时,我们可以从不同的层面来看待:圈内、行业内、整个市场或上下游供应链体系。我们要分辨新技术到底是危机还是一个变化,还要看媒体渲染的神乎其神是否合理。在面对新技术时,我们需要寻找解决方案,将我们所知道的功能和玩法相互连接,创造出更加满足自己需求的物。

我们要认识到工具的存在合理性和合法性,更要利用这些工具改善生活,尽最大可能去使用它们,创造更多价值。面对新工具时,我们需要提前具备一定的知识、能力、思维、金钱和时间等资源。如果没有,请直接学,想方设法地拥有它们,因为这是当今社会生存的本能。

在接受新信息时,我们要保持开放的态度。虽然没有人知道最终的结果,但是时间会见证一切。最后,我们需要不断地提高自己,具备面对新技术、新工具的能力。在这个过程中,我们将更好地适应这个快速发展的社会,成为一个有能力、有思考力的人。

315 日 , 2023 13:41:07

我拦下了雪
盘问着风
带来西伯利亚的松鸣
哐当哐当
在冷暖交融之际我选择坚守
你说,我该让雪消失吗?

305 日 , 2023 9:32:31
语言-技术壁垒

利用不同语言的特点变成技术壁垒。如果说一个技术是印欧语系中出现,那么它将非常适合该语系环境下运行,但是转移到汉藏语系则会出现诸多困难。以NLP的分词为例,汉语是没有词型变化的,但是英语有。所以从英语国家传来的一系列技术需要进行本土化,这进一步增加了时间和成本。要么就是你只能服从你选择的那套技术体系。(比如说张慧和杨炳钧的《情态隐喻视阈下网络游戏话语的符号暴力研究》用的例子是英文版原神,不是中文版。)这样一来,言必称abc,怕是不大好吧。

主要问题不在语言,也在语言。这种人类创造出来束缚自己的工具终将成为一种武器。不是听不听得懂,或者说简单的文化渗透,这在二战用烂了。(参考《最后一课》)而是体系渗透,你需要的所有东西都是用我的语言写成,那么你被迫接受我的整套语言体系。即使是全部重构,也无法推翻或者完全替代。因为你的工具就是用我的语言写成的。在这个世界上,从零开始的成本比直接干掉对方高得多。

我们有没有可能打不过就加入呢?或者魔改后脱胎换骨呢?这就见仁见智了。

301 日 , 2023 17:05:49
116 日 , 2023 22:02:21

人们想方设法的把所有东西转化为语言,并以此为认知。

104 日 , 2023 17:20:04

新的智子已经出现,还是我们自己造的。

101 日 , 2023 0:17:17
1231 日 , 2022 17:41:53
关于回答问题的AI

今天继续测试人工智障,我觉得有些智障就先训练得了,不要放出来。死东西谁都会,一旦拐弯那就没办法了。建议这些AI下次出来先去智障吧体验一回,知道什么叫人类语言的模糊性再出来。
file

  1. roniez : 哈哈,chatgpt表现可能好一点,可惜注册不了
    • 題目自擬闖天涯 博主 : 有注册方法,直接百度或者微信搜索就行。但是现在很迷,时不时不回答问题。Discord也没太多人提到。
1230 日 , 2022 21:21:03
1230 日 , 2022 16:35:19

回顾过去没有意义,
赛博朋克不都是在躲避某种可耻人生的逃难者?
或是抱着遥远志向而迷失自我的逐梦者吗?——琦薇

1230 日 , 2022 16:28:53

在夜之城,任何人都无法信任,除了你自己。

1230 日 , 2022 16:21:59
瞎扯一下全文搜索

file
这东西本来是可以写成文章的,但是我直接谈经验比较好,而且我是喜欢本地化的。(进了自己脑子的东西才是自己的东西。)
全文搜索软件比如说ANYTXT和Archivarius3000,对于电脑配置的要求较高,除非你只进行TXT或者WORD单文件搜索,那样请随意。但是一旦涉及整个文件夹或者整个机子的文本搜索,为了保证搜索结果的准确性和搜索速度,请使用16G内存(memory)以上的设备。以及index存放地点为SSD(固态硬盘)。如果不担心速度,只需要能实现,请忽略第二条,内存达到16G即可。(内存频率和通道数无明显影响。)
file
此外,EmEditor也有搜索对应文件夹内所有TXT的功能,但是有点烧内存,请自行测试。如果使用正则搜索,则烧CPU。

1218 日 , 2022 11:46:14

人们总是在幻想遥远的未来,但是不知道未来已经发生。

1210 日 , 2022 8:55:49

问题的解决方法往往藏在问题本身。

1205 日 , 2022 19:32:06
1117 日 , 2022 9:14:58
辛弃疾别打我


把文档看了,软件装遍,无人会,PCB。休说咸鱼坑人,尽奸诈,淘宝又贵,求型问价,怕成灵车。电商财气,可惜疫情。

1031 日 , 2022 0:37:21
无题

上面的线
底下的房
从空灵中走出
上面的电线不忘强调自己过去的辉煌
对面的高楼可能是以后的模样
但它们可能不会被标准化
因为那些招牌在护着它
file

1025 日 , 2022 0:14:46

大多数时候,我们只是知道质变的结果,知道量变的理论,但是不去进行量变到行为。

1025 日 , 2022 0:13:44
1023 日 , 2022 18:28:21
千万不要被学科禁锢

总之千万不要被自己的学科禁锢,

不要说自己的研究方向不在那边就不去搞,

后续带来的就是效率甚至更多东西的损失。

1001 日 , 2022 15:14:32
921 日 , 2022 20:55:17
921 日 , 2022 20:35:09

敲壺口缺,無非激楚之音。覓句髭枯,大有牢騷之作。——倪蜕

921 日 , 2022 20:34:43

一䩫芒鞋遍走中原之地,半肩襥被直看五色之雲。——倪蜕

921 日 , 2022 20:33:52

蛾眉連臂,僅爲淫褻之圖。總不若白榻堆書,問津逮山中之祕,紅妝捧劍讬若耶?——倪蜕

910 日 , 2022 22:33:03
904 日 , 2022 16:01:49
810 日 , 2022 18:53:36
720 日 , 2022 10:23:21
三屏幕两台电脑一套键鼠控制

file
原理很简单,内网1G远程桌面就行。笔电HDMI外接1080P,typec接4K(参考我上一篇文章)。这样高度提高工作效率。目前笔电主屏幕显示服务器端内容,另外两个显示笔电内容。

705 日 , 2022 23:19:54
604 日 , 2022 9:58:47
vsc閲讀pdf的問題


其實就是插件的事情,但是許多插件推薦中提到的vscode-pdf無法閲讀有文字標注層的pdf文件,需要另一個(latex workshop)。我測試了別的一些插件,貌似都不怎麽行。

file

file

425 日 , 2022 15:24:10
401 日 , 2022 4:34:00
401 日 , 2022 4:32:44
建个搜索站

我大概量了一下,目前5T的书是有了,在E5.什么时候弄个搜索站出来,方便大家使用。

311 日 , 2022 10:33:51
事实证明,最好的修理就是全换,其次是不修。

点名批评联想备件数量,我高高兴兴的去换板子。第一块板子花屏。那没事啊,再来一块。第二块不花了,反而是卡死了。两块板子都是返修板子。不是全新的。我就很迷惑了,不至于没全新备件吧。最终问题解决了但没有完全解决,因为HDMI还是坏的,用C转HDMI继续玩。系统换成稳定的10,似乎整体都好了一点。

304 日 , 2022 23:44:48
DEBUG杂感

原因很简单,我笔电的HDMI接口坏了

坏了就坏了嘛,找保修不就行了?于是乎和女孩子一起去找,结果她的问题小,一下子解决。然后我的要换板子,需要三天。联想真的是绝了,(其实都是一样,集成在一起)坏了就直接换板子。接着等了三天,对方说板子还不行,花屏。那就等吧,过了两天,好了。总所周知,问题是没有那么快解决的,当把硬盘装进去的时候,有出现账户无法登录问题。我用DISM++打开Administrator后,成功验机。回去后也成功登录原有账户,心血来潮打开2077,I/O过大,直接卡死。后续蓝牙多次卡死,从B乎找到什么禁用再启用得到解决。刚刚又蓝牙问题,绝了,继续折腾吧。I/O突然增大的时候,很可能卡掉蓝牙,重启服务,重启设备,重新开关,蓝牙就好了。

220 日 , 2022 0:54:33
水文章的一條路徑

你就先這樣再那樣最後完成了嘛

拿到不同時代的不同文本的TXT版本后,進行分詞(能夠細分詞性的那種,我什麽時候去找一下)處理。
然後進行各種分析統計字詞頻率變化,基本就可以水玩了。

  1. 东君 : 進行分詞,如何分词呀?有啥工具没?
    • 題目自擬闖天涯 博主 : 分词有工具,最简单是python的jieba库。其他还有清华的分词平台等。注意分完后自己瞄一眼,以免出现错误。
211 日 , 2022 20:24:37
OCR现状

关于OCR
我把知道的东西说一下吧,也是我从14年到现在的一点点经验。

  1. 古籍方面。目前国内有一些要钱的库,比如说爱如生、鼎秀、雕龙、书同文、大成故纸堆等。这些OCR的模型是没放出来的,是人家吃饭的本。GITHUB上有可能有模型,但是效果懂得都懂。之前阿里和加州大学伯克利分校搞了一个,但是最后什么都没有放出来,离谱。浙大古籍平台可以去看看,但是错误也是有的,我最后来说。还有一个就是基于百度API的手写识别,这个效果也就是那样。
  2. 普通中、英文字符。目前遍地开花,最方便是QQ,其次是微软和百度。还有隔壁的ABBYY(需要请去我书库翻一下,第一个文件夹的软件文件夹里面找找)这些大同小异,不足为奇,而且免费。无聊的可以去玩paddleOCR,但是门槛有,不是抄代码的我能解决的。
  3. 现状。均通过各种算法想方设法识别字,却不会运用NLP去辅助认字,乱码就是这样出现的。还有就是不公开模型,弄得又要从头再来。报价各家还不低,有是有办法,反正我看不下去这些公司的吃相。
  4. 使用差异,QQ别扫手写,认不出来的。特殊符号也有办法,这个我没研究,可以转换为latex(但是错误摆在这。)千百OCR是好东西,API受限罢了,我是自有API,随意。微软认一些吧,手写没办法。ABBYY是拿来压PDF然后搜索的,这样舒服点,错误就错,90%对的就行。
209 日 , 2022 13:55:09
118 日 , 2022 20:29:28
1127 日 , 2021 1:30:31
阴间事情

大晚上的接地府

不得不说,爱奇艺就是个垃圾东西。非要客户端下载,下载也不能转换,迭代连编码都改。为何我们只能这样耍小聪明当创新?转换器也自然只能转换之前版本的。国内厂商的阴间地方就在这,供给侧改革的地方也在这。不好好思考供应,却把顾客当傻子。

1126 日 , 2021 11:05:55
雜感

雜感

很多時候嘛,研究筆記就會發現新的東西。所謂溫故而知新。然而那一天科技樹點歪,點到音韻學去了,發現了各家對於中古音的擬音差異和國際音標如何鍵入。 (更多…)