如何高效研究——搜索篇(上)
本文最后更新于 487 天前,其中的信息可能已经有所发展或是发生改变。


    找不到材料,做不了研究。(巧妇难为无米之炊)。
    无法搜索的材料都是鸡肋。

引子


    笔者之前在知乎上看到这样一个问题,怎样查全一个方向的文献?底下各路大佬纷纷出动,从不同角度给出自己答案。但是笔者觉得这个问题还能进一步放大,或者叫做格局打开。因此笔者将其扩展到整个研究范围内进行讨论,希望可以抛砖引玉,引出更多通往罗马的路。

一、何为搜索?


    在这个时候问出这个问题非常奇怪,难道我们还不知道搜索是什么吗?(不就是几乎每天都要打开的百度?一时半会忘记对方说的话后去搜索聊天记录?)这些可以说是搜索的一部分,但是不完全。搜索,就像是最熟悉的陌生词,随着我们使用次数的增加而趋于泛化。它不仅仅是在输入框里键入关键词,也不完全是满足我们的好奇心求知欲,而是一种工具。

    这样一来,搜索就是我们高效研究过程中的工具,而且还是必不可少的工具。(看本文第一句话。)只不过你利用这个工具所获得的所有内容都只是参考!笔者不打算写成数据库集合,除非是特别重要的我才会单独举例。写成数据库集合那样文章没完了。

二、如何搜索?


    工具摆在我们面前,肯定会出现一个使用上的问题。如果是大家用的普通产品,或多或少都有说明书甚至客服,但是有人见到百度官方的说明书吗?而且不只是百度,也没有那么多搜索工具给你说明书的啊,那样我们该如何去使用他们,便是一个挑战。而且工具多种多样,不同的应用场景应该选择什么工具呢?

(一)网页搜索引擎


    笔者要在最开始特别说明,把这个列在最前面的目的不是强调它的重要性,而是先从最简单也是最复杂的开始。(没事把辩证法搬上去很好玩的。)

1、百度


    大家最熟悉也用的最多的,当然也是骂声最多的搜索引擎。原理和发展直接跳过,来看看它到底能干吗?
    


    非常简洁的界面,隐去了平时很多不常用的功能,留下的就是一个文字搜索和图片搜索。如果能满足我们某些应用场景的需求。那样其实问题不大。比如说我们想知道某个概念的定义,直接输入这个名词(下图利用“异体字”这个名词来举例说明)即可。无论是学术范围的概念还是日常生活中运用到的,这样查一般来说没有问题。但是我要特别说明一下情况,很多时候可能你得不到太多能让你接受的解释,还有资本家的特性让它前几行都有可能全是商业广告,注意辨别即可。
    

    但是很明显,我们不止满足于搜索概念,肯定有时候还会出现各种书籍的名字,各种软硬件问题,遇事不决问百度。这个时候就需要上布尔运算符或者直接进高级搜索。如下图所示。
    

    问题来了,布尔运算符是啥?笔者表示百度百科的解释实在是**,直接把它理解为逻辑符号即可,表示关键词之间的关系。笔者用的最多的就是双引号。这个表示结果中一定含有我引用的词,也就是必须包含这个词。但是有时候百度因为结果过少或者种种原因,就出现下面三张图的对比。
    

    

    

    笔者一时半会找不到演示效果的例子,只好这样写了。搜索引擎是会分词和组合词的,当你要的词语和他显示给你不同的时候,直接用引号即可。(隔壁谷歌反而好点,弄得我又想骂百度了。)
    

    

    强烈建议百度好好学一下人家,不要弄的每次都搜不到我要的东西。很多时候如果你发现实在是搜不到,换个平台吧。(下文还有别的)
    其实还有个东西叫做百度学术,但是我个人是直接去谷歌学术的,就没有特别研究过,如果读着朋友感兴趣可以看看。同时百度文库好像最近有人弄出了新的下载方法,在https://www.52pojie.cn/ 有。

2、Google


    笔者直接略过,懂的都懂。但是也不是没有替代品嘛。

3、Bing


    你要说百度给你返回垃圾结果,谷歌又上不去,干脆换微软的bing吧。这东西拿英文去搜特别好,调一下国际版就更舒服了。其他和上文大同小异,不举例了。

4、搜狗搜索


    笔者对它的浏览器没有好感,但是它的搜索可以直接搜微信公众号。这就非常nice了。你用微信的搜索都可能没它的好用。
    


    我们知道现在是自媒体时代,内容为王。很大一部分内容不会像笔者一样写在自己的网站,而是写在公众号里面。并且相对于百度漫无边际的搜索结果,公众号的文章价值更高,也可以更好的帮我们解决问题。比如说平时要找个软件,Photoshop。
    

    

    这一对比就直接高下立判了。有时候如果懒得开搜狗搜索,直接开微信搜也行。

5、无追搜索


    我也不好说这东西的好坏,因为百度啥的会拿走我们的输入内容去分析然后给你推荐(BAT三家交易也不是不行),它说它不会。我本人对此存疑,就放着提一下。

6、知乎


    这个和上文搜微信公众号同理,但是注意一下,如果你直接去知乎搜是需要登录。但是如果你在搜索引擎的后面加上“知乎”,就能实现类似的效果了。
    


    

(七)附录


    笔者发现,如果老师上课提到了一本书,最好的方式就是直接开淘宝搜。这样可以极其精准找到对应的书,而且你还能知道价格,顺便加个购物车或者当场下单。其他购物软件也有类似的功能,但是从体量方面考虑淘宝要合适一点。
    另外笔者使用的搜索增强脚本提供了另外的一些平台,可以根据名字去看看。
    


(二)学术搜索


    上文提到的搜索引擎,终究是大范围的搜。我们很多时候需要的是学术性的搜索。所以笔者特意将二者分离,方便读者朋友找到真正的重点。

1、CNKI


    知网是什么?


①license


    笔者觉得如何使用还在其次,先要说明这东西的license问题。虽然各大高校都购买了他家的产品,但是买的范围不尽相同。这就会出现你可以看到标题、摘要、关键词、作者,然后它显示“贵单位未购买本产品,请联系管理员订购”。
    这个时候其实有很多办法去弄到你想看的文章。比如说直接给知网钱,我估计大部分同学都不会拿一天甚至很多天的饭钱来换一篇文章吧,也没必要。有去弄了某些图书馆(浙图、贵州图书馆、广西图书馆等)的license,也有一部分人,去淘宝花一点点钱弄了能用的license,还有通过全球学术快报的积分换钱买文章,以及某些网站提供镜像等等。八仙过海,各显神通。总之先别被license拦住。


②如何使用


    关于搜索部分,可以参照上文。而且CNKI支持各种类型的搜索,请自由探索即可。但是有一点是很好玩的,直接查人。特别是查你感兴趣的老师的研究成果,去学习大佬的文章。而且在你查找的过程中,或多或少可以推断出履历等信息。当然,别玩的过火。
    光搜索还不够啊,我们要把文章下载阅读(你愿意HTML阅读和用知网研学当我没说)。这样一来就出现直接下载硕博毕业论文都是CAJ格式,虚拟打印变成PDF后又无法复制(虚拟打印的结果肯定是这样)的情况。所以我采用某些脚本辅助我下载,这个就请读者朋友自行探索,篇幅有限。
    


2、读秀


    和上面知网类似,但是可以搜书的内容。这就很好玩了,借助它我们可以慢慢的读完一整本书,也可以有选择性的参考搜索到的结果。所以读秀最大的特定就是搜书,一切围绕着书展开。(此处忽略了很多细节,讲出来资本家会发难的。)顺便提一下它的文献传递,你想要整本书可能需要几个月的时间,而且建议用临时邮箱收链接,然后就是看你网页保存的能力了。虽然可以ZOOM改成3,但资本家不会让你做那么多的。同时它的license不大好说,建议读者朋友自己折腾。

3、大木虫等


    这部分基本上靠自己收集,也有些公众号(大木虫)会发。http://www.4243.net/ 这个大木虫学术导航里面也有很多,可以慢慢研究。笔者本人一般在前两个满足了需求就不往后走了。其实还有很多网站,但有些时候收集这么多学术搜索平台,真正用的还是那么几个。所以笔者也不打算再列下去,直接进入到后文专业库。

(三)专业数据库(偏中文)


    随着社会分工的细化,各种数据库也趋于专业化。(原因不多分析了。)其实这部分内容早有唐老师在他的奎章閣里面整理。如下图所示。但我想说的是,适合自己的才是好的,本地和网络结合才是舒服的。我们不能因为某个站点提供的服务用的顺手就干脆一直用下去,生于忧患死于安乐。某些站就不点出了,毕竟人都要吃饭,也不能一味地骂人家。所以必须要自己有货,有材料,脑子和硬盘都要有,天天靠着别人没用的啊。笔者给出的一些东西也只是参考,并不是说大家人手一份都要用。(本来打算本地和在线分开的,但是四级标题有点难排版,就这样吧。)
    


1、mdict词典


    我之前的某篇文章特意写过使用方法,但没写的那么好。具体可以去百度或者两大论坛搜索了解情况。
https://forum.freemdict.com
https://www.pdawiki.com/forum/forum.php
    下图是我目前中文词典的使用情况。
    


    这个东西和早些年的那种手持式电子词典类似(比如说好记星),是阅读器(或者叫做词典软件)+词典数据的组合体。所以我们需要寻找到词典软件和词典数据才能实现自由查找。词典软件目前主流是两种,Goldendict、mdict,其他的不举例了。词典数据的来源主要是上面两个论坛的大佬发布,以及各种网盘搜索结果。我自己的库也收了一些,最近关闭了分享,看情况重新打开。获得这两项后基本上就算大功告成,可以正常使用了。但是如果要玩的花(进一步提高效率),也可以拿他搜殆知阁等,具体参考我的这个贴的内容。
https://forum.freemdict.com/t/topic/12814/15
    这部分有待读者自己研究,涉及具体的内核问题,不大好在这篇文章阐述。

2、CEBTA


    这个就不用多说了吧,yyds的数据库。很感谢他们每年都更新,而且制作特定字体使得佛典中的字符可以显示。功德无量!

3、本地txt


    这部分就靠自己收集了,你说哪个网站单独分享也不大现实。之前在网盘流传过一些,但是被封了很多。最经典的是殆知阁2.0。这东西github有,里面是殆知阁站的文本。之前还有1.0和古代文献藏书等,都是靠自己收集的。其实后续用啥软件搜索才是重点,这种数据半公开还好弄,如果到时候没办法搜索就是鸡肋。(此处加图)
    首先是很多公众号推过的ANYTXT,这东西很容易下载到,也是免费。我唯独要强调一点就是index的位置改下,不然C盘要满的。它支持检索很多类型的文件,但是美中不足的是无法单字搜索,你需要两个字才行。用于整个电脑内的文件搜索是很好的。
    


    接着是几乎没啥人提到的Archvarius 3000。这东西相对于ANYTXT功能更强大,但是索引量也更大。所以一开始进去记得全部调整一遍,符合自己的应用场景。同时最好不要一次全盘做索引,我上次预估的是1T多的索引大小,吓得我赶紧选择文件夹。它比ANYTXT要好在支持单字搜索,你把它当字典用都行。
    

    然后是YYDS的EmEditor。这东西既是文本编辑器,支持正则等多种搜索方式。又可以单独搜某个文件夹的txt。和上面两款不同的是,它的这种索引不会大批量生成。只不过会将内存占满,然后卡退。具体多少我也不好说,但是txt文件多的话就是直接内存占满后闪退。然后正则表达式烧CPU性能,慢慢等就行。
    

    还有一些小软件暂时不提,比如说超级文本搜索、editplus等,这些读者可以慢慢研究。自建的全文搜索库是很舒服的,要啥直接拿就行,不用看入脸色。

4、本地搜索的其他注意事项


    没事不要用OFFICE三件套存大量数据,谁卡死谁知道。
    确保你的盘随时有足够的空间以存下你生成的数据。
    如果实在是不会,请参考https://github.com/MasterLover/How-To-Ask-Questions
    


进行友好的提问。
未完待续……

暂无评论

发送评论 编辑评论

|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇