分类
Technology|技术

一种 PDF 电子文档规整方法

前期准备

某些人群在工作和学习中,可能会接触到较多的 PDF 格式的电子文档。PDF 是由 ADOBE 公司发明,基于 PostScript 编程语言制作的格式。多年以前,它一直是 ADOBE 公司的专有格式,直到被 ISO 标准化后,现已成为一种开放标准。

市面上能够查看、编辑、转换 PDF 格式的应用程序有很多。它们之中有功能收费的,也有完全免费的。有轻量绿色的,也有套件完备的。下面介绍的方法实现,基于其中的一款名为 BookxNote 软件。

官方网站http://www.bookxnote.com/
本文所用版本直链地址http://www.bookxnote.com/setup/bookxnote-windows-x86-1.0.0.193-20200610.zip
SHA1BF8E4A07DFCB388FFC6E3170C987BCC3A297FA68

下载、解压并安装后,可以直接打开该应用程序。在左侧菜单栏,点击“关于”即见作者对该程序的宣传语。

全新电子书阅读笔记软件,助力您的高效学习之路。

BookxNote

BookxNote (以下简称“BN”)是一款轻量级的、免费的、在 Windows 操作系统下使用的 PDF 管理与查看软件。下面,就着 BN 来介绍一种 PDF 电子文档的规整方法。BN 同时也支持 EPUB 格式,有兴趣的读者可以自行研究,本文仅涉及 PDF。

配置存储路径

打开 BN 后,在左侧菜单栏中点击“选项”会弹出一个新的窗口。该窗口中包含了 BN 的所有可配置项。首先要注意的是“基本设置”里的第一和第二项。

在文件系统的恰当的位置中新建一个名为“DigitalLibrary”的文件夹,再于其中新建一个名为“Content”的文件夹。形如 E:\DigitalLibrary\Content

在 BN 的“用户数据保存目录”栏,点击修改目录,定位至 DigitalLibrary 文件夹。此时 BN 提醒需要重启软件后才能使设置生效,可暂时不用理会。再在 “我的图书馆工作目录”栏,点击修改目录,定位至 Content 文件夹。然后重启软件,界面应如下图所示。

BN 基本设置

导入电子文档

在 BN 的左侧工具栏中选择“打开”,点击顶部的“导入书籍按键”,然后在弹出的文件框中选择想要导入的 PDF。此时界面中将会出现一条书籍记录。

BN 第一次导入

双击该书籍记录即可阅读对应的 PDF 文件。在导入完成后,该 PDF 将按原名称复制一份到“我的图书馆工作目录”,即 Content 文件夹。以后在 BN 内的“我的图书馆”页面中打开的该书籍,都是指向 Content 文件夹中的 PDF,而与被复制的源文件无关。

规则一:不要直接对 DigitalLibrary 目录及其子目录进行写入操作。

何为写入操作包括往目录中新建文件或文件夹、粘贴文件或文件夹、删除文件或文件夹、修改文件或文件夹名及修改除 PDF 外其他文件的文件内容。

此时,再次导入相同来源的 PDF 文件还是可以导入成功的,书籍记录会出现相同名称的条目。若再次导入,则会提示“(源文件目录)”的书籍已存在,无需添加。若将源文件复制到其他目录,再在其他目录导入,还是可以导入成功的。

因此同 PDF 文件名的书籍可存在多本,第一本会指向 Content 文件夹的 PDF,其余会指向复制来源的 PDF。同一来源的 PDF 文件对应的书籍只会存在一本,但在书籍记录中无法便捷地区分,因为它们的名称都一样。

规则二:同一文件名的 PDF 文件只导入一次。

规范文档名称

在理论上,PDF 文件的文件名可以任意修改为符合 Windows 系统命名要求的字符串排列。因此,不同来源的 PDF 很有可能会发生重名的情况。为了保证“规则二”不被违反,需要对将被导入的 PDF 文件名进行规范约束。

规则三:采用“来源.编号.版本号(可选).pdf”的格式约束文档名称。

就如 JAVA 的包名和 Android 的 application ID,为了避免重复,除了概括内容的标题外还需要加入专有的限定符。

在本方法中,“来源”名一般指 PDF 文件的第一发布方。可以是自然人名、组织团体名或商业公司名等。书写形式可以是一级域名或常用缩写,甚至是美股代码。

“编号”可以是 PDF 文件的一级标题。但有时一级标题会过于冗长,或包含不能作为 Windows 文件名的字符。所以在有文档来源对 PDF 的编号的情况下,尽量使用该编号。

对于电子书籍来说,同样具备实体书籍的再版特征,每次再版都可能会修改内容。尤其对电子类的文档,会随着时间的推移进行修订和勘误。但是,版本的变化有时会反映在“编号”项上,有时却不会。为了统一命名规则,在文件名中引入“版本号”项。若文档本身使用数字代表的版本号,则可以直接沿用。若使用α、β作为版本号,则使用小写字母a、b代替。若没有版本号,则使用文档内标注发布的日期作为版本号。若文档甚至没有标注发布日期,或类似于论文这种不经常修订的内容载体,可以忽略版本号或使用文档导入的日期代替。

规则四:版本号的格式为V[数字版本号]|[小写字母版本号]|[四位字符年三字符月两字符日]

如下图所示为一种有效的文档命名方式。

文件命名范例

在将规范命名后的文档导入“我的图书馆后”,书名处显示的为规范名称。规范名称虽然有利于计算机整理,却不利于人类阅读。右键点击书名,选择修改书名,键入文档的一级标题或觉得有利于自己分辨书籍的名称。

修改书名

修改书名的操作不会影响在 Content 目录中的实际文件名,只会影响在“我的图书馆”中显示的名称。

归类电子文档

导入 PDF 文件后,它们会全部存在于“所有书籍”的一级分类下。当分类下的书籍逐渐变多后,就有必要对齐进行分类整理。就类似于手机上安装的应用变多后,需要将一些功能类似的应用图标从一级的 Launcher 界面归类到二级集合中。

每个读者的“馆藏”内容都不一样,这里并不能提出一个适合所有读者的分类方法。因此,仅给出一些笔者遇到的电子文档的分类规则。

规则五:对于在国内出版的电子书,根据其 CIP 编号归类。

例如,有一本《线性代数》的书籍,其 CIP 描述页面上标注的分类号为 O151.2。即应该归类在【O 数理科学和化学】-【O1 数学】-【O15 代数、数论、组合理论】-【O151 代数方程论、线性代数】-【O151.2 线性代数】。

规则六:对于非在国内出版或其他无 CIP 编号的电子书,参照中国版本图书馆分类法对其归类。

读者可以在一开始就建立如此多级的目录,并将每一本书籍归入具体目录内。亦可先建立二级目录,在二级目录放了7本书的时候才新建出三级目录,如此类推。笔者更倾向于第二种方法,避免“过早优化”,但在此不作为规则要求。

规则七:对于标准文件,根据 ICS 编号归类。具有多个 ICS 编号时,优先考虑分入已存在较多标准文件的目录。

考虑到若某个目录已经存在较多的标准文件时,理论上说明使用者更加关注该领域。所以把有多个 ICS 编号的文件,编入该领域更便于信息利用。

规则八:对于某具体型号电子元件有关的文档。二级目录按制造商区分。三级目录按产品线区分。四级目录按二级产品线区分。在制造商级别之下,可参各个照制造商自身的分类方法。

例如前面图片提到的《Getting started with STM32F10xxx hardware development》文档,内容是介绍 STM32F10xxx 系列的硬件电路设计方法并与该系列密切相关。该方法并不完全适用于 STM32F4 或 STM32F7 系列。所以,它应该被归类到【ST】-【微型控制器】-【STM32F1】目录中。

规则九:对于一般性的电子元件有关的文档。二级目录按制造商区分。三级目录按产品线区分。四级目录按技术种类区分。在制造商级别之下,可参各个照制造商自身的分类方法。

例如《USB hardware and PCB guidelines using STM32 MCUs》一文是介绍使用 STM32 微型控制器的 USB 接口时,PCB 应该如何设计。它与其他厂商的 IC 无关,也与同厂商的微型处理器无关。所以,它应该被归类到【ST】-【微型控制器】-【USB】目录中。

总而言之,一个好的归类方法应该能够在最大程度上对同一种电子文档进行归类。图书有图书的方法,标准有标准的方法。若现时没有业界统一的方法,就应该根据行业经验编制出合适的方法,而后在使用中去修改调整。

具体的实现方式为,在“我的图书馆”界面,点击书架分类右侧的“+”按钮,或者书架处右键选择“新建子书架分类”。在选中二级“子书架”的时候,再做同样的操作,即可在其下新建三级子书架。

书架分类

数据备份与还原

BN 是一个 PDF 文件查看器,并不具备编辑 PDF 文件内容的功能。PDF 文件在导入后,会生成一个对应的 UUID。然后在便携式数据库中新增一条 PDF 文件存储路径和 UUID 对应的记录。之后,在 BN 的使用过程中, UUID 便指代该 PDF 文件。

对 PDF 文件的“修改书名”操作和“新增子书架分类”操作,实际上是通过额外的格式化文件存储的。而这些文件一旦丢失,则这些修改都会消失。它们被保存在“用户数据保存目录中”,即 E:\DigitalLibrary\Workspace\BookxNote 路径下。因此,想要备份整个“我的图书馆”数据,只需要将 DigitalLibrary 文件夹压缩打包即可。也可利用版本控制工具进行增量备份。

当 PDF 文件较多时,Content 文件夹将会占用很大的空间,可能不足以支持日常备份。使用 BN 选项中自带的“备份”功能和“还原”功能,可以仅备份和还原用户数据部分。而 PDF 文件本体可以采用其他策略备份。

规则十:定期备份。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注