古籍标点校对示例
工作基本概况
本次工作的主要任务是将古籍的标点进行准确的标引。我们的古籍数字化过程中,通过自动标点技术将该古籍进行标点(共、,。;:!?等七种标点),是为底本的标点。另一方面,自动标点技术也存在着一定的差错率。我们选取一种经过人工整理的古籍整理本,与底本的标点进行比照,是为校本的标点。通过比照,可使我们较快的看到两个版本标点的不同,高效率找到底本标点的错误。
当底本与校本标点完全一致时(忽略了、!的对比结果),文本中无任何颜色标记显示。当出现标点差异时,底本标点以深色显示,校本标点以浅色显示。具体可分为三种不同的情况:
情况1 | 1、单独有一个深色提示。指底本在此处有标点,但是校本中无标点。 |
情况2 | 2、单独有一个浅色提示。指校本在此处有标点,但是底本中无标点。 |
情况3 | 3、同时有深色、浅色提示。指底本、校本在这里都做断句,但是彼此采取的标点符号各不相同。 |
工作步骤
- 将文本中所涉提示颜色的标点全部阅读一遍,纠正错误标点。
- 情况1、2,一般意味着两个版本的标点存在较大差异,需重点进行校对工作。如有错误,则进行删改。如确定该标点无误,则无需修改,无论是底本还是校本,他们的标点都将保留在文本之中。
- 情况3可以大致看一下,不必过于花费过多时间。一般来说,这部分只是标点符号使用的不同,如使用,。?:;等不同。这一部分无需过多纠结到底用哪种标点。除极少数明显错误外,一般采取底本标点即可。(即无需改动会自动保留底本标点。)如果发现校本标点明显较优,也可以略作调整。
- 如果标点校对中存在不确定的地方,可以参考一些学术整理本古籍。具体资料见之于后。
- 重点校对破句问题。破句指在不该断开的位置点断了。一般来讲,校本的结果可能优于底本处多些,但也有机器胜于人工处。
注意:
- 特别检查分页前(也就是图片前位置)的标点。
- 特别检查版刻混用字“己巳已”附近的标点。
- 特别检查高频异体字,如“扵㑹髙眀”等以及02平面汉字前后的标点,也容易出错。(参考下附字表)
- 情况1/2,如不做修改,底本/校本的原有标点都会最终保留。情况3,同时出现的底本、校本标点,如不修改,会最终保留底本标点。
- 如一段话通篇只有句号,需要将该段落进行重新标点。可参考整理本古籍或自动标点技术。
- 有的段落可能存在通篇无标点的情况,也需要将该段落重新进行标点。
- 完成标点工作后,切记不能提交任务,选择保存即可。
附录一:参考资料:
整理本古籍 | 我们会提供一些PDF,大家也可以自己找。 |
籍合网:中华经典古籍库http://ancientbooks.cn/ | 收录中华书局整理本古籍。阅读方便,但是并非免费的。如果是在校生,可使用学校所购买的该数据库。 |
中国哲学书电子化计划https://ctext.org/zhs | 中国哲学书电子化计划可做参考,但是不如整理本古籍所提供的更具有学术准确性。困难处还是应以整理本古籍为准。 |
自动标点北京大学【吾与点】https://wyd.kvlab.org/#/北京师范大学【古诗文断句】https://seg.shenshen.wiki中华书局【籍合网】http://ancientbooks.cn龙泉寺【古籍酷】https://www.gj.cool/gjcool/index | 通段无标点,或只有句号的情况,可参考自动标点技术。但最好以整理本古籍为主要参考。 |
附录二:常见异体字表(待补充):
扵、㑹、髙、逺、旣、乆、丗、曽、𠩄、𥘉、𠔃、𡻕、𩔖、𥬇、𥙊、𥙷、𤣥、𣗳、𠋣、𨵿、𦘕、𤼵、𤍠、𣈆、𩀱、𨼆、𡖖、𡊮、𤓰、𣴑、𥝠、𥨸、𥙿、𨚫、𥿄、𨜮、𥠖、𧰼、𡨋、𡨚、𣣔、𠃔、𢙣、𥘿、𨽻、𨓜、𠉀、𡈽、𣗥、𣅜、𡸁、𨹧、𨿽、𡨴、𩯭、𢎞、𡚒、𢘆、𧺫、𪔂、𣏌、𦵏、𡚖、𦫵、𣦸、𩔗、𨻶、𠫵、𢧐、𣸪、𡚁、𢇁、𠕋、𧨏、𩔰、𦒿、𠕂、𨤲、𦔳、𦆵、𨽾、𠂻、𢌿、𢦙、𨕖、𥳑、𦤺、𦕅、𨺚、𩓑、𡍼、𥁞、𦾔、𤨏、𠅘、𠡠、𥚃、𢖍、𣾰、𠋫、𢿘、𡮢、𢾗、𦡀、𥨊、𣳚、𥍊、𨷖、𤇆、𧼈、𦗟、𢑱、𢰅、𨳩、𣲖、𢙢、𢡖、𢌞、𤫊、𠂀、𨾏、𠰥、𩀌、𤦺、𣺌、𡚶、𠔥、𧇊、𢃄、𡖥、𡨜、𢹂、𠑽、𠜍、𦆑、𥧌、𦍒、𧷢、𠕅 |
常见问题释例
例1:原句较长,底本/校本分成散句。
一般来说长散句,可以不必过多纠结,只要断句合理、保持前后一致即可。
例1.1 |
这种情况较为常见,属于两可之间,按照底本处理即可。 |
例1.2 |
以上长短落底本将对偶的长句全部分为散句,两可,从底本即可。 |
例1.3 |
这种情况较为常见,属于两可之间,根据实际情况处理即可。 |
例2:断句错误,破读,将一句话或一个词分成两个部分。
例2.1 |
正确:曽子布衣緼袍未得完, |
例2.2 |
正确:公曰:然夫子於寡人奚為者也? |
例2.3 |
正确:乃君以众命系赵高,病自绝。此处赵高为一个词,破读。 |
例3:底本与校本标点断句处不同。
这种情况较为常见,一般直观看起来就是一句话前后几个字之间夹杂着多个不同颜色的标点。需谨慎处理。
例3.1 |
正确:寡人將置相,置於季成子與翟觸,我孰置而可?这句话底本将“我”移到前面,属于明显错误。根据语法改正。 |
例3.2 |
正确:故至于此。这句话两个本子采取了不同的标点,校本胜,需删除底本标点。 |
例3.3 |
正确:自诚其神明,睹物之应,底本将神明破读。 |
例3.4 |
正确:告申鳴曰:子與吾,吾與子分楚國;子不與吾,子父則死矣。从校本 |
例3.5 |
正确:而惠王廢樂毅,更代以騎劫,兵立破,亡七十城。这里騎劫为一个人名,需要根据古籍注释才得以了解,需要查阅古籍整理本。石光瑛 校釋:騎劫,燕將,騎其姓,(《廣韵》注。) |
例3.6 |
正确:漁者曰:君何以名爲?君其尊天事地,敬社稷。爲,句末語詞。根据上下语义纠正。 |
例3.7 |
正确:蟠木根抵,輪囷離竒,而爲萬乘器者,以左右先爲之容也。这句话晦涩难通,需根据注释来进行考察语义。这种困难的也可以直接参考点校本。附石光瑛 校釋:“奇”,《史》作“詭”。輪囷、離奇、離詭,皆疊韵字。《集解》張晏曰:“根柢,下本也;輪囷離詭,委曲槃戾也。”《索隱》孟康曰:“蟠結之木也。”晉灼曰:“槃檀木根也。”《漢》注:“蘇林曰:柢音蔕。師古曰:蟠木,屈曲之木;囷,音去輪反;離,音力爾反;奇,音於綺反。一曰離奇各讀如本字。善曰:《廣雅》曰:蟠,曲也;囷,去倫切;離,薄棊切;奇,音庇。”案:依晉灼注,似讀蟠爲槃。錢大昭《漢書辨疑》曰:“《説文》:橎,橎木也,讀若樊。卽此字。晉、錢二説,不如顔、李注之確。柢,木直根也。凡木直者曰直根,横者曰曼根,名見《韓子·解老篇》。或借蒂字及氐字爲之,《詩·節南山》傳曰:氐,本也。輪囷亦作轔囷,《文選·西京賦》垂鼻轔囷是也。輪轔聲轉字。《吳都賦》輪囷糾蟠,善注:輪囷,屈曲貌。《七發》注引《漢書》張晏曰:輪囷,委曲也。”按:此承上蟠木言,謂木勢蟠曲宛延,狀態離奇也。 |
例3.8 |
正确:恨督责之小故,违始终之大计。校本并不完全优于底本。这里根据上下对偶,可知当从底本。 |
例4:底本校本标点符号使用不同。
情况3大多不需要花费过多时间审核,但有些个别明显错误,也需要改正。
例4.1 |
正确:故曰:父母怒之。这里曰后采用逗号并不合适,需根据上下语义删除底本的逗号,保留校本的冒号。 |
例5:有些无颜色标记的标点也可能存在错误
例5.1 |
红框应该改成逗号为宜。这一部分错误较少,不需要每个都看,发现了也处理一下。 |