文章目录[隐藏]
光学乐谱识别(OMR)系统的评测基准:数据集与指标分析
1. 引言
光学乐谱识别(Optical Music Recognition, OMR)是计算机视觉和模式识别领域的一个重要分支,其目标是自动将乐谱图像转换为机器可读的符号化格式,如 MusicXML 或 MEI 1。这项技术对于音乐文献的数字化保存、大规模音乐信息检索(MIR)、交互式音乐学习系统以及音乐内容的编辑和再创作具有至关重要的意义 3。通过 OMR,大量的纸质乐谱或图像格式的乐谱得以转化为结构化的数字数据,从而能够被计算机处理、分析和利用 1。
然而,与光学字符识别(OCR)相比,OMR 面临着更大的挑战。乐谱是一种复杂的二维图形语言,其符号的意义不仅取决于形状,还高度依赖于其在五线谱上的垂直位置(决定音高)以及与其他符号的相对关系(如时值、奏法、结构等)3。此外,乐谱中存在大量不同大小和形状的符号,并且可能存在符号重叠、连接(如连音线、符杠)以及多声部等复杂情况 5。手写乐谱的识别更是增加了字体风格多样性、书写不规范性等难度 13。
准确评估 OMR 系统的性能是推动该领域发展的关键环节。然而,长期以来,OMR 领域缺乏统一的、被广泛接受的评测标准和基准数据集 16。不同的研究往往采用自建的数据集和不同的评测指标,导致研究结果难以直接比较,阻碍了技术的聚合和进步 12。评估 OMR 系统的困难不仅在于识别单个符号的准确性,更在于如何衡量系统对乐谱整体结构和音乐语义的理解程度 18。
本报告旨在深入调查和分析当前用于评估 OMR 系统的数据集和评测标准。报告将重点关注公开可用的数据集,涵盖其类型(印刷体、手写体、五线谱、简谱等)、规模、标注信息和获取方式。同时,报告将详细梳理 OMR 领域常用的评测指标,包括符号层面、音乐语义层面和端到端评估指标,分析其定义、计算方法及优缺点。特别地,本报告将专门探讨针对**简谱(Numbered Musical Notation)**的 OMR 数据集和评测方法,考虑到其与五线谱在符号系统和结构上的显著差异。最后,报告将总结当前 OMR 评测的现状,讨论常用的基准和标准,并指出五线谱与简谱 OMR 评测中的不同侧重点。
2. 五线谱 OMR 公开数据集
高质量、大规模且标注详细的数据集是训练和评估 OMR 系统,特别是基于深度学习的现代 OMR 系统的基础 15。近年来,研究社区发布了多个针对五线谱的公开数据集,各有侧重。
2.1 主要数据集概述
以下是一些在 OMR 研究中常用的公开数据集:
- PrIMuS (Printed Images of Music Staves):
- 乐谱类型: 印刷体,单声部五线谱 1。
- 规模: 包含 87,678 个真实的音乐片段(incipits)图像 1。
- 标注信息: 提供 Plaine and Easie 源码、渲染后的 PNG 图像、MEI 格式的符号化表示、简化的语义编码序列(包含音乐含义)和不可知编码序列(agnostic encoding,仅含图形符号及其位置,无音乐含义)21。
- 特点: 专注于端到端(End-to-End)单声部 OMR 任务,提供了符号序列级别的真值 21。还有一个扩展版本 Camera-PrIMuS,通过对 PrIMuS 图像进行畸变处理,模拟相机拍摄效果 1。
- 获取与许可: 可通过其官方网站下载 1。许可信息未在参考资料中明确说明 21。
- MUSCIMA++:
- 乐谱类型: 手写体,五线谱 13。
- 规模: 包含 140 张来自 CVC-MUSCIMA 数据集的图像,共标注了 91,255 个符号(包括基本元素和高级对象如谱号、调号等),其中包含 23,352 个音符 13。
- 标注信息: 提供每个对象的边界框(bounding box)和像素掩码(pixel mask),以及对象之间的关系(如图元间的连接关系),构成 MUSCIMA++ Notation Graph (MuNG) 13。旨在通过基本元素(如符头)提供与 MusicXML/MEI 等语义格式的接口 13。
- 特点: 专注于手写乐谱的符号检测、分类和音乐结构重建。其核心是 MuNG,显式连接了低层图形元素和高层音乐符号 13。图像来自 CVC-MUSCIMA,本身不含五线谱线(已被移除)13。
- 获取与许可: 标注数据可通过官方渠道下载 13。但原始的 CVC-MUSCIMA 图像需单独从 CVC 获取 13。采用 CC-BY-NC-SA 4.0 许可 13。
- DeepScores:
- 乐谱类型: 印刷体(通过 MusicXML 文件合成渲染),五线谱 23。
- 规模: V1 版本包含 300,000 张乐谱图像,近 1 亿个小对象 22。V2 版本包含 255,385 张图像,1.51 亿个符号实例,共 135 个类别 27。
- 标注信息: 提供对象分类、检测(非定向和定向边界框)以及语义和实例分割的真值 23。
- 特点: 旨在推动小目标检测和场景理解的研究,规模巨大,标注信息丰富,特别适用于训练深度学习模型进行符号检测和分割 22。数据通过 MuseScore 公开的 MusicXML 文件合成 23。
- 获取与许可: V2 版本可通过 Zenodo 下载 27。采用 Creative Commons Attribution 4.0 International 许可 27。
- HOMUS (Handwritten Online Musical Symbols):
- 乐谱类型: 在线手写体,孤立的音乐符号(非完整乐谱)14。
- 规模: 包含 15,200 个样本,涵盖 32 种不同的音乐符号,由 100 位不同的音乐家书写 14。
- 标注信息: 提供每个样本的符号类别标签和构成符号的笔划数据(一系列 2D 坐标点)28。
- 特点: 专注于在线手写音乐符号的识别,提供了笔划时序信息,适用于基于笔划的识别方法 28。
- 获取与许可: 可通过其官方网站或 GitHub 仓库下载 28。许可信息未明确说明 28。
- CVC-MUSCIMA:
- 乐谱类型: 手写体,五线谱 26。
- 规模: 包含 1,000 张乐谱图像,由 50 位不同的音乐家抄写相同的 20 页乐谱而成 26。
- 标注信息: 主要提供书写者身份(Writer ID)标签和五线谱移除的真值(即提供原始图像、仅含五线谱的图像、移除五线谱后的图像)31。MUSCIMA++ 在此基础上添加了详细的符号和关系标注 13。
- 特点: 最初设计用于书写者识别和五线谱移除任务 26。其图像被 MUSCIMA++ 用作标注的基础 13。
- 获取与许可: 可通过 CVC 网站下载 31。许可信息未在参考资料中明确说明。
- OpenOMR:
- 乐谱类型: 印刷体,五线谱 35。
- 描述: OpenOMR 是一个开源 OMR 软件项目,而非一个标准化的数据集 35。它旨在读取印刷乐谱并播放。虽然其代码库可能包含一些用于测试的乐谱图像,但它本身不构成一个公开的、用于基准测试的大型数据集。
- 获取与许可: 软件本身基于 GPL 许可 35。
2.2 数据集比较与讨论
这些数据集各有侧重,反映了 OMR 研究的不同方向和挑战。
数据集名称 | 乐谱类型 | 规模 (图像/符号) | 主要标注信息 | 主要用途/特点 | 获取方式 | 许可 |
PrIMuS | 印刷体 (单声部) | 87,678 图像 | 符号序列 (语义/不可知), MEI | 端到端单声部 OMR, 序列识别 | 网站下载 21 | 未明确 |
MUSCIMA++ | 手写体 | 140 图像 / 91k+ 符号 | 边界框, 像素掩码, 符号关系 (MuNG) | 手写符号检测/分类, 结构重建 | 网站/脚本 13 | CC-BY-NC-SA 4.0 13 |
DeepScores (V2) | 印刷体 (合成) | 255k+ 图像 / 151M 符号 (135类) | 边界框 (定向/非定向), 分割 (语义/实例) | 大规模符号检测/分割, 小目标识别 | Zenodo 27 | CC-BY 4.0 27 |
HOMUS | 在线手写体 (孤立) | 15,200 样本 (32类) | 符号标签, 笔划数据 | 在线手写符号识别 | 网站/GitHub 28 | 未明确 |
CVC-MUSCIMA | 手写体 | 1,000 图像 (50 书写者) | 书写者ID, 五线谱移除真值 | 书写者识别, 五线谱移除 (MUSCIMA++ 标注基础) | 网站下载 31 | 未明确 |
OpenOMR | 印刷体 | N/A | N/A (软件项目) | 开源 OMR 软件 | SourceForge 35 | GPL 35 |
表 2.1: 主要五线谱 OMR 公开数据集概览
这些数据集的多样性是 OMR 研究的宝贵财富,但也带来挑战。例如,一个在 PrIMuS(印刷体、单声部、序列真值)上表现优异的端到端序列模型,可能无法直接应用于 MUSCIMA++(手写体、图形结构真值)所代表的任务。同样,专注于符号检测的 DeepScores 数据集训练出的模型,需要额外的步骤来重建音乐语义。这种数据集的专门化使得跨数据集、跨方法的性能比较变得困难,凸显了 OMR 评测标准化的重要性 12。目前尚无一个数据集能完全覆盖 OMR 面临的所有挑战(如不同记谱法、复杂布局、各种噪声和失真等)。
3. OMR 评测指标
评估 OMR 系统的性能需要一套合理的指标,能够从不同层面反映识别结果的质量。这些指标大致可分为符号层面、音乐语义层面和端到端层面。
3.1 符号层面指标 (Symbol-Level Metrics)
这类指标关注 OMR 系统识别和分类单个音乐符号的准确性,常用于评估 OMR 流程中的符号检测和分类阶段。
- 精确率 (Precision)、召回率 (Recall) 和 F1 分数 (F1-score):
- 定义: 这些是经典的二分类或多分类评估指标。
- 精确率: 在所有被模型预测为正例(某个符号类别)的样本中,真正是正例的比例。衡量模型预测的准确性,即“找得对不对” 36。计算公式为 Precision=TP+FPTP,其中 TP 是真正例,FP 是假正例。
- 召回率: 在所有实际为正例的样本中,被模型成功预测为正例的比例。衡量模型找到所有正例的能力,即“找得全不全” 36。计算公式为 Recall=TP+FNTP,其中 FN 是假反例。
- F1 分数: 精确率和召回率的调和平均数,用于综合评价模型的性能,特别是在两者需要权衡时 36。计算公式为 F1=2×Precision+RecallPrecision×Recall。
- 应用: 在 OMR 中,常用于评估特定类别符号(如符头、谱号、休止符等)的检测和分类任务的性能。
- 优缺点: 直观易懂,能分别反映模型在“查准”和“查全”方面的能力。但单独使用 P 或 R 可能片面,F1 分数提供了更平衡的视角。
- 平均精度均值 (mean Average Precision, mAP):
- 定义: mAP 是目标检测任务中最常用的评估指标之一。它首先计算每个类别的平均精度(Average Precision, AP),AP 是通过绘制精确率-召回率曲线(Precision-Recall Curve)并计算曲线下面积得到的,反映了模型在不同置信度阈值下对该类别的综合性能。mAP 则是所有类别的 AP 的平均值 36。计算 AP 时通常会考虑不同交并比(Intersection over Union, IoU)阈值下的检测结果 36。
- 应用: 广泛应用于评估基于目标检测的 OMR 方法,例如使用 Faster R-CNN、SSD、YOLO 等模型检测乐谱中的各种符号 6。DeepScores 数据集常使用 mAP 作为基准指标 6。
- 优缺点: mAP 能够综合评估模型在所有类别上的检测性能,并且对 IoU 阈值的选择不敏感(通常会计算多个 IoU 阈值下的 mAP,如 COCO mAP 36)。缺点是计算相对复杂,且其数值不如 F1 直观。
- 符号错误率 (Symbol Error Rate, SER):
- 定义: SER 通常基于序列编辑距离(如 Levenshtein 距离)计算,衡量预测符号序列与真值符号序列之间的差异 38。它计算将一个序列转换为另一个序列所需的最少编辑操作(插入、删除、替换)次数,然后除以真值序列的长度。SER=TotalSymbolsinGroundTruthInsertions+Deletions+Substitutions。
- 应用: 常用于评估将乐谱图像直接转换为符号序列的端到端 OMR 系统 24。也用于评估 HTR(手写文本识别)等序列识别任务 44。
- 优缺点: SER 提供了一个单一指标来衡量整体序列识别的准确性。然而,它平等对待所有类型的错误,可能无法反映不同符号错误对音乐语义的实际影响(例如,替换一个符头比替换一个装饰音符号的音乐意义更重大)。此外,它依赖于符号序列的定义和对齐方式。
3.2 音乐语义层面指标 (Music Semantics-Level Metrics)
这类指标超越了单个符号的识别,旨在评估 OMR 系统输出结果在音乐意义上的准确性。这通常需要将 OMR 输出转换为具有音乐语义的格式(如 MusicXML, MEI, MIDI),并与真值进行比较。
- 音符错误率 (Note Error Rate, NER):
- 定义: 衡量识别出的音符(通常包含音高和时值信息)与真值音符之间的差异。计算方法可能有所不同,一种常见方式是基于编辑距离,计算对齐后的音符序列中插入、删除、替换(音高错误或时值错误)的音符数量,再除以真值音符总数 4。
- 应用: 用于评估 OMR 系统在重建核心音乐内容方面的准确性 1。
- 优缺点: 直接反映了音乐内容的准确性,比单纯的符号错误率更具音乐意义。但计算可能依赖于音符对齐算法,且可能无法区分细微的语义错误(如错误的奏法标记)。
- 音高错误率 (Pitch Error Rate, PER):
- 定义: 专门衡量音符音高识别的错误率。通常计算为错误识别音高的音符数量占总音符数量的比例 4。音高错误可能源于符头位置识别错误、谱号识别错误或临时记号(升降号)识别错误 10。
- 应用: 评估 OMR 系统在音高维度上的准确性。
- 优缺点: 聚焦于音乐的核心要素之一。但忽略了时值等其他重要信息。
- 节奏错误率 (Rhythm Error Rate, RER):
- 定义: 专门衡量音符时值(节奏)识别的错误率。计算方法类似于 PER,即错误识别时值的音符数量占总音符数量的比例 9。节奏错误可能源于符头类型、符尾、符杠、附点等识别错误。一些研究还关注小节级别的节奏错误,检查每个小节的总时值是否符合拍号 9。
- 应用: 评估 OMR 系统在节奏维度上的准确性。
- 优缺点: 聚焦于音乐的另一个核心要素。但忽略了音高等信息。一些研究尝试利用节奏的重复性来修正 OMR 错误 9。
- 基于 MusicXML/MEI 差异的评估:
- 方法: 将 OMR 输出的 MusicXML/MEI 文件与真值文件进行比较。可以使用通用的 XML 差异比较工具,或者开发专门针对音乐语义的比较算法,量化两者在结构、元素、属性上的差异。例如,比较音符数量、小节数量、音高、时值、奏法标记等元素的差异。
- 应用: 提供对 OMR 输出的结构化符号表示的全面评估。
- 优缺点: 可以非常详细地反映 OMR 结果的质量,涵盖广泛的音乐信息。但定义一个全面的、音乐上合理的差异度量非常复杂,并且结果可能难以解释为一个单一的分数。不同 OMR 系统生成的 MusicXML/MEI 文件风格可能不同,即使音乐内容相同,也可能导致比较困难 12。
3.3 端到端评估指标 (End-to-End Metrics)
这类指标直接评估从乐谱图像到最终符号序列(通常是某种线性化的乐谱表示)的整体性能。
- 序列编辑距离 (Sequence Edit Distance, SED):
- 定义: 与符号错误率(SER)类似,计算将 OMR 系统输出的符号序列转换为真值序列所需的最少编辑操作(插入、删除、替换)次数 4。这里的序列可以是基于符号的(如 PrIMuS 数据集中的不可知编码或语义编码 21),也可以是基于音符事件的。
- 应用: 评估端到端 OMR 系统,特别是那些直接生成线性符号序列的模型,如基于 CTC (Connectionist Temporal Classification) 损失的模型 24 或基于序列到序列(Seq2Seq)的模型 4。
- 优缺点: 提供了一个衡量整体序列生成质量的单一指标。但同样存在 SER 的问题,即无法区分不同类型错误的音乐重要性,并且对序列表示的选择敏感。计算编辑距离本身是一个成熟的算法(如 Wagner-Fischer 算法 55),但将其应用于复杂的音乐结构(如多声部)可能需要特殊的对齐策略。
3.4 指标选择的考量
选择哪种评测指标取决于 OMR 系统的具体任务和评估目标。
- 对于符号检测任务,mAP 是标准选择。
- 对于符号分类任务,Precision, Recall, F1-score 很常用。
- 对于端到端序列生成任务,SER 或 SED 是常用指标。
- 若关注音乐内容的准确性,则 NER, PER, RER 或基于 MusicXML/MEI 的比较更为合适。
一个普遍的挑战是,符号层面的高精度(如低 SER 或高 mAP)并不总能保证音乐语义层面的高准确性 20。例如,一个系统可能完美识别了所有符头和符干,但如果连接关系错误或位置稍有偏差,最终生成的音乐可能是完全错误的。反之,即使存在少量符号识别错误,如果关键的音乐信息(如音高和节奏轮廓)得以保留,其音乐可用性可能仍然较高。因此,综合使用不同层面的指标进行评估通常是必要的。
表 3.1: 常用 OMR 评测指标概览
指标名称 | 层面 | 定义/计算基础 | 典型应用/数据集 | 优点 | 缺点 |
精确率 (Precision) | 符号 | TP/(TP+FP) | 符号分类/检测 | 直观,衡量“查准”能力 | 单独使用可能片面 |
召回率 (Recall) | 符号 | TP/(TP+FN) | 符号分类/检测 | 直观,衡量“查全”能力 | 单独使用可能片面 |
F1 分数 (F1-score) | 符号 | 精确率和召回率的调和平均数 | 符号分类/检测 | 平衡 P 和 R | 不区分错误类型 |
mAP | 符号 | 各类别 AP (P-R 曲线下面积) 的平均值 | 符号检测 (DeepScores) | 综合评估检测性能,对 IoU 阈值不敏感 | 计算复杂,不如 F1 直观 |
符号错误率 (SER) | 符号/端到端 | 编辑距离 / 真值序列长度 | 端到端序列识别 (PrIMuS) | 衡量整体序列准确性 | 平等对待错误,依赖序列定义 |
音符错误率 (NER) | 音乐语义 | 基于编辑距离的音符 (音高+时值) 错误 | 音乐内容重建 | 反映核心音乐内容准确性 | 依赖对齐,可能忽略细微语义错误 |
音高错误率 (PER) | 音乐语义 | 错误音高的音符比例 | 音高识别准确性评估 | 聚焦核心要素 (音高) | 忽略时值等信息 |
节奏错误率 (RER) | 音乐语义 | 错误时值的音符比例 / 小节时值检查 | 节奏识别准确性评估 | 聚焦核心要素 (节奏) | 忽略音高等信息 |
基于 MusicXML/MEI 差异 | 音乐语义 | 比较 OMR 输出与真值文件的结构/内容差异 | 全面评估结构化输出 | 详细全面 | 难以量化为单一分数,比较复杂 |
序列编辑距离 (SED) | 端到端 | 将预测序列转换为真值序列的最少编辑操作数 | 端到端序列生成 (Seq2Seq 模型) | 衡量整体序列生成质量 | 同 SER,不区分错误重要性,对序列表示敏感 |
4. 简谱光学音乐识别 (Jianpu OMR)
简谱(Numbered Musical Notation)是一种在亚洲,尤其是在华人社区广泛使用的记谱法 59。与五线谱相比,简谱具有不同的符号系统和表示规则,这给 OMR 带来了独特的挑战,同时也需要特定的数据集和评估方法。
4.1 简谱记谱法简介
简谱的核心特征包括 59:
- 音高表示: 使用数字 1 到 7 代表音阶中的七个基本音级(do, re, mi, fa, sol, la, si)。
- 八度表示: 通过在数字上方或下方添加点来表示相对于中心八度的升高或降低。一个点在上方表示高一个八度,两个点表示高两个八度;下方同理。
- 节奏表示:
- 基本音符(通常是四分音符)只写数字。
- 通过在数字后添加短横线 - 来增加时值(每条短横线通常增加一个基本音符的时值)。
- 通过在数字下方添加下划线 _ 来缩短时值(一条下划线通常表示时值减半,变为八分音符;两条表示再减半,变为十六分音符)。
- 附点 . 写在音符或时值线的右侧,表示增加原时值的一半。
- 休止符: 使用数字 0 表示休止,其时值表示方法与音符类似。
- 其他符号: 包括拍号(如 4/4, 2/4)、调号(如 1=C, 1=G)、临时升降号(#、b)、连音线、反复记号、强弱记号等。
4.2 简谱 OMR 的特定挑战
简谱的这些特点给 OMR 带来了不同于五线谱的挑战:
- 数字识别: 需要准确识别数字 0-7,并将其与可能混淆的其他符号(如拍号中的数字、歌词中的数字)区分开。
- 上下文关联: 八度点、时值线、附点等修饰符号必须与其对应的数字音符正确关联。一个点或一条线的位置错误可能导致音高或节奏的完全错误。
- 布局多样性: 简谱常与歌词混合排版,音符行和歌词行可能交错出现,增加了版面分析和符号分割的难度 60。
- 连接性: 时值线(特别是连接多个音符的减时线,类似于五线谱的符杠)需要被正确分割和解释。连音线也需要被识别并关联到正确的音符。
- 符号密度: 简谱符号有时排列紧密,增加了分割的难度。
4.3 简谱 OMR 公开数据集
与五线谱相比,公开的、专门用于简谱 OMR 的大型标准化数据集相对匮乏 59。这限制了简谱 OMR 研究的可复现性和系统间的比较。
- Huang 等人 (2017) 的数据集 59:
- 描述: 该研究使用了一个包含 110 份手写简谱歌谱手稿的数据集,来源于一本歌本 59。
- 规模: 分为 100 份训练样本(平均 74 个数字音符/份)和 10 份测试样本(平均 65 个数字音符/份)59。
- 内容: 包含数字音符、八度点、时值线、附点、连音线、强弱记号、结构记号和临时升降号等 59。
- 标注与获取: 论文中未详细说明标注格式,也未提及数据集是否公开可获取 59。这使得其他研究者难以使用该数据集进行基准测试。
- OrpheusNet 使用的数据集 60:
- 描述: OrpheusNet 系统在评估时使用了简谱数据集,提及了“正常清晰度”和“模糊”两种数据集 60。
- 标注与获取: 相关资料未提供这些数据集的具体规模、标注细节或公开获取途径 60。很可能是该研究团队内部使用的数据。
- 其他潜在资源:
- 一些 GitHub 仓库,如 dlzou/jianpu-omr 61,包含与简谱 OMR 相关的代码(主要是图像分割),但似乎不直接提供标准化的数据集 61。
- 在线数据平台如 Roboflow 可能存在一些用户上传的与 OMR 相关的项目 62,但这些数据集通常规模较小,标注不一,且可能并非专门针对简谱音乐内容识别(例如 63 似乎是 OMR 答题卡识别)。
- 目前看来,缺乏一个像 PrIMuS 或 MUSCIMA++ 那样被广泛认可和使用的简谱 OMR 公开基准数据集。
这种数据集的缺乏是简谱 OMR 研究的一个主要瓶颈。研究者往往需要自行收集和标注数据,这不仅耗时耗力,也使得不同研究之间的成果难以进行公平比较,阻碍了该领域技术的快速迭代和标准化评估。
4.4 简谱 OMR 评测指标
由于简谱的独特性,其 OMR 系统的评估也需要考虑特定的指标或对现有指标进行调整。
- 标准指标的适用性:
- 符号层面: Precision, Recall, F1-score, mAP 等指标可以用于评估简谱中各种基本符号(数字、点、线、谱号、拍号等)的检测和分类准确率,前提是定义了清晰的符号类别和标注。SER 也可以应用,但需要定义合适的简谱符号线性序列表示方法。
- 端到端: SED 同样可以用于评估直接从图像生成简谱符号序列的系统。
- 简谱特定指标/考量:
- Huang 等人 (2017) 的评估方法 59: 该研究强调需要评估单个音乐字形(glyph)的识别及其组合后的音乐语义。他们提出的评估不仅关注音符(数字)本身,还关注与其相关的修饰符(八度点、时值线、附点)的正确关联。他们还利用音乐学属性(如拍号约束、音高转换)来辅助错误检测 59。虽然具体计算公式未给出,但这种思路强调了评估简谱 OMR 时必须考虑符号间的组合关系。
- 分数准确率 (Score Accuracy, SA) 60: OrpheusNet 系统使用 SA 作为主要评估指标,并在清晰和模糊数据集上分别达到了 99% 和 98% 的准确率 60。然而,文献中没有给出 SA 的具体计算方式 60。它可能是一个宏观指标,例如基于完全正确的音符(音高和节奏都正确)的比例,或者基于某种整体乐谱相似度的度量。其优点是提供了一个单一的总体性能分数,但缺点是缺乏对具体错误类型的细粒度分析 64。
- 针对性错误率: 可以定义更细化的错误率来反映简谱的特点:
- 数字错误率 (Digit Error Rate): 衡量数字 0-7 被错误识别的比例。
- 八度错误率 (Octave Error Rate): 衡量八度点(上方或下方)被错误识别、遗漏或错误关联的比例。
- 节奏符号错误率 (Rhythm Symbol Error Rate): 衡量时值线 (-)、减时线 (_)、附点 (.) 等节奏相关符号被错误识别、遗漏或错误关联的比例。
- 音符错误率 (Jianpu Note Error Rate): 综合考虑数字、八度点和节奏符号,衡量一个完整简谱音符(包含音高和时值信息)被错误识别的比例。
简谱 OMR 的评估需要超越简单的符号识别,深入到符号组合所代表的音乐语义层面。例如,错误地将数字 '3' 识别为 '5' 是一个音高错误,而遗漏数字上方的点则是一个八度错误,两者都会导致错误的音高。同样,错误地识别数字下方的下划线数量或遗漏附点则会导致节奏错误。因此,为简谱 OMR 设计和标准化一套能够反映这些特定错误类型的评测指标,对于推动该领域的发展至关重要。目前,像 SA 这样的指标已被使用,但其定义和计算方式尚需明确和统一。
5. 学术竞赛与基准评测
学术竞赛和共享任务(Shared Tasks)在推动特定研究领域发展方面扮演着重要角色。它们通过提供统一的任务定义、标准化的数据集和一致的评估协议,使得不同研究团队的方法可以在公平的环境下进行比较,从而识别出当前最先进的技术,并促进领域内的合作与交流。
5.1 竞赛在 OMR 领域的作用
对于 OMR 领域而言,标准化的竞赛或评测活动有助于:
- 建立基准 (Benchmarking): 提供公认的数据集和指标,衡量不同 OMR 系统的性能。
- 促进比较: 使研究者能够客观地比较他们的方法与他人的方法。
- 识别挑战: 突出当前 OMR 技术面临的主要困难和瓶颈。
- 推动创新: 激励研究者开发新的、更有效的 OMR 技术来应对挑战。
5.2 主要相关会议与活动
- ICDAR (International Conference on Document Analysis and Recognition):
- ICDAR 是文档分析和识别领域的顶级国际会议,经常组织各种相关的竞赛 65。其竞赛涵盖了手写文本识别(HTR)、版面分析、表格识别、文本检测与识别、历史文档处理等多个方面 44。
- 然而,根据对 ICDAR 2024 和 ICDAR 2025 竞赛列表的查阅 65,并未发现专门针对 OMR 的竞赛项目。虽然有些竞赛涉及手写文档识别 66 或历史文档中的字形检测 65,但没有一个任务是直接处理乐谱识别的。
- 这种现象可能反映了 OMR 作为一个相对小众且评估标准尚未完全统一的领域,在组织大型标准化竞赛方面面临的挑战。或者,OMR 相关的研究更多地通过常规论文报告,而非竞赛形式进行交流。这与其他文档分析子领域(如 HTR)形成了对比,后者拥有更成熟的竞赛传统。
- MIREX (Music Information Retrieval Evaluation eXchange):
- MIREX 是音乐信息检索(MIR)领域最主要的年度评测活动,旨在通过标准化的任务和数据集评估各种 MIR 算法的性能 16。其任务涵盖音频指纹、旋律提取、和弦识别、节拍跟踪、音乐推荐等多个方面。
- 尽管 OMR 可以被视为 MIR 的一个子领域(因为它旨在从视觉信息中提取音乐信息),但 MIREX 历史上从未设立过 OMR 相关的评测任务 16。主要原因在于 OMR 领域长期缺乏标准化的测试平台和公认的评估指标,这使得组织类似 MIREX 的大规模评测变得非常困难 16。OMR 评估的复杂性,特别是涉及到音乐语义和版面布局的评估,远超许多基于音频或符号(如 MIDI)的 MIR 任务。
- MML:
- 在检索到的信息中,出现了关于 "MML" 竞赛的提及 69。然而,通过分析这些信息的内容,可以确定这里的 "MML" 指的是数学联赛 (Mathematics League) 69 或市政联盟 (Municipal League) 70,与光学乐谱识别或音乐信息检索无关。因此,在讨论 OMR 相关的学术竞赛时,应排除这些 MML 的信息。
- WoRMS (Workshop on Reading Music Systems):
- 虽然不是传统意义上的竞赛平台,但像 WoRMS 这样的专业研讨会是 OMR 研究者交流最新进展、讨论数据集和评估方法的重要场所 72。这类会议可能发布新的数据集或提出新的评估框架,从而间接推动 OMR 评测标准的形成。
5.3 现状分析
目前,OMR 领域似乎缺乏在主要国际会议(如 ICDAR)或大型评测活动(如 MIREX)中持续举办的、公认的标准化竞赛。这与其他文档分析或 MIR 子领域相比是一个显著的差异。这可能归因于 OMR 任务本身的多样性(符号检测、结构重建、语义解释)、评估指标的复杂性和争议性,以及高质量、大规模、多样化标注数据集的相对稀缺。尽管如此,研究社区内部仍在不断努力,通过发布公开数据集和提出新的评估方法(如 12 中提到的 MTN 框架),逐步推动 OMR 评测的标准化。专门的研讨会(如 WoRMS)为这些讨论提供了平台。
6. OMR 评测现状与总结
经过对 OMR 数据集、评测指标以及相关学术活动的梳理,可以对当前 OMR 评测的现状进行总结。
6.1 主流基准数据集
尽管 OMR 数据集仍在发展中,但一些数据集已在研究中被广泛用作基准:
- PrIMuS: 由于其规模大且提供序列级真值,常被用于训练和评估端到端的单声部印刷体 OMR 系统 1。
- MUSCIMA++: 作为手写乐谱结构化标注的代表,是评估手写 OMR 中符号检测、分类以及特别是音乐结构重建(Notation Assembly)任务的重要基准 6。
- DeepScores: 凭借其庞大的规模和丰富的像素级标注,已成为训练和评估基于深度学习的音乐符号检测与分割模型的首选数据集之一 6。
- HOMUS: 在线手写孤立符号识别研究的主要基准数据集 14。
- CVC-MUSCIMA: 虽然其原始目的是书写者识别和五线谱移除,但作为 MUSCIMA++ 的图像来源,它在手写 OMR 研究中仍被间接或直接使用 13-13-76。
需要注意的是,这些数据集各有侧重,适用于不同的 OMR 子任务和方法。目前尚无一个能覆盖所有 OMR 场景(不同记谱法、复杂布局、各种质量退化)的通用大型基准。
6.2 广泛接受的评测指标
OMR 性能的评估通常采用多种指标,反映了任务的多面性:
- 符号检测/分割: mAP 是该领域广泛接受的标准指标,尤其是在使用 DeepScores 等数据集时 6。Precision, Recall, F1-score 也常用于评估特定类别的检测或分类性能 36。
- 序列识别: 对于端到端生成符号序列的模型,SER 或 SED (基于编辑距离) 是最常用的指标 24-41。
- 音乐语义: 尽管实现和标准化更具挑战,但研究者越来越认识到评估音乐语义准确性的重要性。NER, PER, RER 等指标被用于评估音符、音高和节奏的准确性 1-41-4-53。基于 MusicXML/MEI 文件差异的比较也提供了一种更全面的评估方式,尽管量化困难。
当前 OMR 评测的一个核心挑战在于,符号层面的指标(如 mAP, SER)与音乐语义层面的指标(如 NER, PER, RER)之间并非完全一致 20。一个系统可能在检测或序列生成上表现很好,但在音乐内容的还原上却不尽人意。因此,选择何种指标以及如何解读结果,需要结合具体的 OMR 任务和应用场景。目前还没有一个单一指标被普遍认为是衡量 OMR 系统整体性能的“黄金标准”。
6.3 五线谱与简谱 OMR 评测的差异
在评估五线谱和简谱 OMR 系统时,存在明显的差异和不同的侧重点:
- 基准资源: 五线谱 OMR 拥有相对成熟和多样化的公开数据集(如 PrIMuS, MUSCIMA++, DeepScores),以及一套虽有争议但较为常用的评测实践。而简谱 OMR 则严重缺乏公开的、标准化的基准数据集和广泛接受的评测指标 59。
- 评估重点:
- 五线谱: 评估通常关注二维布局的理解(音高由垂直位置决定)、复杂符号(谱号、拍号、连音线、装饰音等)的识别、多声部处理以及从图形符号到音乐语义(音高、时值)的转换。
- 简谱: 评估需要特别关注数字(0-7)的准确识别、八度点与数字的正确关联、节奏符号(-, _, .) 的组合解释,以及歌词与乐谱行的分离。简谱的评估更侧重于符号间的上下文关联和组合规则的正确应用。
- 指标适应性: 虽然一些通用指标(如 Precision/Recall/F1, SER, SED)可以应用于简谱,但需要针对简谱的符号系统进行定义和调整。像 NER, PER, RER 这样的语义指标,其具体计算方式也需要根据简谱的音高和节奏表示法来定制。简谱 OMR 可能需要发展出更具针对性的评估指标(如八度错误率、节奏符号错误率等)来捕捉其独特的错误模式。
6.4 符号化格式的角色 (MusicXML vs. MEI)
MusicXML 和 MEI 作为 OMR 系统常用的目标输出格式,在评测中扮演着重要角色,它们使得对 OMR 结果进行音乐语义层面的评估成为可能 2。
- MusicXML: 由于其广泛的软件支持(超过 260 个应用程序 80)和作为交换格式的设计目标 79,MusicXML 常被用作 OMR 输出格式,便于在不同的乐谱编辑器或播放器中使用和验证。评估基于 MusicXML 的输出,主要关注其在表示常见乐谱元素和布局方面的准确性以及与其他软件的兼容性。其设计哲学更侧重于实际的渲染和交换需求 81。
- MEI (Music Encoding Initiative): MEI 由学术界驱动,设计目标是提供一个语义更丰富、结构更灵活的音乐编码标准,特别适用于学术研究、数字图书馆和复杂音乐文献(包括早期记谱法)的表示 78。评估基于 MEI 的输出,可以更深入地考察 OMR 系统对音乐结构、历史记谱法细节以及编辑信息的理解程度。MEI 的哲学更侧重于捕捉音乐文献的深层语义和结构信息,而非仅仅是视觉呈现 81。
选择 MusicXML 还是 MEI 作为评估目标,取决于 OMR 系统的预期应用场景。MusicXML 更适合评估系统的通用兼容性和基本乐谱信息的准确性,而 MEI 则更适合评估系统在处理复杂、特定或学术性音乐文献方面的能力。两者各有优劣,MEI 在语义表达上更强大,但软件支持不如 MusicXML 广泛 82。
6.5 未来方向与统一化努力
OMR 评测领域仍然面临挑战,特别是如何统一不同方法(如基于检测、基于序列、基于图)的评估,以及如何更全面地衡量音乐意义上的准确性 12。随着端到端深度学习模型(包括 CNN-RNN 24 和 Transformer 57)的兴起,模型内部处理过程变得不透明,使得基于中间结果的评估更加困难,进一步凸显了对鲁棒的、基于最终输出的评估方法的需求。
为了解决评估碎片化的问题,研究社区正在探索新的评估框架。例如,音乐树表示法 (Music Tree Notation, MTN) 12 被提出作为一种可能的统一中间表示。MTN 旨在通过树状结构来建模乐谱中图形符号之间的关系,将音乐语义的推断推迟到后续阶段 12。其目标是提供一个通用的终点格式,使得不同 OMR 方法(无论是基于检测、分割还是端到端序列生成)的输出都可以在一个共同的基础上进行比较,从而实现更标准化的评估 12。这类统一化框架的探索代表了 OMR 评测未来的一个重要方向。
7. 结论
本报告对光学乐谱识别(OMR)系统的评测基准进行了调查分析,重点关注了公开数据集和常用评测指标,并特别探讨了五线谱和简谱 OMR 的评测差异。
主要发现总结如下:
- 数据集现状: 针对五线谱 OMR,存在多个有影响力的公开数据集,如 PrIMuS(印刷体单声部序列)、MUSCIMA++(手写体结构图)、DeepScores(大规模印刷体检测/分割)和 HOMUS(在线手写孤立符号)。这些数据集各有侧重,服务于不同的 OMR 子任务。然而,对于简谱 OMR,公开的、标准化的、大规模基准数据集仍然严重匮乏,阻碍了该领域的研究进展和比较。
- 评测指标: OMR 评测采用多种指标。符号层面常用 Precision/Recall/F1 和 mAP(用于检测),以及 SER/SED(用于序列识别)。音乐语义层面则关注 NER、PER、RER 或基于 MusicXML/MEI 的差异比较。目前尚无单一指标能全面反映 OMR 性能,符号层面的准确性不一定等同于音乐语义的准确性。
- 五线谱 vs. 简谱: 两者的 OMR 评测存在显著差异。五线谱评测关注二维布局、复杂符号和多声部,拥有相对成熟的数据集和评测实践。简谱评测则需特别关注数字、八度点、节奏线的识别与关联,但面临数据集稀缺和缺乏特定标准化指标的挑战。
- 学术竞赛: 与 HTR 等领域相比,OMR 在 ICDAR、MIREX 等主要平台上缺乏持续的、专门的竞赛或评测任务,这可能与评估标准化难度有关。
- 符号化格式: MusicXML 和 MEI 作为目标输出格式,为语义评估提供了基础。MusicXML 侧重通用交换和渲染,而 MEI 侧重学术应用和语义深度。
OMR 评测的整体状态:
当前 OMR 评测领域呈现出活跃发展但也相对碎片化的特点。虽然深度学习技术的应用带来了显著进步 1,但评估标准的不统一仍然是制约领域发展的关键因素 12。不同研究使用不同的数据集和指标,使得成果难以横向比较。特别是对于简谱等非西方主流记谱法,标准化评测资源的缺乏尤为突出。
未来展望:
为了推动 OMR 技术的进一步发展和应用,未来的研究需要在以下方面加强努力:
- 数据集建设: 需要构建更大规模、更多样化、标注更丰富的公开数据集,特别是覆盖手写乐谱、历史记谱法以及简谱等非五线谱记谱法的数据集。
- 指标标准化: 社区需要就核心评测指标达成更广泛的共识,并开发能够更全面、更准确地反映音乐语义保真度的评估方法。
- 统一框架: 探索和发展像 MTN 这样的统一表示框架 12-94,有望为不同 OMR 方法提供一个公平比较的共同基础。
- 竞赛与共享任务: 积极组织标准化的 OMR 竞赛或共享任务,以促进技术的交流、比较和进步。
通过社区的共同努力,克服评测标准化的挑战,OMR 技术有望在音乐文献数字化、音乐信息检索和人机音乐交互等领域发挥更大的作用。
引用的著作
- Musical Note Position and Duration Recognition Model in Optical Music Recognition Using Convolutional Neural Network - JOIG-Journal of Image and Graphics, 访问时间为 四月 27, 2025, https://www.joig.net/2024/JOIG-V12N1-32.pdf
- Optical Music Recognition by Long Short-Term Memory Recurrent Neural Networks - Computer Vision Center, 访问时间为 四月 27, 2025, http://pages.cvc.uab.es/afornes/students/Master_2017_ABaro.pdf
- Development of a complete Optical Music Recognition workflow - RUA, 访问时间为 四月 27, 2025, https://rua.ua.es/dspace/bitstream/10045/116666/1/TFM_Antonio-Rios-Vila.pdf
- Optical Medieval Music Recognition Using Background Knowledge - MDPI, 访问时间为 四月 27, 2025, https://www.mdpi.com/1999-4893/15/7/221
- The Challenge of Optical Music Recognition, 访问时间为 四月 27, 2025, https://www.electro-tech-online.com/custompdfs/2011/07/B2BB_ChallengeOfOMR.pdf
- Optical music recognition: State-of-the-art and open issues - ResearchGate, 访问时间为 四月 27, 2025, https://www.researchgate.net/publication/257806547_Optical_music_recognition_State-of-the-art_and_open_issues
- OPTICAL MUSIC RECOGNITION: STATE OF THE ART AND MAJOR CHALLENGES - TENOR Conference, 访问时间为 四月 27, 2025, https://www.tenor-conference.org/proceedings/2020/23_Shatri_tenor20.pdf
- (PDF) Understanding Optical Music Recognition - ResearchGate, 访问时间为 四月 27, 2025, https://www.researchgate.net/publication/342762210_Understanding_Optical_Music_Recognition
- IMPROVING RHYTHMIC TRANSCRIPTIONS VIA PROBABILITY MODELS APPLIED POST-OMR - ISMIR, 访问时间为 四月 27, 2025, https://archives.ismir.net/ismir2014/paper/000357.pdf
- Improving OMR for Digital Music Libraries with Multiple Recognisers and Multiple Sources, 访问时间为 四月 27, 2025, https://www.researchgate.net/publication/266316464_Improving_OMR_for_Digital_Music_Libraries_with_Multiple_Recognisers_and_Multiple_Sources
- Optical Music Recognition of Printed White Mensural Notation - Edinburgh University Press, 访问时间为 四月 27, 2025, https://www.euppublishing.com/doi/pdf/10.3366/ijhac.2022.0275
- The Common Optical Music Recognition Evaluation Framework - arXiv, 访问时间为 四月 27, 2025, https://arxiv.org/html/2312.12908v1
- MUSCIMA++ - ÚFAL, 访问时间为 四月 27, 2025, https://ufal.mff.cuni.cz/muscima
- Variety of handwriting styles iv the CVC-MUSCIMA dataset. - ResearchGate, 访问时间为 四月 27, 2025, https://www.researchgate.net/figure/ariety-of-handwriting-styles-iv-the-CVC-MUSCIMA-dataset_fig2_315096553
- The MUSCIMA++ Dataset for Handwritten Optical Music Recognition, 访问时间为 四月 27, 2025, https://ufal.mff.cuni.cz/~hajicj/2017/docs/icdar2017_CAMERA.pdf
- Towards a Standard Testbed for Optical Music Recognition: Definitions, Metrics, and Page Images - Taylor & Francis Online, 访问时间为 四月 27, 2025, https://www.tandfonline.com/doi/abs/10.1080/09298215.2015.1045424
- Understanding Optical Music Recognition - RUA, 访问时间为 四月 27, 2025, https://rua.ua.es/dspace/bitstream/10045/108236/2/Calvo-Zaragoza_etal_ACMComputSurv_preprint.pdf
- Towards a Standard Testbed for Optical Music Recognition: Definitions, Metrics, and Page Images - Luddy Homepage Server, 访问时间为 四月 27, 2025, https://homes.luddy.indiana.edu/donbyrd/Papers/OMRStandardTestbed_figinline.pdf
- A Case for Intrinsic Evaluation of Optical Music Recognition | OpenReview, 访问时间为 四月 27, 2025, https://openreview.net/forum?id=rke-ikq07X
- A Case for Intrinsic Evaluation of Optical Music Recognition - OpenReview, 访问时间为 四月 27, 2025, https://openreview.net/pdf?id=rke-ikq07X
- PrIMuS dataset, 访问时间为 四月 27, 2025, https://grfia.dlsi.ua.es/primus/
- DeepScores Dataset - Papers With Code, 访问时间为 四月 27, 2025, https://paperswithcode.com/dataset/deepscores
- DeepScores - A Dataset for Segmentation, Detection and Classification of Tiny Objects, 访问时间为 四月 27, 2025, https://www.researchgate.net/publication/324167345_DeepScores_-_A_Dataset_for_Segmentation_Detection_and_Classification_of_Tiny_Objects
- End-to-End Neural Optical Music Recognition of Monophonic Scores - MDPI, 访问时间为 四月 27, 2025, https://www.mdpi.com/2076-3417/8/4/606
- OMR-Research/muscima-pp: Working repository for the MUSCIMA++ dataset - GitHub, 访问时间为 四月 27, 2025, https://github.com/OMR-Research/muscima-pp
- MUSCIMA++ - LINDAT/CLARIAH-CZ, 访问时间为 四月 27, 2025, https://lindat.cz/repository/xmlui/handle/11372/LRT-2372?show=full
- DeepScoresV2 - Zenodo, 访问时间为 四月 27, 2025, https://zenodo.org/records/4012193
- The Handwritten Online Music Symbols (HOMUS) dataset, 访问时间为 四月 27, 2025, https://grfia.dlsi.ua.es/homus/
- Recognition of Pen-Based Music Notation: the HOMUS dataset, 访问时间为 四月 27, 2025, https://grfia.dlsi.ua.es/repositori/grfia/pubs/316/homus.pdf
- Hold out method for CVC-MUSICIMA - Mendeley Data, 访问时间为 四月 27, 2025, https://data.mendeley.com/datasets/jtyrxby8gd/1
- The CVC-MUSCIMA Database, 访问时间为 四月 27, 2025, http://pages.cvc.uab.es/cvcmuscima/index_database.html
- CVC-MUSCIMA: A Ground-Truth of Handwritten Music Score Images for Writer Identification and Staff Removal - UAB, 访问时间为 四月 27, 2025, https://refbase.cvc.uab.es/files/FDG2012.pdf
- CVC-MUSCIMA: A Database of Handwritten Music Score Images for Writer Identification and Staff Removal - ResearchGate, 访问时间为 四月 27, 2025, https://www.researchgate.net/profile/Anjan-Dutta-5/publication/225445011_CVC-MUSCIMA_A_ground_truth_of_handwritten_music_score_images_for_writer_identification_and_staff_removal/links/558123a908ae607ddc323b53/CVC-MUSCIMA-A-ground-truth-of-handwritten-music-score-images-for-writer-identification-and-staff-removal.pdf
- CVC-MUSCIMA: A ground truth of handwritten music score images for writer identification and staff removal - ResearchGate, 访问时间为 四月 27, 2025, https://www.researchgate.net/publication/225445011_CVC-MUSCIMA_A_ground_truth_of_handwritten_music_score_images_for_writer_identification_and_staff_removal
- OpenOMR - Wikipedia, 访问时间为 四月 27, 2025, https://en.wikipedia.org/wiki/OpenOMR
- Mean Average Precision (mAP) Explained: Everything You Need to Know - V7 Labs, 访问时间为 四月 27, 2025, https://www.v7labs.com/blog/mean-average-precision
- Performance Metrics Deep Dive - Ultralytics YOLO Docs, 访问时间为 四月 27, 2025, https://docs.ultralytics.com/guides/yolo-performance-metrics/
- The task of Optical Music Recognition (OMR) is to analyze an image... - ResearchGate, 访问时间为 四月 27, 2025, https://www.researchgate.net/figure/The-task-of-Optical-Music-Recognition-OMR-is-to-analyze-an-image-containing-a-musical_fig1_318729877
- Retrieving Music Semantics from Optical Music Recognition by Machine Translation - RUA, 访问时间为 四月 27, 2025, https://rua.ua.es/dspace/bitstream/10045/109930/1/Thomae_etal_2020_Music_encoding_conference_proceedings.pdf
- Goal-Directed Evaluation for the Improvement of Optical Music Recognition on Early Music Prints - Aruspix, 访问时间为 四月 27, 2025, http://www.aruspix.net/publications/pugin07goal-directed.pdf
- AN EMPIRICAL EVALUATION OF END-TO-END POLYPHONIC OPTICAL MUSIC RECOGNITION - ISMIR, 访问时间为 四月 27, 2025, https://archives.ismir.net/ismir2021/paper/000020.pdf
- END-TO-END OPTICAL MUSIC RECOGNITION USING NEURAL NETWORKS - SIMSSA, 访问时间为 四月 27, 2025, https://simssa.ca/assets/files/jorge-ismir2017.pdf
- Deep Learning-Based Optical Music Recognition for Semantic Representation of Non-overlap and Overlap Music Notes - Koya University Eprints, 访问时间为 四月 27, 2025, https://eprints.koyauniversity.org/473/1/ARO.11402.VOL12.NO1.2024.ISSUE22-PP79-87.pdf
- Symbol Error Rate (SER, in %) on ICDAR 2024 Competition on Handwriting Recognition of Historical Ciphers. - ResearchGate, 访问时间为 四月 27, 2025, https://www.researchgate.net/figure/Symbol-Error-Rate-SER-in-on-ICDAR-2024-Competition-on-Handwriting-Recognition-of_tbl2_384364181
- Analyzing and Scoring a Running Record - Reading A-Z, 访问时间为 四月 27, 2025, https://www.readinga-z.com/guided/runrec/scoring.html
- IMPROVING OPTICAL MUSIC RECOGNITION BY COMBINING OUTPUTS FROM MULTIPLE SOURCES - ismir 2015, 访问时间为 四月 27, 2025, https://www.ismir2015.uma.es/articles/187_Paper.pdf
- Computing Pitch Names in Tonal Music: A Comparative Analysis of Pitch Spelling Algorithms - David Meredith, 访问时间为 四月 27, 2025, http://www.titanmusic.com/papers/public/meredith-dphil-final.pdf
- EFFICIENT NOTATION ASSEMBLY IN OPTICAL MUSIC RECOGNITION - ISMIR, 访问时间为 四月 27, 2025, https://archives.ismir.net/ismir2023/paper/000020.pdf
- CHAPTER 24: From Audio to Music Notation - Queen Mary University of London, 访问时间为 四月 27, 2025, https://qmro.qmul.ac.uk/xmlui/bitstream/handle/123456789/73211/Benetos%20From%20Audio%20to%202021%20Accepted.pdf?sequence=2&isAllowed=y
- SHEET MUSIC-AUDIO IDENTIFICATION - ISMIR, 访问时间为 四月 27, 2025, https://archives.ismir.net/ismir2009/paper/000104.pdf
- USING SEQUENCE ALIGNMENT AND VOTING TO IMPROVE OPTICAL MUSIC RECOGNITION FROM MULTIPLE RECOGNIZERS - ISMIR 2011, 访问时间为 四月 27, 2025, https://ismir2011.ismir.net/papers/PS3-9.pdf
- INTERPRETING RHYTHM IN OPTICAL MUSIC RECOGNITION - ISMIR, 访问时间为 四月 27, 2025, https://archives.ismir.net/ismir2012/paper/000151.pdf
- ISMIR 2008 - Computer Science, 访问时间为 四月 27, 2025, https://www.cs.swarthmore.edu/~turnbull/Papers/ISMIR2008_Proceedings_Draft2.pdf
- From Deep Optical Music Recognition to Contextual Methods Arnau Baró Mas - ddd-UAB, 访问时间为 四月 27, 2025, https://ddd.uab.cat/pub/tesis/2023/hdl_10803_688320/abm1de1.pdf
- Edit distance - Wikipedia, 访问时间为 四月 27, 2025, https://en.wikipedia.org/wiki/Edit_distance
- Edit Distance | GeeksforGeeks, 访问时间为 四月 27, 2025, https://www.geeksforgeeks.org/edit-distance-dp-5/
- Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription - arXiv, 访问时间为 四月 27, 2025, https://arxiv.org/html/2402.07596v1
- 77 Understanding Optical Music Recognition - Alexander Pacha, 访问时间为 四月 27, 2025, https://alexanderpacha.com/wp-content/uploads/2020/11/understanding-optical-music-recognition-final.pdf
- Applying Machine Learning in Optical Music Recognition of Numbered Music Notation, 访问时间为 四月 27, 2025, https://www.researchgate.net/publication/318236258_Applying_Machine_Learning_in_Optical_Music_Recognition_of_Numbered_Music_Notation
- Akane0721/OrpheusNet: OMR for Numbered Musical Notation (Jianpu) - GitHub, 访问时间为 四月 27, 2025, https://github.com/Akane0721/OrpheusNet
- dlzou/jianpu-omr: Image segmentation for a numeric musical notation (简谱). - GitHub, 访问时间为 四月 27, 2025, https://github.com/dlzou/jianpu-omr
- omr Classification Dataset and Pre-Trained Model by Artitsamchoosri - Roboflow Universe, 访问时间为 四月 27, 2025, https://universe.roboflow.com/artitsamchoosri/omr-7algr
- OMR Scanner Object Detection Dataset and Pre-Trained Model by SUST, 访问时间为 四月 27, 2025, https://universe.roboflow.com/sust-9qaee/omr-scanner
- Accuracy score - Computer Vision Wiki - CloudFactory, 访问时间为 四月 27, 2025, https://wiki.cloudfactory.com/docs/mp-wiki/metrics/accuracy
- Competitions - ICDAR2025, 访问时间为 四月 27, 2025, https://www.icdar2025.com/program/competitions
- Competitions – icdar2024 Site, 访问时间为 四月 27, 2025, https://icdar2024.net/competitions/
- Document Analysis and Recognition - ICDAR 2024 | springerprofessional.de, 访问时间为 四月 27, 2025, https://www.springerprofessional.de/document-analysis-and-recognition-icdar-2024/27677146
- MIREX 2010 Symbolic Melodic Similarity: Local Alignment with Geometric Representations, 访问时间为 四月 27, 2025, https://www.researchgate.net/publication/220046032_MIREX_2010_Symbolic_Melodic_Similarity_Local_Alignment_with_Geometric_Representations
- Massachusetts Mathematics League – MML, 访问时间为 四月 27, 2025, https://mmleague.net/
- Finalists for MML Community Excellence Award Competition Announced - Michigan Municipal League, 访问时间为 四月 27, 2025, https://mml.org/about-us/press-releases/finalists-for-mml-community-excellence-award-competition-announced/
- Student Mathematics League Rules, 访问时间为 四月 27, 2025, https://amatyc.org/?page=SMLRules
- Proceedings of the 6 International Workshop on Reading Music Systems - reposiTUm, 访问时间为 四月 27, 2025, https://repositum.tuwien.at/bitstream/20.500.12708/208033/1/Pacha-2024-Proceedings%20of%20the%206th%20International%20Workshop%20on%20Reading%20Music...-vor.pdf
- (PDF) Proceedings of the 6th International Workshop on Reading Music Systems, 访问时间为 四月 27, 2025, https://www.researchgate.net/publication/386112882_Proceedings_of_the_6th_International_Workshop_on_Reading_Music_Systems
- OMR-Research, 访问时间为 四月 27, 2025, https://omr-research.github.io/
- Optical Music Recognition using Deep Neural Networks, 访问时间为 四月 27, 2025, https://dspace.cuni.cz/bitstream/handle/20.500.11956/119393/130284906.pdf?sequence=1&isAllowed=y
- In Search of a Dataset for Handwritten Optical Music Recognition: Introducing MUSCIMA++, 访问时间为 四月 27, 2025, https://www.semanticscholar.org/paper/In-Search-of-a-Dataset-for-Handwritten-Optical-Hajic-Pecina/f48c867eb3bcbeb1eab6ad91d9bad91af9797634
- Score Image Retrieval to Inaccurate OMR performance, 访问时间为 四月 27, 2025, https://www.kibme.org/resources/journal/20211229104812730.pdf
- Music Encoding Initiative (MEI) Format Family - Library of Congress, 访问时间为 四月 27, 2025, https://www.loc.gov/preservation/digital/formats/fdd/fdd000502.shtml
- MusicXML - Wikipedia, 访问时间为 四月 27, 2025, https://en.wikipedia.org/wiki/MusicXML
- MusicXML for Exchanging Digital Sheet Music, 访问时间为 四月 27, 2025, https://www.musicxml.com/
- Music Encoding Initiative - MuseScore, 访问时间为 四月 27, 2025, https://musescore.org/en/node/24208
- Agenda Discussion - Music Notation Community Group - W3C, 访问时间为 四月 27, 2025, https://www.w3.org/community/music-notation/wiki/Agenda_Discussion
- What is MEI? - Music Encoding Initiative, 访问时间为 四月 27, 2025, https://music-encoding.org/about/
- The Music Encoding Initiative - GitHub, 访问时间为 四月 27, 2025, https://github.com/music-encoding
- Music Encoding Initiative - Wikipedia, 访问时间为 四月 27, 2025, https://en.wikipedia.org/wiki/Music_Encoding_Initiative
- Music Encoding Initiative (MEI) - Music Notation: Preferred ..., 访问时间为 四月 27, 2025, https://guides.loc.gov/music-notation-preferred-preservation-formats-for-digital-scores/music-encoding-initiative
- How can we establish the original score? - Anna Selway, 访问时间为 四月 27, 2025, https://annakentmuller.wordpress.com/2014/10/06/how-can-we-establish-the-original-score/
- Music Encoding Initiative, 访问时间为 四月 27, 2025, https://music-encoding.org/
- Dig!Arts: Music Encoding Initiative - Performing Arts News - Wordpress + Temple, 访问时间为 四月 27, 2025, https://sites.temple.edu/performingartsnews/2020/07/06/digarts-music-encoding-initiative/
- Vision Transformers for Optical Music Recognition of Monophonic Scores - CS231n - Stanford University, 访问时间为 四月 27, 2025, https://cs231n.stanford.edu/2024/papers/vision-transformers-for-optical-music-recognition-of-monophonic-.pdf
- [2308.09370] TrOMR:Transformer-based Polyphonic Optical Music Recognition - ar5iv, 访问时间为 四月 27, 2025, https://ar5iv.labs.arxiv.org/html/2308.09370
- A Unified Representation Framework for the Evaluation of Optical Music Recognition Systems - arXiv, 访问时间为 四月 27, 2025, https://arxiv.org/html/2312.12908v2
- A Unified Representation Framework for the Evaluation of Optical Music Recognition Systems - arXiv, 访问时间为 四月 27, 2025, https://arxiv.org/pdf/2312.12908
- [2312.12908] A Unified Representation Framework for the Evaluation of Optical Music Recognition Systems - arXiv, 访问时间为 四月 27, 2025, https://arxiv.org/abs/2312.12908