注释大会
生物医学科学家习惯于对海量数据集进行集体注释。 考虑大型基因组的测序——数据在那里,但这意味着什么?
基本问题包括:每个基因在基因组中的什么位置停止和开始? 给定基因的功能意义是什么? 一个给定基因的蛋白质产物如何参与细胞中的信号网络?
不仅是对上面的遗传学的例子,而且对于来自其他学科的例子来说,最重要的问题(数据在那里,但它是什么意思???)肯定适用于各种源材料。 历史学家敏锐地意识到了这一点……
(源自 Lincoln Stein – Genome annotation: from sequence to biology)
一些文件,如上面的塔木德示例,已经积累了大量超出原始文本的注释。 其他文件仍在等待当前和未来学者的注释。 如果可以将注释精确定位到离散的时间段以允许进行纵向分析,那么人们就可以看到思想随时间的演变!!!
Stein 对注释社会学进行了有趣的讨论,他在其中描述了不同的组织模型:包括工厂、博物馆和派对。
工厂
主要特点:对源材料的自动标记。 适合早期注释工作(相当于在遗传学中——只需找到基因)。 产生广泛但粗浅的基线注释。 没有任何自动识别或分类算法是完美的。 对于社会科学学科,将源文本分类为离散单元的自动文本分类将符合注释的“工厂模型”。
博物馆
关键特征:解释工厂阶段确定的功能作用。 在遗传学中,这类似于解释在工厂阶段被识别为基因的功能作用,并纠正在第一个工厂阶段预测算法所犯的错误。 对于社会科学学科,这类似于仔细研究文本分类算法,并将输出整理到人类考虑后可能出现的其他类别中。 不需要同步,可以在延长的时间段内发生。
派对
主要特点:专家的同步努力——同一时间,同一房间,翻阅源材料。之前有 关于果蝇基因、老鼠基因和细胞类型注释的“注释大会”。
教室呢? 这些模型如何匹配?
对于注释源材料的学生……
如果他们异步工作,这与博物馆模型一致
如果他们同步/面对面地工作,这更符合派对模式。
对于教师来说,他们评估学生的注释输出,并且该分析对于评分或对注释输出的更精细理解具有价值。 例如,学生在批注时发生了什么样的知识建构活动? (请参阅本网站的早期讨论和来源参考)。 这种知识构建分类类似于博物馆或派对分析模型,因为人类正在做分类工作。
对于注释输出的工厂模型,可以通过 Perusall 或 Crowdlaaers 查看注释的自动分析。 当然,课堂教师也在仔细检查自动分析并承担上述博物馆或派对角色。
注释是否受到重视和奖励?
在课堂示例中:是的,他们可以形成评分评估并计入学生最终成绩的一定百分比。
工厂:学生人数众多——老师无法手动对所有学生进行评分
博物馆:小班学生,老师可以手动阅读注释输出然后评分
对于注释其他学术作品的专业人士:Hypothes.is 提供了引用注释的建议。
最后,回到 Stein 的文章,他建议对于基因家族的分类及管理或其他数据库记录集的管理应被视为类似于撰写受邀评论文章。 应为其作者提供引用的注释出处,对注释中进行的有价值的分析给予赞扬。