面向“基因-疾病”的关联语义挖掘任务

Text mining task for "Gene-Disease" association semantics (GDAS track, CHIP 2022)

中国健康信息处理大会(CHIP)是中国中文信息处理学会(CIPS)医疗健康与生物信息处理专业委员会开展的“以信息处理技术助力探索生命之奥秘、提高健康之质量、提升医疗之水平”为主旨的年度会议。CHIP是中国健康信息处理领域的重要会议,是世界各地学术界、企业界和政府部门的研究人员和从业人士分享创意,进一步推广领域研究成果和经验的重要平台。CHIP 2022 官网链接: http://www.cips-chip.org.cn/2022/

任务简介

在海量科学文献中,“基因-疾病”的关联机理通过突变、基因等系列分子对象及其触发词获得描述,自然语言处理为自动挖掘这一隐性知识条目提供了可能,亦为健康医学信息的自动化处理提供解决方案。本任务包括三个子任务:1、触发词实体识别;2、语义角色标注,3、“基因,调控类型,疾病”三元组抽取。所有数据取自AGAC语料库。

任务详情

任务一

触发词实体识别

任务一是传统意义下的命名实体识别(Named Entity Recognition),用以识别十二类与“基因-疾病”有关的分子对象及其触发词实体,包括Var, MPA, Interaction, Pathway, CPA, Reg, PosReg, NegReg, Disease, Gene, Protein和Enzyme。

任务二

语义角色标注

任务二是一个语义角色标注任务(Semantic Role Labeling,or Shallow Semantic Parsing),语义角色包括ThemeOf和CauseOf。该任务捕捉实体之间的语义依赖关系,用以构建“基因-疾病”关联。

任务三

“基因,调控类型,疾病”三元组抽取

任务三是一个三元组抽取任务(Triplet Extraction),该任务针对“基因-疾病”的关联机理的调控类型进行相关语义的抽取,可利用任务一和任务二所获得的触发词及其语义角色,挖掘其背后的深层语义。此处,调控类型包含4种对突变基因的语义描述:功能丧失(LOF)、功能获得(GOF)、功能调节(REG)、和功能的复合变化(COM)。该任务提供了250篇训练文本的“基因,调控类型,疾病”三元组结果。

子任务之间的逻辑关系

参与者可以选择参加任何一个子任务,但是任务二是基于任务一的,任务三可以独立执行或者基于任务一或者任务二的结果。

数据说明

一、数据样例

任务一和任务二数据格式为JSON,包括以下内容:

{"target": "http://pubannotation.org/docs/sourcedb/PubMed/sourceid/25805808", "sourcedb": "PubMed", "sourceid": "25805808", "text": "Loss-of-function de novo mutations play an important role in severe human neural tube defects.\nBACKGROUND: Neural tube defects (NTDs) are very common and severe birth defects that are caused by failure of neural tube closure and that have a complex aetiology. Anencephaly and spina bifida are severe NTDs that affect reproductive fitness and suggest a role for de novo mutations (DNMs) in their aetiology.\nMETHODS: We used whole-exome sequencing in 43 sporadic cases affected with myelomeningocele or anencephaly and their unaffected parents to identify DNMs in their exomes.\nRESULTS: We identified 42 coding DNMs in 25 cases, of which 6 were loss of function (LoF) showing a higher rate of LoF DNM in our cohort compared with control cohorts. Notably, we identified two protein-truncating DNMs in two independent cases in SHROOM3, previously associated with NTDs only in animal models. We have demonstrated a significant enrichment of LoF DNMs in this gene in NTDs compared with the gene specific DNM rate and to the DNM rate estimated from control cohorts. We also identified one nonsense DNM in PAX3 and two potentially causative missense DNMs in GRHL3 and PTPRS.\nCONCLUSIONS: Our study demonstrates an important role of LoF DNMs in the development of NTDs and strongly implicates SHROOM3 in its aetiology.", "project": "AGAC2_PubMed_2","denotations": [ { "id": "T8", "span": { "begin": 771, "end": 778 }, "obj": "Protein" }, { "id": "T7", "span": { "begin": 779, "end": 789 }, "obj": "NegReg" }, { "id": "T6", "span": { "begin": 790, "end": 794 }, "obj": "Var" }, { "id": "T9", "span": { "begin": 823, "end": 830 }, "obj": "Gene" }, { "id": "T10", "span": { "begin": 936, "end": 939 }, "obj": "NegReg" }, { "id": "T11", "span": { "begin": 940, "end": 944 }, "obj": "Var" }, { "id": "T12", "span": { "begin": 961, "end": 965 }, "obj": "Disease" }, { "id": "T3", "span": { "begin": 1224, "end": 1227 }, "obj": "NegReg" }, { "id": "T1", "span": { "begin": 1228, "end": 1232 }, "obj": "Var" }, { "id": "T2", "span": { "begin": 1255, "end": 1259 }, "obj": "Disease" }, { "id": "T5", "span": { "begin": 1284, "end": 1291 }, "obj": "Gene" } ], "relations": [ { "id": "R1", "pred": "CauseOf", "subj": "T1", "obj": "T3" }, { "id": "R10", "pred": "ThemeOf", "subj": "T12", "obj": "T10" }, { "id": "R11", "pred": "ThemeOf", "subj": "T5", "obj": "T1" }, { "id": "R2", "pred": "ThemeOf", "subj": "T2", "obj": "T3" }, { "id": "R5", "pred": "CauseOf", "subj": "T6", "obj": "T7" }, { "id": "R6", "pred": "ThemeOf", "subj": "T8", "obj": "T7" }, { "id": "R7", "pred": "ThemeOf", "subj": "T9", "obj": "T6" }, { "id": "R8", "pred": "ThemeOf", "subj": "T9", "obj": "T11" }, { "id": "R9", "pred": "CauseOf", "subj": "T11", "obj": "T10" } ]}

格式说明:

target”:注释文本的Pubannotation链接
sourcedb”:文本来源,AGAC中的所有文本都来自PubMed
sourceid”:文本的PMID
text”:文本原始摘要
denotations”:对应任务一的触发词注释,包括“id”;“span”:实体在文本中的位置信息;“obj”:实体被标注的标签
relations”:对应任务二触发词之间的语义角色,包括“id”;“pred”:语义角色;“subj”和“obj”:任务一中触发词的“id”,关联方向从“subj”到“obj”

任务三“基因,调控类型,疾病”三元组数据说明:

PMID Gene Regulation Type Disease
19338054 MC1R LOF melanoma
18594199
20399956 Shp2 GOF juvenile myelomonocytic leukemia
Shp2 LOF LEOPARD syndrome

数据格式说明:

任务三数据包含四列数据,分别是PMID,Gene,Regulation Type和Disease,每一篇文本中可能不会抽取到三元组关系,也可能会抽取到多条三元组关系。

二、训练及测试数据规模

任务一:

训练数据:250篇PubMed文献
测试数据:2000篇PubMed文献

任务二:

训练数据:250篇PubMed文献
测试数据:2000篇PubMed文献

任务三:

训练数据:250篇PubMed文献及其抽取出的三元组关系
测试数据:2000篇PubMed文献

三、任务对象

任务对象定义来源于AGAC(Active Gene Annotation Corpus)活跃基因注释语料库,该语料库主要用以挖掘突变引起的“基因-疾病”关联机理。AGAC语料库包括四类分子对象、八类触发词实体,两个语义角色,以及四种用以描述“基因-疾病”关联机理的功能变化。说明:AGAC中只有同时涉及特定突变和生物学功能或疾病的句子才会被注释。

任务一识别对象:



分子对象

1、Disease(疾病)
2、Gene(基因)
3、Protein(蛋白)
4、Enzyme(酶)



触发词实体

1、Variation(Var, 突变): 包括DNA、RNA、蛋白质的突变和分子结构的变化, 标注实体如: “mutations on the Arg248 and Arg282”, “mutant R282W”, “missense mutations
2、Molecular Physiological Activity (MPA, 分子活性): 分子水平的活性包括分子活性、基因表达和分子生理活性,标注实体如: “phosphorylation”, “transcription”, “histone methylation”,“bioactivation of cyclophosphamide
3、Interaction(互作): 分子和分子或者分子和细胞之间的联系,标注实体如: “bind”, “interaction
4、Pathway(通路): 包括各种通路,如: “Bmp pathway”, “PI3K pathway
5、Cell Physiological Activity (CPA,细胞活性): 在细胞水平或以上的活动,包括细胞反应性和细胞或器官的发育和生长,标注实体如: “T helper cell responses”, “renal development
6、Regulation (Reg,调控): 中性的提示词或词组,意思是没有损失或收获,如: “resulted in”, “regulated
7、Positive Regulation (PosReg,正调控): 表示获得功能的线索词或短语,如: “facilitates”, “enhanced”, “increased
8、Negative Regulation (NegReg,负调控): 表示失去功能的线索词或短语,如: “suppressed”, “decreased”, “inhibited

任务二标注对象:



语义角色

1、ThemeOf:从主事(Theme)实体指向当前实体
2、CauseOf:从当前实体指向致事(Cause)实体

任务三抽取对象:



调控类型

LOF GOF 表示功能的丧失或获得,REG 表示一般性调控关系,COM 表示基因与疾病之间的功能改变更为复杂,很难判断是 LOF 还是 GOF。在预测时从文本中提取“gene; function change; disease”三元组,如:“SHROOM3; LOF; Neural tube defects”,或者添加 PMID 信息:“25805808; SHROOM3; LOF; Neural tube defects”

标注样例

Image


例句“A C-to-A transversion in DAX1 gene resulted in a severe loss of DAX1 repressor activity, thus resulted in loss of leydig cell responsiveness”中:
任务一:实体标注一共有七处:
1、“C-to-A transversion”标注为“Var”;
2、“DAX1 gene”标注为“Gene”;
3、“loss”标注为“NegReg”;
4、“DAX1”标注为“Gene”;
5、“repressor activity”标注为MPA;
6、“loss”标注为“NegReg”;
7、“leydig cell responsiveness”标注为CPA;

任务二:语义角色的识别有6个:
1、由“DAX1 gene”指向“C-to-A transversion”的语义角色关系是“ThemeOf”,因为发生该突变的主体是“DAX1 gene”
2、由“C-to-A transversion”指向第一个“loss”的语义角色关系是“CauseOf”,因为突变发生后导致了DAX1基因抑制活动的丧失
3、由“DAX1”指向“repressor activity”的语义角色关系是“ThemeOf”,因为发生该抑制活性的主体是“DAX1”基因
4、由“repressor activity” 指向第一个“loss”的语义角色关系是“ThemeOf”,因为DAX1基因抑制活动的丧失事件的主体是抑制活动“repressor activity”
5、由“leydig cell responsiveness”指向第二个“loss”的语义角色关系是“ThemeOf”,因为间质细胞反应性的丧失事件的主体是“leydig cell responsiveness”
6、由第一个“loss”指向第二个“loss”的语义角色关系是“CauseOf”,因为DAX1基因抑制活动的丧失导致了间质细胞反应性的丧失

任务三:
例句1:Mutations in SHP-2 phosphatase that cause hyperactivation of its catalytic activity have been identified in human leukemias, particularly juvenile myelomonocytic leukemia.
从生物学的观点来看,催化活性的过度激活(hyperactivation of its catalytic activity)显然是功能获得的一种描述。因此,这句话承载着明确的语义信息,即基因“SHP-2”在突变后发挥着与“少年粒细胞白血病”( juvenile myelomonocytic leukemia)相关的“GOF”功能。因此任务三从这个句子中提取出的三元组就是“SHP-2; GOF; juvenile myelomonocytic leukemia


例句2:Lynch syndrome (LS) caused by mutations in DNA mismatch repair genes MLH1.
这句话描述了疾病“Lynch syndrome”与基因“MLH1”之间的关联,但短语“caused by”意味着没有损失或获得,因此这句话中的三元组应该是“MLH1; REG; Lynch syndrome”。


例句3:Here, we describe a fourth case of a human with a de novo KCNJ6 (GIRK2) mutation, who presented with clinical findings of severe hyperkinetic movement disorder and developmental delay. Heterologous expression of the mutant GIRK2 channel alone produced an aberrant basal inward current that lacked G protein activation, lost K+ selectivity and gained Ca2+ permeability.
“失去K+选择性,获得Ca2+渗透性”( lost K+ selectivity and gained Ca2+ permeability)的描述同时显示了LOF和GOF,因此功能变化不能标记为LOF或GOF,而是标记为COM,因此这句话中的三元组应该是“GIRK2; COM; hyperkinetic movement disorder

评估方法

评估指标:

Precision,Recall,F-score

结果提交邮箱:

ouyangsizhuo@foxmail.com

结果提交格式:

任务一:参赛者请提交包含触发词实体识别结果的JSON文件,格式与数据样例保持一致
任务二:参赛者请提交包含语义角色标注结果的JSON文件,格式与数据样例保持一致
任务三:参赛者请提交包含“基因,调控类型,疾病”三元组抽取结果的TXT文件,每行报告一个三元组结果,格式如:“25805808; SHROOM3; LOF; Neural tube defects”,其中“25805808”为该三元组来源文献的PMID

参赛规则

报名方式:以CHIP评测主办方官方报名渠道为准
联系邮箱:ouyangsizhuo@foxmail.com
注意,以下通用规则适用于本评测任务。在此基础上,参赛选手还需遵循具体大赛的特有规则。如有冲突,以后者为准。
1. 参赛选手需要提交“参赛队名,队长信息(姓名,邮箱,联系电话),参赛单位名称”等信息,报名方式见下文。
2. 报名截止到测试数据集发布,在测试数据集发布之后,未报名的选手/队伍不能再报名或提交。
3. 每支队伍需指定一名队长,队伍名称不超过15个字符,队伍成员不超过4人。
4. 每名选手只能参加一支队伍,一旦发现某选手以注册多个账号的方式参加多支队伍,将取消所有相关队伍的参赛资格。
5. 允许使用公开和选手个人/组织内部的代码、工具、数据,但需要保证参赛结果可以复现。
6. 针对测试集,选手不允许执行任何人工标注。
7. 参赛选手最终需要提交可运行的代码和方法描述文档,若在排行榜上的结果无法复现,将取消参赛资格。
8. 欢迎国内外在校生及社会在职人士参加。比赛组织方成员不可参赛。

评测时间安排

  • 报名时间:2022年6月1日-10月15日
  • 训练及验证数据发布:7月1号(250条) 训练数据下载
  • 测试数据发布:8月25号(2000条)
  • 提交测试结果:8月26-28号(每天可提交一次,以零点后第一次提交的结果为准,取三天内最高成绩,数据格式为数据样例一样的JSON格式)
  • 评测论文提交时间:2022年10月(CHIP会议前1个月)
  • 评测报告及颁奖:2022年11月24日
  • 评测学术委员会评测论文审阅:2022年12月
  • 评测论文修回:2022年12月(2周修改周期)
  • 评测论文集中投稿:2023年1月-

附属说明材料

1、往年AGAC比赛网站:https://sites.google.com/view/bionlp-ost19-agac-track
比赛结果:
Task1:

参赛者 Precision Recall F-score 主要的NLP方法
1st 参赛者1 0.63 0.56 0.60 Bert, joint learning
* Baseline 0.50 0.51 0.50 Bert, joint learning
2nd 参赛者2 0.36 0.59 0.45 Bert, CNN, Bi-LSTM
3rd 参赛者3 0.55 0.28 0.37 CRF, Bi-LSTM


上表显示的是任务一最终的比赛结果,第一组参赛者使用的是“JFB-NER”模型,这是一个参数微调bioBert的联合学习模型。第二组参赛者使用了一个分层多任务学习模型来进行命名实体识别和关系提取。第三组参赛者使用了具有语言特征的Bi-LSTM CRF,并在3个数据拆分上集成3个最佳模型。

Task2:

参赛者 Precision Recall F-score 主要的NLP方法
1st 参赛者1 0.40 0.31 0.35 Bert, CNN, Bi-LSTM
2nd 参赛者2 0.61 0.16 0.25 Bert, joint learning
3rd 参赛者3 0.05 0.02 0.03 SVM


任务二的比赛结果如上表,第一组参赛者使用了一个分层多任务学习模型,在关系提取部分,该模型与任务一命名实体识别部分具有相同的编码层。第二组参赛者使用了一个简单的微调bioBert,称为“SB-RE”。第三组参赛者将任务二转换为分类模型,使用传统的支持向量机,得到的F值为0.03.

Task3:

参赛者 Precision Recall F-score 主要的NLP方法
* Baseline 0.72 0.59 0.65 Bert, joint learning
L 参赛者1 0.26 0.20 0.23 Bert


在任务三中有只有一组参赛者,使用的是Bert模型提取三元组,将提及到的文本及其文本上下文编码为两个连续的序列,然后使用单个线性层将它们的关系分为五个类别。

更多比赛结果见已发表文献:
Yuxing Wang, Kaiyin Zhou, Mina Gachloo, Jingbo Xia*. An Overview of the Active Gene Annotation Corpus and the BioNLP OST 2019 AGAC Track Tasks. BioNLP Open Shared Task 2019, workshop in EMNLP-IJCNLP 2019. Page: 62-71, Hong Kong, 2019


2、AGAC语料库标注指南说明


Image

AGAC语料库设计了5个语义触发标签和3个根调控触发标签作为分子水平和细胞水平的生物实体标注,重点关注基因突变导致的生物过程中功能变化的信息,上图说明了对生物活动给不同标注的依据。

更具体的标注指南说明见:
Yuxing Wang, Xinzhi Yao, Kaiyin Zhou, Xuan Qin, Jin-Dong Kim, Kevin Bretonnel Cohen, Jingbo Xia*. Guideline Design of an Active Gene Annotation Corpus for the Purpose of Drug Repurposing. 2018 11th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI 2018), pp:1-5, Oct, 2018, Beijing


3、AGAC在知识发现的应用
抗癫痫药物发现

Image

上图是“地塞米松”药物发现过程的流程图,通过文本挖掘完全发现了突变DAX1的LOF功能变化,且没有任何给定药物的先验信息,任何针对DAX1的匹配药物的发现都是有价值的。为了验证这一点,于是在DrugBank中搜索DAX1的靶向信息,发现了一种名为“地塞米松”的药物,它不仅是一种激动剂,而且靶向DAX1。

更多AGAC在抗癫痫药物中的应用见已发表文献:
Yuxing Wang, Kaiyin Zhou, Jin-Dong Kim, Kevin Cohen, Mina Gachloo, Yuxin Ren, Shanghui Nie, Xuan Qin, Panzhong Lu, Jingbo Xia*. An Active Gene Annotation Corpus and Its Application on Anti-epilepsy Drug Discovery. BIBM 2019: International Conference on Bioinformatics & Biomedicine. Page: 512-519, San Diego, U.S, Nov, 2019.


4、更多AGAC相关信息请点击门户页面:https://hzaubionlp.com/agac/

Loading...