2024年4月28日发(作者:公羊良骏)
第
35
卷第
3
期
中文信息学报
JOURNAL
Vol. 35, No. 3
Mar.,2021
2021
年
3
月
OF
CHINESE
INFORMATION
PROCESSING
文章编号:
1003-0077(2021)03-0094-06
CH
1
P
2019评测任务1概述:临床术语标准化任务
黄源航
1
,焦晓康
2
,汤步洲
1>3,
陈清财
“3,
闫峻
2
(1.
哈尔滨工业大学计算机科学与技术学院,广东深圳
518055;
2.
医渡云(北京)技术冇限公司,北京
100191; 3.
鹏城实验室,广东深圳
518055)
摘要:第
五届中国健康信息处理会议
(China Conference on Health Information Processing
,
CHIP2019)
组织了中
文临床医疗信息处理方面的三个评测任务,其中任务1为临床术语标准化任务。该任务的主要目标是对中文电子
病历中挖掘出的真实手术实体进行语义标准化。评测数据集中所有手术原词均来自于真实医疗数据,并以《
ICD9-
2017
协和临床版》手术词表为标准进行了标注。共有
56
支队伍报名参加了评测,最终有
20
支队伍提交了
47
组结
果。该评测以准确率作为最终评估标准,提交结果中最高准确率达到
94.83
%。
关键词:中国健康信息处理会议;临床术语标准化;自然语言处理
中图分类号:
TP391
文献标识码:
A
Overview of the CHIP2019 Shared Task I rackl
:
Normalization
of Chinese Clinical Terminology
HUANG
Yuanhang〗,JIAO
Xiaokang2,TANG
Buzhou
丨
s,CHEN
Qingcai
丨
3,YAN
Jim
2,
(1. School of Computer Science and Technology,
Shenzhen. Guangdong 518055
Harbin Institute of Technology»
,
China; 2. Yidu Cloud (Beijing) Technology Co.
,
Ltd.
Beijing 100191, China
;
3. Peng Cheng Laboratory. Shenzhen. Guangdong 518055, China)
Abstract
:
The 5th China Conference on Health Information Processing held a shared task including three tracks on
ChinevSe clinical medical information processing. The first track is normalization of Chinese clinical terminology that
assigns standard terminologies to surgical entities extracted from Chinese electronic medical records. All surgical en
tities in the Trackl dataset were collected from real medical data and annotated with standard surgical terminologies
of "IC'D9-2017 Clinical Edition". A total of 56 teams signed up for the track* and eventually 20 teams submitted 47
system runs. Accuracy is used to measure the performances of all systems, and the highest accuracy of all submitted
system runs reached 0.9483.
Keywords
:
China Conference on
ral language processing
Health Information Processing
;
normalization of Chinese clinical terminology
;
natu
临床上,由于医疗人员的记录风格存在差异.关
()引言
随着信息技术的快速发展,计算机技术在医疗
领域得到了广泛的应用。如何利用计算机相关技术
处理海量的临床医疗数据是诸多学者一直在研究的
热点问题。其中,临床术语标准化是临床医疗信息
处理领域的一个重要研究方向。
于同一种诊断、手术、药品、检查、化验、症状等往往
会有成百上千种不同的写法。比如,在中文临床医
疗文本中,“先天性脊柱侧弯”可以表述为“先天性脊
柱侧凸也可以表述为“先天性脊柱侧弯畸形”;在
英文临床医疗文本中,
“heart
attack
”"
MI
”
和
“
myo
-
cardial
infarction
”
都可以代表“心肌梗塞”的含义。
临床术语标准化就是要为临床上各种不同表述找到
收稿日期:
2020-06-15
定稿日期:
2020-08-21
基金项目:国家自然科学基金
(61876052);
国家自然科学联合重点基金(
U1813215);
广东省自然科学基金(
2020KZDZX1222);
深圳市
基础研究项目(
JCY_|20067)
3期
黄源航等:
CHIP
2019评测任务1概述:临床术语标准化任务
95
对应的标准表述。有了术语标准化的基础,研究人
员才可以对临床医疗文本进行后续的统计分析。目
前部分医疗机构采用人
T
方式将临床术语手动规范
化为标准术语,但是由于临床术语专业性较强,并且
表述方式过于多样,这种方式对工作人员专业知识
要求较高,所需人力成本巨大,得到的标准化结果也
往往不够准确。
第五届中国健康信息处理会议(
CH
1
P
2019)组
织了与中文临床医疗信息处理相关的三项评测任
务,其中评测任务1为临床术语标准化任务。该评
测任务鼓励参赛者使用计算机技术对中文电子病历
中挖掘出的真实手术实体进行语义标准化.即给定
一手术原词,将其自动映射为手术词表中对应的手
术标准词。本次评测数据集由医渡云(北京)技术有
限公司提供,其中的手术原词全部来自真实医疗数
据。训练数据由专业人员依据《
ICD
9-2017协和临
床版》手术词表对手术原词进行了人工标注,将手术
原词手动映射为手术词表里的手术标准词,标注样
例如表1所示,其中多个标准词用分隔。参
赛队伍需要构建系统将测试数据中的手术原同映射
到给定手术词表里的手术标准词。本次评测以准确
率(
accuracy
)作为评估指标。最终,排名第一的参
赛队伍提交结果的准确率为94.83%。本文将对此
次评测任务中的数据、各支队伍的提交结果以及评
价指标进行分析和总结。
表
I CHIP2H19
评测任务丨标注数据样例
原始词标准词
横结肠造口还纳术
横结肠造口闭合术
右肾上腺巨大肿瘤切除术肾上腺病损切除术
左侧单侧乳房根治性切
除术
单侧根治性乳房切除术
经皮三叉神经半月节射
频热凝术
三叉神经半月节射频热凝术
右肾探查.右肾根治术
肾探查术
:^
#单侧科切除术
1
相关工作
临床术语表述方式的不统一给医疗信息的整
合、交换和共享等工作带来了诸多障碍。因此,开展
临床术语标准化的相关研究有助于推动医疗领域数
字化、信息化建设,实现高效率的全社会医疗资源共
享。国外对于临床医学术语标准化的探索起步较
早,目前已经做了许多研究工作。
MetaMap
是美国
国立医学图书馆建立的一个实现生物医学文本到一
体化医学语言系统
(unified
medical
language
system
,
UMLS
)概念映射的在线工具,它能标记出生物医学
文本所包含的
UMLS
超级叙词表(
Metathesaurus
)
中的医学概念
。Aronson
1对
MetaMap
的文本映射
基本原理进行了描述,即对于医疗文本,
MetaMap
使
用基于规则的方法,通过计算文本中的名词短语与
检索
Metathesaurus
得到的候选词之间的匹配程度
来查找并返回与此文本相关的
Metathesaurus
概
念。然而,这种简单的字符串匹配方法对数据要求
较高,泛化能力不强。
Leaman
等人2]提出了一个
利用机器学习方法对医疗文本中的疾病名称进行标
准化的模型
I
)
Norm
。
DNorm
模型使用机器学习中
的文档对排序学习
(pairwise
learning
to
rank
)技术
对文本中发现的疾病名称和知识库中的实体概念进
行相似度打分并排序,最终返回分数最高的候选概
念或能够在词表中完全匹配的候选概念作为疾病名
称标准化后的标准概念。
DNorm
当时在公开数据
集
NCBI
上达到了最好的效果,但该模型在计算相
似度时并没有深人挖掘文本中所包含的语义信息。
随着深度学习技术的发展和计算性能的大幅提升,
神经网络被广泛应用于医疗信息处理领域。
Lim
-
sopatham
和
Collier
」提出使用卷积神经网络(
cron
-
volutional
neural
network
,
CNN
)或者长短期记忆
网络
"」(long
short-term
memory
,
LSTM
)对社交媒
体中的文本进行编码,把每个医学概念看作一个类
别,将编码后的文本表示经过分类器映射到对应的
医学概念上。这是深度学习技术首次被应用到医学
术语标准化任务中,相比传统的字符串匹配或者机
器学习方法,深度学习技术能够更好地利用文本中
所包含的语义信息。近些年来,国际上组织了多个
与临床术语标准化相关的评测任务.比如
CLEF
(Conference
and
Labs
of
the
Evaluation
Forum
)
eHealth
2017
[s]、eHealth
2018[6]和
eHealth
2019[7
中的多语言信息抽取任务.
SMM
4
H
(
social
media
mining
for
health
^
OlQ
-1'中的药物副作用抽取以及
标准化任务•
BioNLP(Biomedical
Natural
Language
Processing
Workshop
)2019_:‘中的药品和化学实体
标准化子任务。
由于我国医疗信息化发展进程相对滞后,且医
疗术语相关编码体系建设起步较晚.目前国内关于
中文临床术语标准化开展的研究较少。
CHIP
2019
96
中文信息学报
2021 年
评测任务1是国内首个聚焦于中文临床术语标准
化
T
.作的评测.旨在利用前沿的深度学习和白然
语言处理技术,推动临床术语标准化的相关研究
工作。
原词以《
ICD
9-2017协和临床版》手术词表为标准
进行了标注,形成 < 原始词.标准词 > 对。《丨
C
D
9 —
2017协和临床版》手术词表为层级结构,层级越
深,标准词表述越具体,因此对于手术原词.标注原
则为尽量查找层级深的标准丨司.无法准确对应标准
词时再查找上级标准同。
测试集中包含了 2 000条手术原词.要求参赛
者给出其对应的手术标准词。表2展示了评测数据
集的具体统计信息。除了训练集、验证集和测试集.
此次评测还提供了《
1CD9-2017
协和临床版》手术词
表,里面包含了
9 867
个手术标准词。
2
评测数据
CHIP
2019评测任务1数据集中包含的所有手
术原词均是来自三甲医院的真实医疗数据,由医渡
云(北京)技术有限公司提供。训练集和验证集中分
别包含了 4 000条和1 000条手术原词,对每条手术
表
2 CHIP2019
评
训练集
测任务
1
数据集统计信息
验证集测试集手术词表
数据量
最大手术原词长度
最小手术原词长度
平均手术原词长度
手术原词对应最多标准词个数
手术原词对应最少标准词个数
手术原词对应平均标准词个数
最大手术标准词长度
最小手术标准词长度
平均手术标准词长度
4 000
122
2
12.36
7
1
1.07
24
3
9.14
1 000
102
2
12.34
4
1
1.06
24
4
9.24
2 000
80
3
12.35
5
1
1.06
27
3
9.16
37
1
9.16
训练集、验证集和测试集的数据分布基本保持
一致。长度不超过20的手术原词在训练集中占比
约为94%,在验证集和测试集中将近95%,可以看
出此次评测数据集中的手术原词均为短文本。由于
训练集、验证集和测试集里面出现的手术标准词均
来自《
ICD
9-2017协和临床版》手术词表,因此手术
标准词长度分布和手术词表基本一致。由于数据集
中的每条手术原词可能对应多个手术标准词,如手
0
9
8
7
o
o
o
o
o
o
o
o
o
5
4
3
术原词“经皮肾镜碎石取石术(左侧)”对应的手术标
准词为“经皮肾镜碎石术(
PCNL
)’’和“经皮肾镜取
石术”。这也是本次评测任务的难点之一。在训练
集、验证集和测试集中,只对应一个手术标准词的手
术原词占比大约为95%,即大部分手术原词对应单
个标准同。关于数据集中手术原词对应手术标准词
个数的具体统计信息如图1所示。
6
2
'
-
毎条手术原词对应手术标准词个数
■训练集〇验证集□测试集
图
1 CHIP2019
评测任务
1
手术原词对应标准词个数统汁信息
3期
黄源航等:
CHIP
2019评测任务1概述:临床术语标准化任务
97
个手术标准词完全匹配,否则不属于交集。
3
评估指标
4
CHIP
评测结果
2019评测任务规定每支参赛队伍最多
2019评测任务1以准确率(
accuracy
,
A
)
CHIP
作为最终评估标准。本任务中,准确率定义:给出
正确的手术原词加手术标准同的组合除以待预测手
术原词的总数。具体计算如式(1)所示。
提交三份结果,取准确率最高值作为该支队伍的
最终结果。本次评测共收到了 47份提交结果,其
A =
丄土
; ^-'-n —
Nfti
max(| P, | , | G, |)
(i)
中准确率最高为94.83%.最低为35.11%,平均值为
79. 75%。表3为对评测任务1排名前十参赛队伍
系统的简要描述,包括所使用的技术方法简述以及
是否使用外部资源(此评测任务允许使用公开数据
资源和选手个人/组织的内部资源,不允许执行任何
人工标注)。
对于测试集中的第/条手术原词,预测出的手
术标准词集合为
P
,,真实对应的手术标准词集合为
G
, ,
N
是测试集中手术原词的个数。需要说明的
是,计算
P
,和
G
,的交集时.遵循严格匹配原则.即
预测出的手术标准词必须与手术原词真实对应的某
表
3
排名队伍名
CH1P2(U9
评测任务丨排名前十队伍系统信息
技术方法简述
外部资源
应用深度学习模型
BERT
。术语归一化模块采用深度学习模型
BERT
打分;数
1YZS-cwf1
预测模块采用深度学习模型
BERT
做多标签分类。根据数
M
预测模块的结
果,取
top
々个标准名称作为输出
IR+ Kerank
的
pipeline. IR
使用的是
Lucene
工具,
Rerank
部分使用的是基于
BERT-bae^Cliinese
的简单
MLP
网络
使用深度学习方法进行词条标准化。具体为:①利用
Transformer
网络结构,
对给定的训练数据
+
标准词表进行端到端的翻译模型训练(共训练字到字、字
到词、同到词三种);②利用给定的训练数据对中文
BERT
预训练模型进行
fi_
无
2
ALBB-cms
无
3ZKYF-xl
netime
,训练出相似度打分模型;③对于给定的待标准化原词,首先利用步骤①
中训练的
5
种端到端翻译模型分别进行标准词以及其所隶属类别的输出,然后
利用输出结果结合文本相似度算法
MetricLCS
在标准词库中进行相似词候选
集筛选,最后将筛选出的候选集交由步骤②训练的相似度打分模型进行重打
分,选出得分最高词作为最终标准词进行输出
无
4DLLGDX-syj
用简单的相似度计算方法挑选候选词
.
使用
BERT
中文模型进行相似度计算
.
结合了人工规则对多标签数据进行处理
首先依据训练集和手术词表建立标准词到手术原词的映射表,依据映射表进行
无
5XHYXY-yfh
采样用于训练
BERT
模型;预测时,计算测试集手术原词与映射表手术原词的
相似度,排序取
top5
。然后,利用
BERT
模型判断
t
〇
P5
对中两个手术原词的标
签是否为
1
,为
1
则取映射表手术原词对应的标准词为最终答案返回
①把整个问题看作是
Seq2Seq
的类似问题,然后借鉴
VAE
的思想对模型的隐
无
6
GR-hwj
层进行
finetime
,训练得到一个模型;②把它看成一个分类问题,将手术词表中
所有标准词构建成一个对应标签的数据点进行数据增强,然后构建一个分类模
型
BERT+LSTM
;③将上述两个模塑的结果进行简单的线性组合
基于
n-gram
相似度等规则匹配方法筛选训练样本,使用
BERT
网络进行训练,
使用了
5
折交叉验证方法,最终使用
5
个模型的平均分数
无
7
8
SRBL-plb
SXDX-djj
无
无
Seq2Seq + attention +
后处理(如果输入在手术词表中,则跳过预测)
综合了特征分析、编辑距离、同义词词典和文本相似度的语义相似度算法。(外
部资源为中文医学主题词表
CMeSH
、中文一体化医学语言系统
CUMLS
、
9YXKXY-lxy
有
1CD9CM
英文版。)
10
YXKXY-zwq
使用相似度
+ BERT,
用
bert as service
生成原始词的句向量,计算相似度四配
无
98
中文信息学报
2021 年
可以看出,本次评测排名前十的大部分参赛队伍
都使用了预训练语言模型
BERT
°°] (
bidirectional
encoder
representation
from
transformers
),证明了
利用大规模语料进行预训练得到的语言模型在自然
语言处理领域的有效性。除了 “
G
R
-
h
wj
”和“
SXDX
-
djj
”两支队伍.其余八支队伍均将标准化任务当成
了文本相似度任务进行处理。本质上.临床术语标
准化任务是语义相似度匹配任务的一种。但是由于
原词表述方式过于多样,并且标准词词表通常规模
较大,单一的匹配模型很难获得很好的效果。部分
队伍除了文本匹配模块,还加入了筛选匹配候选同
模块,即通过相似度丨十算等手段为每个手术原词筛
选若干手术标准词作为匹配候选,再将 < 手术原词,
手术标准词 > 对输人到文本匹配模型进行关系判
断。相似度计算是较为常见的筛选候选方法,
“
YZS
-
cwf
”采用多标签分类模型获取匹配候选;
“
ALBB
-
cms
”引人信息检索技术,使用检索工具
Lucene
得到匹配候选;“
ZKYF
-
xl
”借鉴了生成模型
的思想,利用
Transformer
训练了端到端的翻译
模型辅助相似度计算。“
GR-hwj
”将临床术语标准
化任务分别当作生成问题和分类问题进行处理,融
合了生成模型和分类模型的结果。“
SXDX
-
d
^”则
完全将临床术语标准化任务当作生成问题,以
Seq
2
Se
q[ 12模型为基础构建系统进行标准词预测。
测试集中一共有2 000条手术原词,其中1 901
条手术原词对应单个手术标准词,99条手术原词对
应多个手术标准词。表4是评测任务1排名前十队
伍的系统在测试集上的评估结果,每列结果最高数
值已加粗表示。其中“
Acc
”为在测试集整体2 000
条数据集上计算的准确率结果,“
A
c
c
-
s
i
n
g
1
e
”为在测
试集中对应单个手术标准词的1 901条手术原词上
计算的准确率结果。“
Acc
-
multiple
”则是在测试集
中对应多个手术标准词的99条手术原词上计算的
准确率结果。可以看出:此次评测排名前十队伍对
于单个手术标准词的预测准确率较高.前五支队伍
均接近0.9或者达到0.9以上,前十队伍中“
Acc
-
single
”最高值与最低值之差为0. 217 0。对于对应
多个手术标准词的情况,前十队伍系统预测结果比
对应的单个手术标准词差,最高值为0.888 9.最低
值为0.491 3,二者相差0.3976,说明各支队伍系统
在预测多个手术标准词时性能差异相对较大。
针对测试集中的2 000条手术原词,其中前十
支队伍均没有预测正确的手术原词
,一
共有52条,
可以将这些手术原同看作系统普遍预测错误的数据
样例。通过分析这些数据样例,发现不易准确预测
的手术原词可以主要归为以下三类:
(1) 手术原词对应多个手术标准词,这与上文
展示的各支队伍对于多标准同的预测结果相符。
(2) 手术原词对应的标准词在训练集出现次数
很少甚至没有出现过,这给模型的训练增加了难度,
模型无法准确地学习到这些标准词的相关信息。
(3) 手术原词对应的手术标准词在手术同表中
有相似的标准词,模型在预测时难以有效地分辨这
些相似标准词的区别。
表
4 CH1P2019
评测任务
I
排名前十队伍系统评估结果
排名队伍名
AccAcc-single
Acc-multiple
1YZS-cwf0.948 30.951 30.888 9
2ALBB-cms0.927 2
0.938 80.703 6
3ZKYF-xl0.913 40.927 90.634 7
4DLLGDX-syj0.888 50.902 2
0.627 1
5XHYXY-yfh0.885 20.896 90.660 3
6GR-hwj
0.849 4
0.865 90.532 5
7
SRBL-plb0.841 80.864 30.409 4
8SXDX-djj0.827 70.847 70.443 1
9
YXKXY-lxy0.775 80.786 2
0.577 3
10
YXKXY-zwq
0.722 20.734 30.491 3
5
结语
临床术语标准化是医疗信息处理领域中的一个
重要研究方向。在如今互联网、大数据迅速发展的
时代背景下,术语标准化有助于整合和利用规模庞
大的、分散的、非结构化的医疗信息数据。随着人工
智能的兴起,自然语言处理相关技术的应用逐渐渗
透到医疗领域。如何利用自然语言处理等深度学习
技术处理临床术语标准化问题.是
CH
1
P
2019评测
任务1关注的重点。
本文是对
CH
1
P
2019评测任务1的简要概述。
本次评测吸引了来自企业、高校和研究机构的56支
队伍报名参加,一共接收了 47组结果,最高准确率
达到了 94.83%。参赛队伍大多数以预训练语言模
型
BERT
为基础构造了系统。相比于未引人预训
练模型的系统,这些以预训练语言模型为基础的系
统取得了较好的标准化效果。大多数系统对于对应
3期
黄源航等:
CHIP
2019评测任务1概述:临床术语标准化任务
99
单标准词的手术原词预测效果较好,对于对应多标
准词的手术原词预测效果相对较差。通过分析预测
错误的数据,总结了出错的主要类型,这是临床术语
标准化任务的主要难点,也是未来研究工作中应该
关注的重点。
参考文献
[1 ] Aronson A R. Effective mapping of biomedical text to
the UMLS Metathesaurus
:
the MetaMap program
[C]//Proceedings of the American Medical Informat
ics Association Symposium» 2001
:
17-21.
[2] Leaman R. Islamaj Dogan R« Lu Z. DNorm
:
Disease
name normalization with pairwise learning to rank[J].
Bioinformatics
,
2013
,
29(22): 2909-2917.
[3] Limsopatham N» Collier N. Normalising medical con
cepts in social media texts by learning semantic repre-
sentation[C]//Proceedings of the 54th Annual Meet
ing of the Association for Computational Linguistics
,
2016
:
1014-1023.
[4] Hochreiter S» Schmidhuber J. Long short-term memo-
ry[J]. Neural Computation
,
1997
,
9(8): 1735-1780.
[5] Neveol A, Robert A, Anderson R. et al. CLEF
eHealth 2017 multilingual information extraction task
overview
:
ICD10 coding of death certificates in English
and French[C]//Proceedings of the Workshop of the
Cross Language Evaluation Forum, 2017
:
1-17.
[6] Neveol A,Robert A,Grippo F,et al. CLEF eHealth
2018 multilingual information extraction task over
view
:
ICD10 coding of death certificates in French»
Hungarian and Italian[C]//Proceedings of the Work
黄源航(
1993—
),硕士研究生,主要研究领域为
自然语言处理。
:
18S051003@
汤步洲
(1984 —
通信作者,博士,副教授•博士
生导师,主要研究领域为人工智能,自然语言处
理,医学信息学。
:
tangbuzhou@
shop of the Cross Language Evaluation Forum. 2018
:
1-18.
[7] Dorendahl A,Leich N,Hummel B,et al. Overview of
the CLEF eHealth 2019 multilingual information ex
traction [C ]//Proceedings of the Workshop of the
Cross Language Evaluation Forum. 2019
:
1-9.
[8] Weissenbacher D. Sarker A. Magge A» et al. Over
view of the fourth social media mining for health
(SMM4H) shared tasks at ACL 2019 [C]//Proceed-
ings of the 4th Social Media Mining for Health Appli
cations (# SMM4H) Workshop 8>- Shared Task*
2019
:
21-30.
[9] Agirre A G» Marimon M, intxaurrondo A» et al.
Pharmaconer
:
Pharmacological substances* com
pounds and proteins named entity recognition track
[C]//Proceedings of the 5th Workshop on BioNLP
Open Shared Tasks, 2019
:
1-10.
[10] Devlin J» Chang M W, Lee K. et al. BERT
:
Pre
training of deep bidirectional transformers for lan
guage understanding[C]//Proceedings of the Confer
ence of the North American Chapter of the Associa
tion for Computational Linguistics^ 2019
:
4171-4186.
[11] Vaswani A,Shazeer N,Parmar N,et al. Attention is
all you need[C]//Proceedings of the 31st Internation
al Conference on Neural Information Processing Sys-
tems
,
2017: 5998-6008.
[12] Sutskever I,Vinyals (),Le Q V. Sequence to se
quence learning with neural networks [C]//Proceed-
ings of the 27th International Conference on Neural
Information Processing Systems» 2014» 27
:
3104-
3112.
焦晓康(
1992 )
,硕士研究生,主要研究领域为
医疗文本的自然语言处理。
:
@
2024年4月28日发(作者:公羊良骏)
第
35
卷第
3
期
中文信息学报
JOURNAL
Vol. 35, No. 3
Mar.,2021
2021
年
3
月
OF
CHINESE
INFORMATION
PROCESSING
文章编号:
1003-0077(2021)03-0094-06
CH
1
P
2019评测任务1概述:临床术语标准化任务
黄源航
1
,焦晓康
2
,汤步洲
1>3,
陈清财
“3,
闫峻
2
(1.
哈尔滨工业大学计算机科学与技术学院,广东深圳
518055;
2.
医渡云(北京)技术冇限公司,北京
100191; 3.
鹏城实验室,广东深圳
518055)
摘要:第
五届中国健康信息处理会议
(China Conference on Health Information Processing
,
CHIP2019)
组织了中
文临床医疗信息处理方面的三个评测任务,其中任务1为临床术语标准化任务。该任务的主要目标是对中文电子
病历中挖掘出的真实手术实体进行语义标准化。评测数据集中所有手术原词均来自于真实医疗数据,并以《
ICD9-
2017
协和临床版》手术词表为标准进行了标注。共有
56
支队伍报名参加了评测,最终有
20
支队伍提交了
47
组结
果。该评测以准确率作为最终评估标准,提交结果中最高准确率达到
94.83
%。
关键词:中国健康信息处理会议;临床术语标准化;自然语言处理
中图分类号:
TP391
文献标识码:
A
Overview of the CHIP2019 Shared Task I rackl
:
Normalization
of Chinese Clinical Terminology
HUANG
Yuanhang〗,JIAO
Xiaokang2,TANG
Buzhou
丨
s,CHEN
Qingcai
丨
3,YAN
Jim
2,
(1. School of Computer Science and Technology,
Shenzhen. Guangdong 518055
Harbin Institute of Technology»
,
China; 2. Yidu Cloud (Beijing) Technology Co.
,
Ltd.
Beijing 100191, China
;
3. Peng Cheng Laboratory. Shenzhen. Guangdong 518055, China)
Abstract
:
The 5th China Conference on Health Information Processing held a shared task including three tracks on
ChinevSe clinical medical information processing. The first track is normalization of Chinese clinical terminology that
assigns standard terminologies to surgical entities extracted from Chinese electronic medical records. All surgical en
tities in the Trackl dataset were collected from real medical data and annotated with standard surgical terminologies
of "IC'D9-2017 Clinical Edition". A total of 56 teams signed up for the track* and eventually 20 teams submitted 47
system runs. Accuracy is used to measure the performances of all systems, and the highest accuracy of all submitted
system runs reached 0.9483.
Keywords
:
China Conference on
ral language processing
Health Information Processing
;
normalization of Chinese clinical terminology
;
natu
临床上,由于医疗人员的记录风格存在差异.关
()引言
随着信息技术的快速发展,计算机技术在医疗
领域得到了广泛的应用。如何利用计算机相关技术
处理海量的临床医疗数据是诸多学者一直在研究的
热点问题。其中,临床术语标准化是临床医疗信息
处理领域的一个重要研究方向。
于同一种诊断、手术、药品、检查、化验、症状等往往
会有成百上千种不同的写法。比如,在中文临床医
疗文本中,“先天性脊柱侧弯”可以表述为“先天性脊
柱侧凸也可以表述为“先天性脊柱侧弯畸形”;在
英文临床医疗文本中,
“heart
attack
”"
MI
”
和
“
myo
-
cardial
infarction
”
都可以代表“心肌梗塞”的含义。
临床术语标准化就是要为临床上各种不同表述找到
收稿日期:
2020-06-15
定稿日期:
2020-08-21
基金项目:国家自然科学基金
(61876052);
国家自然科学联合重点基金(
U1813215);
广东省自然科学基金(
2020KZDZX1222);
深圳市
基础研究项目(
JCY_|20067)
3期
黄源航等:
CHIP
2019评测任务1概述:临床术语标准化任务
95
对应的标准表述。有了术语标准化的基础,研究人
员才可以对临床医疗文本进行后续的统计分析。目
前部分医疗机构采用人
T
方式将临床术语手动规范
化为标准术语,但是由于临床术语专业性较强,并且
表述方式过于多样,这种方式对工作人员专业知识
要求较高,所需人力成本巨大,得到的标准化结果也
往往不够准确。
第五届中国健康信息处理会议(
CH
1
P
2019)组
织了与中文临床医疗信息处理相关的三项评测任
务,其中评测任务1为临床术语标准化任务。该评
测任务鼓励参赛者使用计算机技术对中文电子病历
中挖掘出的真实手术实体进行语义标准化.即给定
一手术原词,将其自动映射为手术词表中对应的手
术标准词。本次评测数据集由医渡云(北京)技术有
限公司提供,其中的手术原词全部来自真实医疗数
据。训练数据由专业人员依据《
ICD
9-2017协和临
床版》手术词表对手术原词进行了人工标注,将手术
原词手动映射为手术词表里的手术标准词,标注样
例如表1所示,其中多个标准词用分隔。参
赛队伍需要构建系统将测试数据中的手术原同映射
到给定手术词表里的手术标准词。本次评测以准确
率(
accuracy
)作为评估指标。最终,排名第一的参
赛队伍提交结果的准确率为94.83%。本文将对此
次评测任务中的数据、各支队伍的提交结果以及评
价指标进行分析和总结。
表
I CHIP2H19
评测任务丨标注数据样例
原始词标准词
横结肠造口还纳术
横结肠造口闭合术
右肾上腺巨大肿瘤切除术肾上腺病损切除术
左侧单侧乳房根治性切
除术
单侧根治性乳房切除术
经皮三叉神经半月节射
频热凝术
三叉神经半月节射频热凝术
右肾探查.右肾根治术
肾探查术
:^
#单侧科切除术
1
相关工作
临床术语表述方式的不统一给医疗信息的整
合、交换和共享等工作带来了诸多障碍。因此,开展
临床术语标准化的相关研究有助于推动医疗领域数
字化、信息化建设,实现高效率的全社会医疗资源共
享。国外对于临床医学术语标准化的探索起步较
早,目前已经做了许多研究工作。
MetaMap
是美国
国立医学图书馆建立的一个实现生物医学文本到一
体化医学语言系统
(unified
medical
language
system
,
UMLS
)概念映射的在线工具,它能标记出生物医学
文本所包含的
UMLS
超级叙词表(
Metathesaurus
)
中的医学概念
。Aronson
1对
MetaMap
的文本映射
基本原理进行了描述,即对于医疗文本,
MetaMap
使
用基于规则的方法,通过计算文本中的名词短语与
检索
Metathesaurus
得到的候选词之间的匹配程度
来查找并返回与此文本相关的
Metathesaurus
概
念。然而,这种简单的字符串匹配方法对数据要求
较高,泛化能力不强。
Leaman
等人2]提出了一个
利用机器学习方法对医疗文本中的疾病名称进行标
准化的模型
I
)
Norm
。
DNorm
模型使用机器学习中
的文档对排序学习
(pairwise
learning
to
rank
)技术
对文本中发现的疾病名称和知识库中的实体概念进
行相似度打分并排序,最终返回分数最高的候选概
念或能够在词表中完全匹配的候选概念作为疾病名
称标准化后的标准概念。
DNorm
当时在公开数据
集
NCBI
上达到了最好的效果,但该模型在计算相
似度时并没有深人挖掘文本中所包含的语义信息。
随着深度学习技术的发展和计算性能的大幅提升,
神经网络被广泛应用于医疗信息处理领域。
Lim
-
sopatham
和
Collier
」提出使用卷积神经网络(
cron
-
volutional
neural
network
,
CNN
)或者长短期记忆
网络
"」(long
short-term
memory
,
LSTM
)对社交媒
体中的文本进行编码,把每个医学概念看作一个类
别,将编码后的文本表示经过分类器映射到对应的
医学概念上。这是深度学习技术首次被应用到医学
术语标准化任务中,相比传统的字符串匹配或者机
器学习方法,深度学习技术能够更好地利用文本中
所包含的语义信息。近些年来,国际上组织了多个
与临床术语标准化相关的评测任务.比如
CLEF
(Conference
and
Labs
of
the
Evaluation
Forum
)
eHealth
2017
[s]、eHealth
2018[6]和
eHealth
2019[7
中的多语言信息抽取任务.
SMM
4
H
(
social
media
mining
for
health
^
OlQ
-1'中的药物副作用抽取以及
标准化任务•
BioNLP(Biomedical
Natural
Language
Processing
Workshop
)2019_:‘中的药品和化学实体
标准化子任务。
由于我国医疗信息化发展进程相对滞后,且医
疗术语相关编码体系建设起步较晚.目前国内关于
中文临床术语标准化开展的研究较少。
CHIP
2019
96
中文信息学报
2021 年
评测任务1是国内首个聚焦于中文临床术语标准
化
T
.作的评测.旨在利用前沿的深度学习和白然
语言处理技术,推动临床术语标准化的相关研究
工作。
原词以《
ICD
9-2017协和临床版》手术词表为标准
进行了标注,形成 < 原始词.标准词 > 对。《丨
C
D
9 —
2017协和临床版》手术词表为层级结构,层级越
深,标准词表述越具体,因此对于手术原词.标注原
则为尽量查找层级深的标准丨司.无法准确对应标准
词时再查找上级标准同。
测试集中包含了 2 000条手术原词.要求参赛
者给出其对应的手术标准词。表2展示了评测数据
集的具体统计信息。除了训练集、验证集和测试集.
此次评测还提供了《
1CD9-2017
协和临床版》手术词
表,里面包含了
9 867
个手术标准词。
2
评测数据
CHIP
2019评测任务1数据集中包含的所有手
术原词均是来自三甲医院的真实医疗数据,由医渡
云(北京)技术有限公司提供。训练集和验证集中分
别包含了 4 000条和1 000条手术原词,对每条手术
表
2 CHIP2019
评
训练集
测任务
1
数据集统计信息
验证集测试集手术词表
数据量
最大手术原词长度
最小手术原词长度
平均手术原词长度
手术原词对应最多标准词个数
手术原词对应最少标准词个数
手术原词对应平均标准词个数
最大手术标准词长度
最小手术标准词长度
平均手术标准词长度
4 000
122
2
12.36
7
1
1.07
24
3
9.14
1 000
102
2
12.34
4
1
1.06
24
4
9.24
2 000
80
3
12.35
5
1
1.06
27
3
9.16
37
1
9.16
训练集、验证集和测试集的数据分布基本保持
一致。长度不超过20的手术原词在训练集中占比
约为94%,在验证集和测试集中将近95%,可以看
出此次评测数据集中的手术原词均为短文本。由于
训练集、验证集和测试集里面出现的手术标准词均
来自《
ICD
9-2017协和临床版》手术词表,因此手术
标准词长度分布和手术词表基本一致。由于数据集
中的每条手术原词可能对应多个手术标准词,如手
0
9
8
7
o
o
o
o
o
o
o
o
o
5
4
3
术原词“经皮肾镜碎石取石术(左侧)”对应的手术标
准词为“经皮肾镜碎石术(
PCNL
)’’和“经皮肾镜取
石术”。这也是本次评测任务的难点之一。在训练
集、验证集和测试集中,只对应一个手术标准词的手
术原词占比大约为95%,即大部分手术原词对应单
个标准同。关于数据集中手术原词对应手术标准词
个数的具体统计信息如图1所示。
6
2
'
-
毎条手术原词对应手术标准词个数
■训练集〇验证集□测试集
图
1 CHIP2019
评测任务
1
手术原词对应标准词个数统汁信息
3期
黄源航等:
CHIP
2019评测任务1概述:临床术语标准化任务
97
个手术标准词完全匹配,否则不属于交集。
3
评估指标
4
CHIP
评测结果
2019评测任务规定每支参赛队伍最多
2019评测任务1以准确率(
accuracy
,
A
)
CHIP
作为最终评估标准。本任务中,准确率定义:给出
正确的手术原词加手术标准同的组合除以待预测手
术原词的总数。具体计算如式(1)所示。
提交三份结果,取准确率最高值作为该支队伍的
最终结果。本次评测共收到了 47份提交结果,其
A =
丄土
; ^-'-n —
Nfti
max(| P, | , | G, |)
(i)
中准确率最高为94.83%.最低为35.11%,平均值为
79. 75%。表3为对评测任务1排名前十参赛队伍
系统的简要描述,包括所使用的技术方法简述以及
是否使用外部资源(此评测任务允许使用公开数据
资源和选手个人/组织的内部资源,不允许执行任何
人工标注)。
对于测试集中的第/条手术原词,预测出的手
术标准词集合为
P
,,真实对应的手术标准词集合为
G
, ,
N
是测试集中手术原词的个数。需要说明的
是,计算
P
,和
G
,的交集时.遵循严格匹配原则.即
预测出的手术标准词必须与手术原词真实对应的某
表
3
排名队伍名
CH1P2(U9
评测任务丨排名前十队伍系统信息
技术方法简述
外部资源
应用深度学习模型
BERT
。术语归一化模块采用深度学习模型
BERT
打分;数
1YZS-cwf1
预测模块采用深度学习模型
BERT
做多标签分类。根据数
M
预测模块的结
果,取
top
々个标准名称作为输出
IR+ Kerank
的
pipeline. IR
使用的是
Lucene
工具,
Rerank
部分使用的是基于
BERT-bae^Cliinese
的简单
MLP
网络
使用深度学习方法进行词条标准化。具体为:①利用
Transformer
网络结构,
对给定的训练数据
+
标准词表进行端到端的翻译模型训练(共训练字到字、字
到词、同到词三种);②利用给定的训练数据对中文
BERT
预训练模型进行
fi_
无
2
ALBB-cms
无
3ZKYF-xl
netime
,训练出相似度打分模型;③对于给定的待标准化原词,首先利用步骤①
中训练的
5
种端到端翻译模型分别进行标准词以及其所隶属类别的输出,然后
利用输出结果结合文本相似度算法
MetricLCS
在标准词库中进行相似词候选
集筛选,最后将筛选出的候选集交由步骤②训练的相似度打分模型进行重打
分,选出得分最高词作为最终标准词进行输出
无
4DLLGDX-syj
用简单的相似度计算方法挑选候选词
.
使用
BERT
中文模型进行相似度计算
.
结合了人工规则对多标签数据进行处理
首先依据训练集和手术词表建立标准词到手术原词的映射表,依据映射表进行
无
5XHYXY-yfh
采样用于训练
BERT
模型;预测时,计算测试集手术原词与映射表手术原词的
相似度,排序取
top5
。然后,利用
BERT
模型判断
t
〇
P5
对中两个手术原词的标
签是否为
1
,为
1
则取映射表手术原词对应的标准词为最终答案返回
①把整个问题看作是
Seq2Seq
的类似问题,然后借鉴
VAE
的思想对模型的隐
无
6
GR-hwj
层进行
finetime
,训练得到一个模型;②把它看成一个分类问题,将手术词表中
所有标准词构建成一个对应标签的数据点进行数据增强,然后构建一个分类模
型
BERT+LSTM
;③将上述两个模塑的结果进行简单的线性组合
基于
n-gram
相似度等规则匹配方法筛选训练样本,使用
BERT
网络进行训练,
使用了
5
折交叉验证方法,最终使用
5
个模型的平均分数
无
7
8
SRBL-plb
SXDX-djj
无
无
Seq2Seq + attention +
后处理(如果输入在手术词表中,则跳过预测)
综合了特征分析、编辑距离、同义词词典和文本相似度的语义相似度算法。(外
部资源为中文医学主题词表
CMeSH
、中文一体化医学语言系统
CUMLS
、
9YXKXY-lxy
有
1CD9CM
英文版。)
10
YXKXY-zwq
使用相似度
+ BERT,
用
bert as service
生成原始词的句向量,计算相似度四配
无
98
中文信息学报
2021 年
可以看出,本次评测排名前十的大部分参赛队伍
都使用了预训练语言模型
BERT
°°] (
bidirectional
encoder
representation
from
transformers
),证明了
利用大规模语料进行预训练得到的语言模型在自然
语言处理领域的有效性。除了 “
G
R
-
h
wj
”和“
SXDX
-
djj
”两支队伍.其余八支队伍均将标准化任务当成
了文本相似度任务进行处理。本质上.临床术语标
准化任务是语义相似度匹配任务的一种。但是由于
原词表述方式过于多样,并且标准词词表通常规模
较大,单一的匹配模型很难获得很好的效果。部分
队伍除了文本匹配模块,还加入了筛选匹配候选同
模块,即通过相似度丨十算等手段为每个手术原词筛
选若干手术标准词作为匹配候选,再将 < 手术原词,
手术标准词 > 对输人到文本匹配模型进行关系判
断。相似度计算是较为常见的筛选候选方法,
“
YZS
-
cwf
”采用多标签分类模型获取匹配候选;
“
ALBB
-
cms
”引人信息检索技术,使用检索工具
Lucene
得到匹配候选;“
ZKYF
-
xl
”借鉴了生成模型
的思想,利用
Transformer
训练了端到端的翻译
模型辅助相似度计算。“
GR-hwj
”将临床术语标准
化任务分别当作生成问题和分类问题进行处理,融
合了生成模型和分类模型的结果。“
SXDX
-
d
^”则
完全将临床术语标准化任务当作生成问题,以
Seq
2
Se
q[ 12模型为基础构建系统进行标准词预测。
测试集中一共有2 000条手术原词,其中1 901
条手术原词对应单个手术标准词,99条手术原词对
应多个手术标准词。表4是评测任务1排名前十队
伍的系统在测试集上的评估结果,每列结果最高数
值已加粗表示。其中“
Acc
”为在测试集整体2 000
条数据集上计算的准确率结果,“
A
c
c
-
s
i
n
g
1
e
”为在测
试集中对应单个手术标准词的1 901条手术原词上
计算的准确率结果。“
Acc
-
multiple
”则是在测试集
中对应多个手术标准词的99条手术原词上计算的
准确率结果。可以看出:此次评测排名前十队伍对
于单个手术标准词的预测准确率较高.前五支队伍
均接近0.9或者达到0.9以上,前十队伍中“
Acc
-
single
”最高值与最低值之差为0. 217 0。对于对应
多个手术标准词的情况,前十队伍系统预测结果比
对应的单个手术标准词差,最高值为0.888 9.最低
值为0.491 3,二者相差0.3976,说明各支队伍系统
在预测多个手术标准词时性能差异相对较大。
针对测试集中的2 000条手术原词,其中前十
支队伍均没有预测正确的手术原词
,一
共有52条,
可以将这些手术原同看作系统普遍预测错误的数据
样例。通过分析这些数据样例,发现不易准确预测
的手术原词可以主要归为以下三类:
(1) 手术原词对应多个手术标准词,这与上文
展示的各支队伍对于多标准同的预测结果相符。
(2) 手术原词对应的标准词在训练集出现次数
很少甚至没有出现过,这给模型的训练增加了难度,
模型无法准确地学习到这些标准词的相关信息。
(3) 手术原词对应的手术标准词在手术同表中
有相似的标准词,模型在预测时难以有效地分辨这
些相似标准词的区别。
表
4 CH1P2019
评测任务
I
排名前十队伍系统评估结果
排名队伍名
AccAcc-single
Acc-multiple
1YZS-cwf0.948 30.951 30.888 9
2ALBB-cms0.927 2
0.938 80.703 6
3ZKYF-xl0.913 40.927 90.634 7
4DLLGDX-syj0.888 50.902 2
0.627 1
5XHYXY-yfh0.885 20.896 90.660 3
6GR-hwj
0.849 4
0.865 90.532 5
7
SRBL-plb0.841 80.864 30.409 4
8SXDX-djj0.827 70.847 70.443 1
9
YXKXY-lxy0.775 80.786 2
0.577 3
10
YXKXY-zwq
0.722 20.734 30.491 3
5
结语
临床术语标准化是医疗信息处理领域中的一个
重要研究方向。在如今互联网、大数据迅速发展的
时代背景下,术语标准化有助于整合和利用规模庞
大的、分散的、非结构化的医疗信息数据。随着人工
智能的兴起,自然语言处理相关技术的应用逐渐渗
透到医疗领域。如何利用自然语言处理等深度学习
技术处理临床术语标准化问题.是
CH
1
P
2019评测
任务1关注的重点。
本文是对
CH
1
P
2019评测任务1的简要概述。
本次评测吸引了来自企业、高校和研究机构的56支
队伍报名参加,一共接收了 47组结果,最高准确率
达到了 94.83%。参赛队伍大多数以预训练语言模
型
BERT
为基础构造了系统。相比于未引人预训
练模型的系统,这些以预训练语言模型为基础的系
统取得了较好的标准化效果。大多数系统对于对应
3期
黄源航等:
CHIP
2019评测任务1概述:临床术语标准化任务
99
单标准词的手术原词预测效果较好,对于对应多标
准词的手术原词预测效果相对较差。通过分析预测
错误的数据,总结了出错的主要类型,这是临床术语
标准化任务的主要难点,也是未来研究工作中应该
关注的重点。
参考文献
[1 ] Aronson A R. Effective mapping of biomedical text to
the UMLS Metathesaurus
:
the MetaMap program
[C]//Proceedings of the American Medical Informat
ics Association Symposium» 2001
:
17-21.
[2] Leaman R. Islamaj Dogan R« Lu Z. DNorm
:
Disease
name normalization with pairwise learning to rank[J].
Bioinformatics
,
2013
,
29(22): 2909-2917.
[3] Limsopatham N» Collier N. Normalising medical con
cepts in social media texts by learning semantic repre-
sentation[C]//Proceedings of the 54th Annual Meet
ing of the Association for Computational Linguistics
,
2016
:
1014-1023.
[4] Hochreiter S» Schmidhuber J. Long short-term memo-
ry[J]. Neural Computation
,
1997
,
9(8): 1735-1780.
[5] Neveol A, Robert A, Anderson R. et al. CLEF
eHealth 2017 multilingual information extraction task
overview
:
ICD10 coding of death certificates in English
and French[C]//Proceedings of the Workshop of the
Cross Language Evaluation Forum, 2017
:
1-17.
[6] Neveol A,Robert A,Grippo F,et al. CLEF eHealth
2018 multilingual information extraction task over
view
:
ICD10 coding of death certificates in French»
Hungarian and Italian[C]//Proceedings of the Work
黄源航(
1993—
),硕士研究生,主要研究领域为
自然语言处理。
:
18S051003@
汤步洲
(1984 —
通信作者,博士,副教授•博士
生导师,主要研究领域为人工智能,自然语言处
理,医学信息学。
:
tangbuzhou@
shop of the Cross Language Evaluation Forum. 2018
:
1-18.
[7] Dorendahl A,Leich N,Hummel B,et al. Overview of
the CLEF eHealth 2019 multilingual information ex
traction [C ]//Proceedings of the Workshop of the
Cross Language Evaluation Forum. 2019
:
1-9.
[8] Weissenbacher D. Sarker A. Magge A» et al. Over
view of the fourth social media mining for health
(SMM4H) shared tasks at ACL 2019 [C]//Proceed-
ings of the 4th Social Media Mining for Health Appli
cations (# SMM4H) Workshop 8>- Shared Task*
2019
:
21-30.
[9] Agirre A G» Marimon M, intxaurrondo A» et al.
Pharmaconer
:
Pharmacological substances* com
pounds and proteins named entity recognition track
[C]//Proceedings of the 5th Workshop on BioNLP
Open Shared Tasks, 2019
:
1-10.
[10] Devlin J» Chang M W, Lee K. et al. BERT
:
Pre
training of deep bidirectional transformers for lan
guage understanding[C]//Proceedings of the Confer
ence of the North American Chapter of the Associa
tion for Computational Linguistics^ 2019
:
4171-4186.
[11] Vaswani A,Shazeer N,Parmar N,et al. Attention is
all you need[C]//Proceedings of the 31st Internation
al Conference on Neural Information Processing Sys-
tems
,
2017: 5998-6008.
[12] Sutskever I,Vinyals (),Le Q V. Sequence to se
quence learning with neural networks [C]//Proceed-
ings of the 27th International Conference on Neural
Information Processing Systems» 2014» 27
:
3104-
3112.
焦晓康(
1992 )
,硕士研究生,主要研究领域为
医疗文本的自然语言处理。
:
@