• 文件
  • 知识库

使用自然语言处理和可解释人工智能早期识别有失败风险的家庭医学住院医师

原标题:Early identification of Family Medicine residents at risk of failure using Natural Language Processing and Explainable Artificial Intelligence

A. JoshiP. MortezaaghaD. InkpenE. SealeD. ArchibaldK. NoelA. Rahgozar

medRxiv (2024)

|

5

关键词

机器学习
自然语言处理
医疗保健
多模态数据
解释性人工智能
预测模型
数据集
评估
住院医师
分类模型

摘要

背景:在住院医师培训期间,每位住院医师都会根据他们的表现接受观察和反馈。住院医师培训要求很高,一些住院医师在学术表现上会遇到困难。基于能力的住院医师培训项目的成功取决于其在研究生教育的第一年识别出有困难的住院医师并为他们提供及时的干预和支持的能力。目标:在家庭医学等大型培训项目中,识别有可能未通过认证考试的住院医师是困难的。我们开发了一个使用机器学习(ML)、深度学习(DL)、自然语言处理(NLP)和可解释人工智能(XAI)等最先进技术的人工智能系统,以自动检测有风险的住院医师。方法:我们实施了用于预测及其性能分析的ML、DL和NLP模型。选择的预测目标变量是确定住院医师是否会通过或未通过他们的认证考试。XAI用于增强对模型内部工作原理的理解。结果:总共有1382个住院医师的数据点。冠军模型支持向量机(SVM)在使用多模态(文本和表格)数据时,实现了89.05%的准确率和74.54的F1分数的多类分类。这一模型优于仅使用定性或定量数据的模型。结论:结合定性和定量数据代表了一种新颖的方法,并提供了更好的分类结果。这项研究展示了一个自动化人工智能系统在早期识别学术困难风险住院医师的可行性。

AI理解论文

图片加载中
预览
图片加载中
预览
图片加载中
预览
图片加载中
预览
图片加载中
预览
图片加载中
预览

该文档主要探讨了结合定性和定量数据的多模态方法,用于预测医学住院医师培训项目中有风险的住院医师,并通过可解释的人工智能(XAI)方法提供深入分析。研究的目标是通过机器学习(ML)和自然语言处理(NLP)自动识别和预测教育上有困难的住院医师,并利用XAI和语言模型(LM)识别重要的潜在特征和区分模式。

研究背景与动机:在医学教育中,识别和干预有风险的住院医师对于确保他们的成功至关重要。传统方法通常依赖于单一数据类型,而本研究旨在通过结合定性(文本)和定量(数值)数据,提供更全面的分析。研究使用了来自渥太华大学家庭医学系的第一年住院医师(PGY-1)的家庭医学培训评估报告(ITER)和加拿大家庭医学认证考试(CFPC)的数据。

数据与方法:研究数据包括定性评估(如教师对住院医师表现的反馈和评论)和定量评估(如考试成绩)。考试数据涵盖了2018年至2022年春季和秋季的考试结果,目标变量为“通过/未通过”,这是一个多类分类问题。由于数据集不平衡,研究使用了**合成少数过采样技术(SMOTE)**来处理这种不平衡性。

实验设计:研究进行了三组独立实验:

  1. 定性数据实验:使用XLNET和LSTM等模型处理文本数据,XLNET取得了72.45%的准确率和55.48的F1分数。
  2. 定量数据实验:使用支持向量机(SVM)和CatBoost模型处理数值数据,SVM取得了81.71%的准确率和63.43的F1分数。
  3. 多模态数据实验:结合定性和定量数据,SVM(TF-IDF)模型表现最佳,准确率为89.05%,F1分数为74.54。

结果与分析:实验结果表明,多模态方法优于单一数据类型的方法,尤其是SVM(TF-IDF)模型在多模态数据实验中表现最佳。尽管Doc2Vec是上下文相关的,但TF-IDF在小数据集上的表现更好。研究还使用了**可解释的人工智能(XAI)**方法,如SHAP(Shapley Additive Explanations),来解释模型的决策过程,帮助识别对预测结果影响最大的特征。

研究贡献与局限性:本研究的主要贡献在于展示了结合定性和定量数据的多模态方法的有效性,并通过XAI方法提供了对模型决策过程的更好理解。然而,研究也存在一些局限性,如样本量较小且偏斜,可能影响模型的普适性。此外,AI模型的词汇覆盖范围有限,需不断更新以包括医学术语和缩写。

未来研究方向:研究计划通过领域特定的语言建模和微调预训练模型(如Bio-BERT和Bio-GPT)来增强模型的实际应用。此外,还计划实施数据增强技术,如GraphRAG,以进一步提高模型性能。

结论:多模态SVM(TF-IDF)模型在所有实验中表现最佳,证明了在医学住院医师培训项目中预测有风险住院医师的有效性。研究强调了结合定性和定量数据的优势,以及使用可解释AI方法为早期识别和干预提供有价值的分析。

Chat Paper

当前问答基于全文

转入私有库对话