大型语言模型在眼科中的应用

阅读量：6142

DOI：10.12419/24100304

发布日期：2025-03-28

作者：

章文成 ,何晶晶

,佘凌冰

展开更多

关键词

人工智能

大型语言模型

深度学习

个性化治疗

辅助诊疗

人机协同

摘要

大型语言模型（large language models, LLMs）在眼科的应用为医疗领域带来了巨大的潜力，尤其是在提升诊断效率、优化医患沟通和促进个性化医疗方面。通过自然语言处理技术，LLMs可以协助医生进行临床数据的归纳和分析，可以结合患者的病史、影像资料和症状描述，提供精准的辅助诊断，并在复杂病例中提供参考。LLMs还可以帮助医生快速撰写病历报告，改善医疗记录管理效率。在医患沟通中，LLMs能够通过生成通俗易懂的解释，帮助患者理解疾病状况及治疗方案，缩短医生与患者之间的沟通障碍。在远程医疗场景下，LLMs可通过实时分析患者上传的图像文本信息，提供初步诊断建议，助力医生远程诊疗。个性化医疗也是LLMs的重要应用方向，借助患者的遗传数据和生活习惯，可以帮助医生制定更为精准的个性化治疗方案，并预测手术后的恢复情况。此外，LLMs可以通过与临床数据的不断交互进行自我优化，提升其在眼科诊疗中的智能化程度。尽管LLMs在眼科领域的应用前景广阔，但仍面临数据隐私、模型解释性、语言理解等方面的挑战。未来LLMs将继续作为医生的辅助工具，形成“人机协同”的诊疗新模式，为患者提供更好、更精准的医疗服务。

全文

文章亮点

1.关键发现

提出了“人机协同”的未来诊疗新观点。

2.已知与发现

回顾了大型语言模型（large language models）在眼科中的应用，其可以帮助医生进行繁琐的病历书写，让医生将更多的精力放在患者病情的分析上。LLMs可以辅助医生快速进行诊断给出治疗意见并提供文献参考。

3.意义与改变

基于“人机协同”的未来新模式，以后医生的工作除了诊疗之外，还需要和人工智能（artificial intelligence）工程师密切配合不断优化AI模型。AI帮助医生处理繁琐、重复、机械性的工作，让医生将更多精力放在疾病的研究中，研究出的新技术、新知识又可以导入AI模型进行优化，提升AI模型的诊疗能力。

随着人工智能（artificial intelligence, AI）和机器学习技术的快速发展，医学领域已经开始广泛应用各类AI工具来改善诊疗质量与效率^[1]。眼科诊疗中包含大量的影像资料，包括眼底、光学相干断层扫描、视野图像等，图形分析类AI（如IDx-DR、EyRIS SELENA+）可以对影像报告进行分析后对视网膜疾病、青光眼、白内障、眼表疾病进行辅助诊断^[2-3]。语言分析类AI，如OpenAI GPT、Anthropic Claude、Google Gemini及Bard、清华大学的ChatGLM、百度的文心一言等大型语言模型，LLMs展示了其在自然语言处理（natural language processing, NLP）中的强大能力。世界卫生组织的一份新报告涵盖了医学和医疗保健领域的生成式AI，强调了LLMs在医学中的潜力^[4]。这些模型在处理医疗文本、解释医学数据、与患者互动等方面展现出巨大潜力^[5]。眼科作为一个依赖技术进步的医学分支，正在逐步引入这些大型语言模型，以辅助医生提高诊疗效果、增强医患沟通、管理数据等^[6]。本文将重点探讨大型语言模型在眼科的应用，包括其在患者咨询、诊疗辅助、医疗记录管理以及眼科远程医疗中的使用。最后，本文将分析该技术在眼科应用中的局限性和挑战，并展望未来的发展方向。

1 大型语言模型的技术背景

LLMs是基于深度学习的自然语言处理系统，通过分析海量文本数据学习语言的规则和模式。这些模型基于变换器（transformer）架构，该架构能够有效捕捉长距离依赖关系和上下文信息，使用数亿甚至数十亿的参数，并通过自监督学习方式，生成自然语言回答^[7-8]。在医学领域，LLMs能够理解医学术语、分析患者病史，并提供临床建议^[9]。在眼科中，LLMs可以帮助医生和患者更好地理解复杂的眼科术语，自动生成医疗报告，甚至提供个性化的健康管理建议^[10]。通过不断的模型训练和优化，这类模型可以逐渐适应复杂的临床环境，并在实时互动中提供更精准的帮助。

2 大型语言模型在眼科的具体应用

2.1 疾病分诊评估与患者教育

世界各地对眼保健服务的需求非常高，但没有足够数量的医生来满足需求。LLMs的发展通过提供更多类似人类的交互、在不增加成本的情况下拓展医疗服务，以及填补发展中国家熟练人才稀缺造成的医疗缺失^[11]。

2.1.1 疾病分诊评估

LLMs可以通过自然语言交互向患者解释疾病的基本概念、症状、治疗方案及预防措施。例如，患者可以向模型提问：“我需要了解视网膜脱离的症状？”，模型则可以详细解释视力模糊、闪光感、视野缺损等与视网膜脱离相关的症状，并推荐患者及时就医。文献报道LLMs的疾病分诊率高，准确率在80%~90%。Waisberg等^[12]研究了ChatGPT对眼科疾病的分诊能力，包括视网膜脱离、渗出性年龄相关性黄斑病变、眼表疾病等；结果表明ChatGPT为10个回答中的8个提供了准确的回答，而其余2个回答并不准确，准确率在80%。Zandi等^[13]通过对比分析，将80份包含眼前节、青光眼、神经眼科、小儿眼科、眼整形及视网膜疾病的病历输入到GPT-4和Bard中，要求其对文字输入的症状进行分析，完成对疾病的分诊、诊断和评估紧急性，由3位眼科医生对其回答进行评分；结果显示GPT-4和Bard的分诊准确率为96.3%和83.8%；GPT-4回答的满意度明显高于Bard（分别为 81.3%和55.0%）。LLMs根据患者的病情严重程度评估，为患者提供不同级别的医疗机构就诊建议，是否需要急诊，是否在社区医院就能够处理。患者在偏远地区无法立即就诊时，LLMs可以远程进行初步评估病情，并告知是否需要转诊或进行更详细的检查^[14]。目前也要注意，因为大多数LLMs不是为临床使用而设计的，LLMs的诊断分类错误可能会带来隐藏的风险^[15]，随着为临床使用而设计的LLMs不断推出，有望提高模型在医疗领域的准确性，未来有助于减轻医疗资源的负担。

2.1.2 疾病教育

在眼科临床中，患者经常需要理解复杂的眼科术语，如青光眼、白内障、视网膜脱离等。LLMs以拟人的沟通方式进行交流，可以使患者更容易理解医疗报告，可以增强患者对在线搜索结果的理解^[16]。患者对自身病情的理解会显著影响他们的治疗过程，缺乏医学知识往往会阻碍他们对临床检查结果的理解^[17]。LLMs可以作为教育工具，帮助患者在术前了解手术风险和术后护理要点^[18-19]。这些信息可以增加患者对手术治疗方案的配合度，从而提高术后康复效果。总之，眼科LLMs在帮助患者进行疾病分诊评估和教育方面显示出良好前景，这可以提升医疗保健体验并优化患者诊疗流程。

2.2 辅助诊断与治疗

2.2.1 辅助诊断

疾病诊断过程中医生往往依赖患者描述的症状来进行初步评估。LLMs可以帮助医生从患者提供的主诉中提取关键信息，并与医学数据库进行对比，生成可能的诊断结果或推荐需要的检查^[20-21]。模型通过语言分析患者的描述，如视力模糊、视野缺损或闪光感等，能够提供症状背后可能存在的病因（如青光眼、视网膜脱离等）。Hu等^[22]通过模拟患者、家庭医生、眼科医生3种不同场景下，GPT-4对10种眼科罕见疾病的诊断情况，患者场景下输入的信息相对简单，比如单纯地提问“我出现了视力下降可能是什么原因？”，而眼科医生场景下输入的疾病信息更加全面，包括主诉、裂隙灯检查、视野及眼底检查的文字描述信息；结果显示GPT-4 在模拟患者场景中通常只能输出几种可能的疾病诊断，而不能给出明确的诊断，在模拟家庭医生场景中，GPT-4的回答有50%准确率，而在模拟眼科医生的场景中，实现了90%的准确率。在角膜疾病方面，Delsoz等^[23]的研究中，随机选择了20例角膜相关疾病病例，包括角膜感染、角膜营养不良及角膜变性，然后将每个病例的资料以文本形式输入到GPT-4和GPT-3.5中，进行诊断分析，并将它们的结果与3位角膜病专家的结果进行比较；结果表明GPT-4的诊断准确率为85%（20例中17例正确），而GPT-3.5的诊断准确率为60%；GPT-4和3位角膜病专家之间的诊断一致性为80%（16例），而GPT-3.5与3位角膜病专家之间的诊断一致性为60%（12例）。在青光眼中，Delsoz等^[24]研究了ChatGPT对11例原发性和继发性青光眼病例的诊断情况，并与3名高年资眼科住院医师的诊断结果进行了对比，结果显示ChatGPT诊断准确率：72.7%（11例中有8例）；3名眼科住院医师分别为54.5%（6例）、72.7%（8 例）和72.7%（8 例）；ChatGPT与高年资眼科住院医师的诊断相似或更好。此外，LLMs在帮助诊断神经眼科疾病、葡萄膜炎和视网膜血管疾病方面表现出潜力^[25-27]。这表明，LLMs可以作为辅助工具，为医生提供额外的诊断参考，尤其在疑难病例中，虽然不能替代医生的判断，但通过提供大数据驱动的分析，模型可以帮助医生进一步确认初步诊断。

2.2.2 辅助治疗

在眼科的常见疾病（如白内障和青光眼）的治疗中，模型可以分析现有的治疗手段，并根据患者的病情和既往治疗反应推荐个性化的治疗方案^[28]。LLMs可以参考最新的医学研究文献，为患者提供治疗药物建议，甚至告知患者可能的副作用。Waisberg等^[29]研究了LLMs对视神经炎治疗的能力，生成的方案相当准确和具体，例如如何使用大剂量糖皮质激素、如何使用非甾体抗炎药缓解疼痛以及治疗中可能出现的其他问题。LLMs能够在几秒内生成用药方案、出院注意事项、随访时间表，生成的医疗文本通过了三位外科医生的评估^[30]。在眼科急诊工作中，一半的患者并不是紧急情况但是前往了眼科急诊就诊^[31]，占用了急诊资源，耽误了其他急诊患者的治疗，而LLMs可以根据患者提供的信息评估其是否需要前往眼科急诊进行就诊，可以更好地分流患者，减轻急诊工作压力^[1]。Khan等^[32]分析了LLMs对眼外伤、眼部异物、急性视力下降、急性眼痛等眼科急诊问题的回答，结果显示LLMs的回答中有93%的回答被评为“良好”，33%的回答被评为“非常好”，所有回答中没有任何可能对患者健康有害的错误信息或建议。LLMs有助于快速评估患者状况，可以辅助医生快速制定合适的治疗方案，确保关键干预措施及时有效，这对于在高强度、快节奏的环境中保持准确决策和避免医疗错误意义重大^[33]。未来随着LLMs的不断升级，其有望成为临床医生的重要辅助工具。

2.3 医疗记录管理与数据分析

2.3.1 医疗记录

在现代医学中，眼科医生需要处理大量的患者数据，包括病史、影像学结果和诊断记录等，电子病历的书写占用了医生大量的时间[34]。大型语言模型可以自动生成医疗报告，LLMs与语音识别结合后，可以获取患者和临床医生之间的对话，提取关键信息。想象一下这样的工作场景，在病史采集期间，医生可以专注于患者的问诊，而LLMs可以通过语音识别在几分钟内生成电子病历，这种开创性的解决方案可以大幅提高临床效率^[35-36]。一项针对10名医生的临床研究评估了LLMs书写病历的完整性、正确性和简洁性，结果显示LLMs生成的病历文本有45%被认为与医学专家书写水平相当，36%较医学专家的更好^[37]。同时LLMs也可以完成手术同意书、手术记录、出院记录、检查报告等的书写^{[29-30,38-40]}。Singh等^[30]研究了LLMs在几秒钟内快速生成手术记录的能力，其中包括12种不同的眼科疾病，这些手术记录很详细，包括术前和术后诊断、手术信息、麻醉细节、适应证、术后护理、并发症等等。在一项研究中^[41]，研究人员开发了一种吲哚菁绿血管造影自动分析模型，通过自动生成双语报告和启用交互式问答来协助解释血管造影图像，该模型在生成详细报告方面表现出令人满意的性能，眼科医生对其完整性和准确性达成了共识；这种能力可以显著减少眼科医生撰写辅助检查报告和向患者解释所需的时间和精力，从而提高工作效率。LLMs可以帮助医生进行繁琐的病历书写，让医生将更多的精力放在患者病情的分析上以及疾病的研究中。尽管LLMs在自动化医学记录方面具有巨大的潜在效用，但承认它们的局限性也很重要，LLMs生成的文本可能会出现不准确和遗漏，需要人工验证评估以确保文档质量^[42]。

2.3.2 数据分析

医疗数据中包含大量的文本信息，如病历记录、实验室报告和研究论文等。LLMs可以自动从病历记录中提取出患者的病史、症状和治疗方案等信息，生成知识图谱，帮助医生进行诊断和决策^[43-44]。通过对大量病历数据的分析，LLMs可以发现某些疾病的潜在风险因素和治疗效果，从而为疾病预防和治疗提供科学依据^[45]。

表1 大型语言模型在眼科中的应用

Table 1 The application of large language models (LLMs) in ophthalmology

应用场景	LLMs任务	论文	年份	LLMs版本	结果	优缺点
眼科感染性疾病	ChatGPT用于记录眼科感染性疾病	Masalkhi M, Ong J, Waisberg E, et al. ChatGPT to document ocular infectious diseases[11]	2024	ChatGPT	ChatGPT在眼科感染性疾病的记录和管理中能够提高效率。它能够快速生成病历记录，帮助医生系统整理患者信息，尤其在诊断和治疗方案的记录中表现突出	优点：提高了眼科诊疗过程的效率，节省了医生的时间，有助于标准化病历记录。缺点：自动生成的病历内容可能缺乏个性化，且仍需人工检查以确保准确性
眼科疾病分诊	使用GPT-4进行眼科疾病的分诊	Waisberg E, Ong J, Zaman N, et al. GPT-4 for triaging ophthalmic symptoms[12]	2023	GPT-4	研究GPT-4在眼科症状筛查中的应用，表明GPT-4能够有效识别患者的眼科症状并提供初步分诊建议。研究发现，GPT-4在常见眼科疾病的初步诊断中表现出色，准确率较高	优点：提高了分诊效率，减少了医生的负担，能够提供快速的初步诊断意见。缺点：对于复杂病例的判断仍然存在一定限制，依赖于输入的症状信息质量
眼科疾病诊断与分诊	GPT-4与Bard在眼科疾病诊断及分诊中的对比	Zandi R, Fahey JD, Drakopoulos M, et al. Exploring diagnostic precision and triage proficiency: a comparative study of GPT-4 and Bard in addressing common ophthalmic complaints[13]	2024	GPT-4, Bard	比较了GPT-4和Bard在眼科常见疾病上的诊断精度和分诊能力。结果显示，GPT-4和Bard的分诊准确率分别为96.3%和83.8%；GPT-4回答的满意度明显高于Bard（分别为 81.3%和55.0%）	优点：提高了分诊和诊断效率，提供了较为精准的疾病预测。缺点：不同语言模型在处理特定领域时可能存在性能差异，模型的可解释性仍然有限
眼科白内障	对比ChatGPT与Dr.Google在患者问题中的解答	Cohen SA, Brant A, Fisher AC, et al. Dr. Google vs. Dr. ChatGPT: Exploring the Use of Artificial Intelligence in Ophthalmology by Comparing the Accuracy, Safety, and Readability of Responses to Frequently Asked Patient Questions Regarding Cataracts and Cataract Surgery[14]	2024	ChatGPT	比较了ChatGPT与Dr.Google对常见白内障手术问题的回答，结果表明ChatGPT的回答在准确性、安全性和易读性方面明显优于Dr.Google	优点：ChatGPT提供的答案更加精准、简洁，且符合医学伦理。缺点：对于一些患者来说，ChatGPT的答案可能过于简化，缺少详细的解释或进一步的医疗建议
白内障术后	使用ChatGPT优化白内障术后管理	Waisberg E, Ong J, Masalkhi M, et al. Chat Generative Pretrained Transformer to optimize accessibility for cataract surgery postoperative management[18]	2023	ChatGPT	探讨了ChatGPT如何帮助白内障术后的患者管理，尤其在解答患者疑问、提供术后护理指导和增加术后管理可行性方面的潜力。结果表明，ChatGPT能够提供及时、准确的术后信息，有效提高患者的依从性	优点：提高患者在术后护理过程中的参与度，确保患者能及时获得正确的术后信息。缺点：对于某些复杂或个性化的术后问题，ChatGPT的回答可能不够精准或缺乏深度
白内障术后	LLMs解答白内障患者术后问题	Chowdhury M, Lim E, Higham A, et al. Can Large Language Models Safely Address Patient Questions Following Cataract Surgery?[19]	2023	ChatGPT	LLMs能够提供准确的术后护理指导，尤其在常见问题上表现良好，但在个别病例中可能存在误解风险。在包含120名患者的131个问题中，回答被评为有帮助：59.9%；比较有帮助：36.3%	优点：提供了及时的术后解答，减少了患者等待时间，提高了患者满意度。缺点：在复杂或非典型病例中，LLMs可能无法提供完全正确的解答，且缺乏临床医生的个性化指导
罕见眼病诊断	GPT-4在罕见眼病诊断中的应用	Hu X, Ran AR, Nguyen TX, et al. What can GPT-4 do for diagnosing rare eye diseases? A pilot study[22]	2023	GPT-4	研究探讨了GPT-4在罕见眼病诊断中的表现，结果显示在30份回复中，GPT-4 在模拟患者场景中通常诊断不明确，在模拟家庭医生场景中，GPT-4的回答有50%准确率，而在模拟眼科医生的场景中，实现了90%的准确率	优点：GPT-4能够协助眼科医生诊断罕见疾病，增加了诊断的准确性。缺点：模型对极为罕见或复杂病例的理解能力有限，仍需医生的最终判断
角膜病诊断	ChatGPT在角膜病诊断中的表现	Delsoz M, Madadi Y, Raja H, et al. Performance of ChatGPT in diagnosis of corneal eye diseases[23]	2024	ChatGPT	结果表明GPT-4的诊断准确率为85%，而GPT-3.5的准确率为60%；GPT-4和3位角膜病专家之间的诊断一致性分别为80%，而GPT-3.5与3位角膜病专家之间的诊断一致性为60%	优点：提高了眼科疾病诊断的效率，尤其在常见病例中能够提供有价值的辅助意见。缺点：对于复杂或少见的角膜疾病，模型的准确性较低，仍需要专家验证
青光眼诊断	ChatGPT辅助诊断青光眼的能力	Delsoz M, Raja H, Madadi Y, et al. The use of ChatGPT to assist in diagnosing glaucoma based on clinical case reports[24]	2023	ChatGPT	研究探讨了ChatGPT在青光眼诊断中的应用，结果表明诊断准确率，ChatGPT：72.7%（11 例中有8例）；3名眼科医师分别为：54.5% （6 例）、72.7% （8 例）和 72.7%（8 例）	优点：能迅速处理大量病例，提供初步诊断建议，节省时间。缺点：对细节的捕捉不如专业眼科医生精确，存在误诊风险
视网膜血管疾病	ChatGPT在视网膜血管疾病中的应用	Liu X, Wu J, Shao A, et al. Uncovering language disparity of ChatGPT on retinal vascular disease classification: cross-sectional study[25]	2024	ChatGPT	研究表明ChatGPT在视网膜血管疾病中的语言差异，中文诊断准确率：75.03%；英文诊断精确率：79.61%。表明模型在处理不同语言的病例时可能存在性能差异	优点：揭示了ChatGPT在处理视网膜血管疾病时可能存在的语言偏差，提升了模型在多元化数据集中的可适应性。缺点：依赖于训练数据的多样性，模型的偏差可能影响某些地区的诊断准确性
神经眼科疾病	ChatGPT协助诊断神经眼科疾病	Madadi Y, Delsoz M, Lao PA, et al. ChatGPT assisting diagnosis of neuro-ophthalmology diseases based on case reports[26]	2023	GPT-3.5、 GPT-4	诊断准确率：ChatGPT v3.5：13（59%），ChatGPT Plus v4.0：18（82%）; 两名神经眼科医生：分别为19名（86%）和19 名（86%）。ChatGPT能够根据临床案例报告辅助识别神经眼科疾病，尤其对常见的神经眼病，但对复杂病例的诊断仍有局限	优点：提高了诊断效率和准确性，尤其对常见病例具有较高的识别率。缺点：对于复杂的少见的神经眼科疾病，ChatGPT的识别和诊断准确度较低
视网膜疾病	ChatGPT-4生成视网膜疾病手术治疗建议	Momenaei B, Wakabayashi T, Shahlaee A, et al. Appropriateness and readability of ChatGPT-4-generated responses for surgical treatment of retinal diseases[27]	2023	GPT-4	结果表明：GPT-4生成的视网膜疾病手术治疗建议的可靠性：视网膜脱离为84.6%（33/39）、黄斑裂孔92%（23/25）、黄斑前膜91.7%（22/24）	优点：生成的治疗建议通常易于理解和执行，有助于快速获取治疗方案。缺点：对于复杂病例或个性化治疗方案，模型的建议可能不够精准或未能考虑患者的独特需求
眼科考试	ChatGPT在欧洲眼科医学考试中的表现	Panthier C, Gatinel D. Success of ChatGPT, an AI language model, in taking the French language version of the European Board of Ophthalmology examination: A novel approach to medical knowledge assessment[28]	2023	ChatGPT	结果表明，ChatGPT 在眼科考试中取得了91%的成功率。ChatGPT在眼科知识考试中的表现超出了预期，成功通过了多个部分，表明其在医学知识评估中的潜力	优点：能够高效评估医学知识，尤其是在标准化考试中表现突出。缺点：仍然存在一定的答题不准确和对复杂临床情境的理解不足的情况
眼科术后并发症	GPT-4在记录眼科术后并发症中的应用	Waisberg E, Ong J, Masalkhi M, et al. GPT-4 to document ophthalmic post-operative complications[29]	2024	GPT-4	研究评估了GPT-4在眼科术后并发症文档记录中的应用。结果表明，GPT-4能够有效地记录术后并发症，并提供清晰、结构化的文档，但在处理某些细节和个别病例时，仍存在一定的偏差	优点：提高了记录效率，减少了医生在术后文档记录上的工作负担。缺点：在复杂病例中，GPT-4可能忽略细节或生成不够准确的记录
眼科出院总结和手术记录	ChatGPT在眼科出院总结和手术记录中的应用	Singh S, Djalilian A, Ali MJ. ChatGPT and ophthalmology: exploring its potential with discharge summaries and operative notes[30]	2023	ChatGPT	研究探讨了ChatGPT在生成眼科出院总结和手术记录中的潜力。研究表明，ChatGPT能够高效地生成标准化的出院总结和手术记录，但在涉及复杂病例或个性化细节时，生成的记录可能需要进一步的审查和修正	优点：节省时间，提升文档生成的效率。缺点：缺乏临床个性化，且可能在复杂病例中产生错误或不完整的记录
眼科急诊	LLMs在眼科急诊中的应用	Khan S, Gunasekera C. Comparative Analysis of Large Language Models against the NHS 111 Online Triaging for Emergency Ophthalmology[32]	2024	GPT-3.5、GPT-4.0、Bard、Bing Chat	研究对比了大型语言模型与NHS 111在线急诊分诊系统在眼科急诊中的表现。结果表明，LLMs的回答中有93%的回答被评为“良好”，33%的回答被评为“非常好”，所有回答中没有任何可能对患者健康有害的错误信息或建议	优点：提高了急诊分诊效率，减少了医生的负担。缺点：对于复杂病例，LLMs可能无法提供准确的分诊建议
眼科手术记录	GPT-4在眼科手术记录中的应用	Waisberg E, Ong J, Masalkhi M, et al. GPT-4 and ophthalmology operative notes[40]	2023	GPT-4	研究探讨了GPT-4在生成眼科手术记录中的应用。结果表明，GPT-4能够生成准确、清晰的手术记录，并提高了记录的效率，但仍需进一步提高对复杂手术流程的理解和细节处理能力	优点：提高了手术记录生成效率，减轻了文档书写负担。缺点：在处理复杂或特殊手术时，GPT-4可能忽略一些细节或生成不准确的记录
眼科辅助检查	ChatGPT用于生成吲哚青绿血管造影报告	Chen X, Zhang W, Zhao Z, et al. ICGA-GPT: report generation and question answering for indocyanine green angiography images[41]	2024	ChatGPT	研究介绍了ICGA-GPT，这是一种基于GPT的大型语言模型，用于生成吲哚菁绿血管造影报告并回答相关问题。研究表明，ICGA-GPT能够高效生成详细且准确的报告，并为医生提供有关图像的实时问题解答	优点：提高了吲哚菁绿血管造影图像分析的效率，支持实时解答。缺点：对于复杂的图像和案例，模型的解答可能不够精确
眼科领域	LLMs在眼科研究和临床中的应用	Yang Z, Wang D, Zhou F, et al. Understanding natural language: Potential application of large language models to ophthalmology[44]	2024	ChatGPT、Co-Pilot、ChatGLM、Gemini等	LLMs可以帮助眼科医生进行文献综述、症状分析，甚至在临床诊断中通过分析病历和相关研究辅助决策	优点：能实时支持决策、提供基于文献的建议，提高诊断速度和准确性。缺点：对复杂的眼科病例理解有限，如果训练数据不完整或存在偏差，可能导致错误
眼科领域	数据库增强的LLMs框架可以提供更好的眼科决策支持	Luo M J, Pang J, Bi S, et al. Development and evaluation of a retrieval-augmented large language model framework for ophthalmology[45]	2024	ChatZOC、GPT-3.5、GPT-4.0	扩充了眼科数据库的增强大型语言模型ChatZOC能够提供更准确的治疗建议	优点：增强LLMs可以提供更准确的建议。缺点：计算复杂度较高，依赖外部数据库的质量，实践应用中存在一定挑战

3 挑战与局限性

3.1 数据隐私与安全性

眼科数据（如患者病历、视网膜影像等）的敏感性使得数据隐私成为LLMs应用中的关键问题^[46]。如何确保数据在模型处理和存储过程中得到有效的保护，并避免数据泄露，是需要优先解决的难题。隐私泄露不仅可能对患者个人造成影响，还可能导致医疗机构的声誉受损。

3.2 模型解释性

尽管大型语言模型在语言处理方面表现出色，但它们往往是“黑箱”模型。LLMs给出的诊断建议或治疗推荐，无法完全被解释为基于医学逻辑的推理。这种不可解释性在医学应用中尤其令人担忧，因为错误的诊断建议可能导致严重的后果^[47]。

3.3 语言理解的局限性

尽管LLMs的自然语言处理能力不断提升，但对于复杂的医学术语或特殊语境，它们仍可能表现出理解能力的局限性^[48]。例如，在眼科的特定诊断中，患者的描述往往需要结合具体的视觉检查结果进行评估，而LLMs仅基于文字输入，可能无法做出准确的推测。

3.4 临床应用的依赖性

LLMs的医学应用需要医生的高度参与和监督。模型本身无法独立作出诊断或治疗决策，它只能作为辅助工具。因此，医生的专业知识与LLMs的结合仍然是医疗实践中不可或缺的一部分。

3.5 幻觉现象

大型语言模型的幻觉现象是指这些模型在生成自然语言时，有时会输出不真实、错误或不准确的信息^[49]。首先，模型可能生成错误的医疗建议或不准确的诊断，导致误诊或治疗不当^[50]。其次，LLMs在医学文献解读中可能出现错误，生成不真实的引用文献，影响医生对新研究成果的理解^[44]。此外，模型生成的错误信息可能误导患者，增加患者焦虑或产生不必要的恐慌。在辅助诊断系统中，幻觉现象可能导致医生忽视关键症状或采取不适当的治疗。为应对这些挑战，需要加强模型的审查机制、增强其可解释性，并对医疗人员进行相关培训，确保其正确使用AI工具。

4 未来前景

尽管面临诸多挑战，大型语言模型在眼科的应用前景广阔。随着技术的不断改进，LLMs将能够更好地适应眼科医学的复杂需求。

未来，大型语言模型与计算机视觉技术结合，将为眼科提供更加全面的诊疗支持。例如，通过将LLMs与眼科图像分析技术（如视网膜图像、角膜地形图等）结合，AI可以结合文字和图像信息给出更加全面的诊治建议。这种多模态信息处理将有助于提高眼科诊断的准确性和效率^[51-52]。

大型语言模型有潜力促进个性化医疗的发展。未来的眼科应用可以基于患者的遗传数据、生活方式、既往病史等信息，利用LLMs生成个性化的诊疗方案^[53]。例如，针对不同年龄段的患者，LLMs可以帮助医生制定适合的治疗计划，并预测手术后的恢复情况。

LLMs的一个优势在于其可以通过接收新数据进行持续学习和优化。在眼科领域，随着更多的数据输入和应用反馈，LLMs将不断改进其疾病检测和诊疗建议的能力。未来，医疗工作者与AI工程师需要更加密切的协作，将实际临床数据、疾病的新技术、新知识不断反馈给模型进行调整升级，使得这些工具在眼科领域更加智能和精确。

LLMs还可以用于眼科医生和医学生的教育与培训。通过与虚拟患者的互动，医生可以在模拟的临床场景中进行决策练习，提升其诊断能力和应对复杂病例的经验^[54]。这种教育模式不仅可以降低培训成本，还能够使医生在进入临床实践前具备更高的专业素养。

5 结语

大型语言模型在眼科的应用展示了其为医学领域带来的巨大潜力。无论是提升医患沟通、提供诊断辅助，还是优化医疗记录管理和远程医疗^[55-58]，大型语言模型都在眼科医学中扮演着越来越重要的角色。虽然当前的应用尚处于早期阶段，但通过技术的持续发展，LLMs有望在未来的眼科诊疗中发挥更加全面的作用。然而，LLMs在眼科应用中仍然面临数据隐私、模型解释性、语言理解局限性等挑战。如何平衡模型的智能性与临床需求、保证患者隐私以及提升模型的可解释性，将是未来眼科AI研究的关键方向。此外，LLMs的使用也不应完全替代医生的专业判断，而是作为医生的辅助工具，帮助其更高效地完成诊疗工作。

随着未来AI技术的发展和完善，我们有理由相信，大型语言模型将在眼科医学中发挥越来越重要的作用，推动眼科诊疗水平和患者体验的双重提升。在实际应用中，LLMs将逐步融入医生的工作流程，形成“人机协同”的诊疗新模式，为患者提供更好、更精准的医疗服务。

声明

在本研究中，我们使用了生成式人工智能工具（ChatGPT 4.0），在2024年9月29日生成了相关论文的提纲，本文以此为选题思路进行修改，见附表1。本文摘要的英文部分为AI生成，该工具还帮助我们提供了相关的研究背景信息，并在一定程度上优化了语言表达。目前AI生成的多为虚拟不真实参考文献，本文引用的论文、对论文的解读部分以及重点章节“2 大型语言模型在眼科的具体应用”的书写皆为作者完成。本文最终的结论和观点由作者负责，并经过了严格的审核和修改，以确保其准确性和学术严谨性。我们意识到使用生成式AI的潜在局限性和伦理问题，已遵循相应的学术规范进行使用，并对出版物的内容承担全部责任。

利益冲突

所有作者均声明不存在利益冲突。

开放获取声明

本文适用于知识共享许可协议(Creative Commons)，允许第三方用户按照署名(BY)-非商业性使用(NC)-禁止演绎(ND)(CC BY-NC-ND)的方式共享，即允许第三方对本刊发表的文章进行复制、发行、展览、表演、放映、广播或通过信息网络向公众传播，但在这些过程中必须保留作者署名、仅限于非商业性目的、不得进行演绎创作。

基金

暂无基金信息

参考文献

1. Betzler BK, Chen H, Cheng CY, et al. Large language models and their impact in ophthalmology[J]. Lancet Digit Health, 2023, 5(12): e917-e924. DOI: 10.1016/S2589-7500(23)00201-7.

2. Benet D, Pellicer-Valero OJ. Artificial intelligence: the unstoppable revolution in ophthalmology[J]. Surv Ophthalmol, 2022, 67(1): 252-270. DOI: 10.1016/j.survophthal.2021.03.003.

3. 冯媛媛, 王婷, 肖钧, 等. 人工智能在白内障手术治疗和教学中的应用与展望[J]. 眼科学报, 2022, 37(3): 178-184. DOI：10.3978/j.issn.1000-4432.2022.03.10

4. World Health Organization. Ethics and governance of artificial intelligence for health: large multi-modal models. WHO guidance[M]. World Health Organization, 2024.

5. Thirunavukarasu AJ, Ting DSJ, Elangovan K, et al. Large language models in medicine[J]. Nat Med, 2023, 29(8): 1930-1940. DOI: 10.1038/s41591-023-02448-8.

6. Tan TF, Thirunavukarasu AJ, Campbell JP, et al. Generative artificial intelligence through ChatGPT and other large language models in ophthalmology: clinical applications and challenges[J]. Ophthalmol Sci, 2023, 3(4): 100394. DOI: 10.1016/j.xops.2023.100394.

7. Hoffmann J, Borgeaud S, Mensch A, et al. Training compute-optimal large language models[J]. arXiv preprint arXiv:2203.15556, 2022. https://arxiv.org/abs/2203.15556

8. Chang Y, Wang X, Wang J, et al. A survey on evaluation of large language models[J]. ACM transactions on intelligent systems and technology, 2024, 15(3): 1-45.

9. Shanahan M. Talking about large language models[J]. Commun ACM, 2024, 67(2): 68-79. DOI: 10.1145/3624724.

10. Cascella M, Semeraro F, Montomoli J, et al. The breakthrough of large language models release for medical applications: 1-year timeline and perspectives[J]. J Med Syst, 2024, 48(1): 22. DOI: 10.1007/s10916-024-02045-3.

11. Wong M, Lim ZW, Pushpanathan K, et al. Review of emerging trends and projection of future developments in large language models research in ophthalmology[J]. Br J Ophthalmol, 2024, 108(10): 1362-1370. DOI: 10.1136/bjo-2023-324734.

12. Masalkhi M, Ong J, Waisberg E, et al. ChatGPT to document ocular infectious diseases[J]. Eye (Lond), 2024, 38(5): 826-828. DOI: 10.1038/s41433-023-02823-2.

13. Waisberg E, Ong J, Zaman N, et al. GPT-4 for triaging ophthalmic symptoms[J]. Eye (Lond), 2023, 37(18): 3874-3875. DOI: 10.1038/s41433-023-02595-9.

14. Zandi R, Fahey JD, Drakopoulos M, et al. Exploring diagnostic precision and triage proficiency: a comparative study of GPT-4 and bard in addressing common ophthalmic complaints[J]. Bioengineering (Basel), 2024, 11(2): 120. DOI: 10.3390/bioengineering11020120.

15. Cohen SA, Brant A, Fisher AC, et al. Dr. google vs. dr. ChatGPT: exploring the use of artificial intelligence in ophthalmology by comparing the accuracy, safety, and readability of responses to frequently asked patient questions regarding cataracts and cataract surgery[J]. Semin Ophthalmol, 2024, 39(6): 472-479. DOI: 10.1080/08820538.2024.2326058.

16. Shah R, Edgar DF, Khatoon A, et al. Referrals from community optometrists to the hospital eye service in Scotland and England[J]. Eye (Lond), 2022, 36(9): 1754-1760. DOI: 10.1038/s41433-021-01728-2.

17. Sharma S, Pajai S, Prasad R, et al. A critical review of ChatGPT as a potential substitute for diabetes educators[J]. Cureus, 2023, 15(5): e38380. DOI: 10.7759/cureus.38380.

18. Jeblick K, Schachtner B, Dexl J, et al. ChatGPT makes medicine easy to swallow: an exploratory case study on simplified radiology reports[J]. Eur Radiol, 2024, 34(5): 2817-2825. DOI: 10.1007/s00330-023-10213-1.

19. Waisberg E, Ong J, Masalkhi M, et al. Chat Generative Pretrained Transformer to optimize accessibility for cataract surgery postoperative management[J]. Pan Am J Ophthalmol, 2023, 5(1): 46. DOI: 10.4103/pajo.pajo_51_23

20. Chowdhury M, Lim E, Higham A, et al. Can large language models safely address patient questions following cataract surgery?[C]//Proceedings of the 5th Clinical Natural Language Processing Workshop. Toronto, Canada. Stroudsburg, PA, USA: ACL, 2023: 131-137. DOI: 10.18653/v1/2023.clinicalnlp-1.17.

21. Hager P, Jungmann F, Holland R, et al. Evaluation and mitigation of the limitations of large language models in clinical decision-making[J]. Nat Med, 2024, 30(9): 2613-2622. DOI: 10.1038/s41591-024-03097-1.

22. Karabacak M, Margetis K. Embracing large language models for medical applications: opportunities and challenges[J]. Cureus, 2023, 15(5): e39305. DOI: 10.7759/cureus.39305.

23. Hu X, Ran AR, Nguyen TX, et al. What can GPT-4 do for diagnosing rare eye diseases?A pilot study[J]. Ophthalmol Ther, 2023, 12(6): 3395-3402. DOI: 10.1007/s40123-023-00789-8.

24. Delsoz M, Madadi Y, Raja H, et al. Performance of ChatGPT in diagnosis of corneal eye diseases[J]. Cornea, 2024, 43(5): 664-670. DOI: 10.1097/ICO.0000000000003492.

25. Delsoz M, Raja H, Madadi Y, et al. The use of ChatGPT to assist in diagnosing glaucoma based on clinical case reports[J]. Ophthalmol Ther, 2023, 12(6): 3121-3132. DOI: 10.1007/s40123-023-00805-x.

26. Liu X, Wu J, Shao A, et al. Uncovering language disparity of ChatGPT on retinal vascular disease classification: cross-sectional study[J]. J Med Internet Res, 2024, 26: e51926. DOI: 10.2196/51926.

27. Madadi Y, Delsoz M, Lao PA, et al. ChatGPT assisting diagnosis of neuro-ophthalmology diseases based on case reports[J]. medRxiv, 2023: 2023.09.13.23295508. DOI: 10.1101/2023.09.13.23295508.

28. Momenaei B, Wakabayashi T, Shahlaee A, et al. Appropriateness and readability of ChatGPT-4-generated responses for surgical treatment of retinal diseases[J]. Ophthalmol Retina, 2023, 7(10): 862-868. DOI: 10.1016/j.oret.2023.05.022.

29. Panthier C, Gatinel D. Success of ChatGPT, an AI language model, in taking the French language version of the European Board of Ophthalmology examination: a novel approach to medical knowledge assessment[J]. J Fr Ophtalmol, 2023, 46(7): 706-711. DOI: 10.1016/j.jfo.2023.05.006.

30. Waisberg E, Ong J, Masalkhi M, et al. GPT-4 to document ophthalmic post-operative complications[J]. Eye (Lond), 2024, 38(3): 414-415. DOI: 10.1038/s41433-023-02731-5.

31. Singh S, Djalilian A, Ali MJ. ChatGPT and ophthalmology: exploring its potential with discharge summaries and operative notes[J]. Semin Ophthalmol, 2023, 38(5): 503-507. DOI: 10.1080/08820538.2023.2209166.

32. Channa R, Zafar SN, Canner JK, et al. Epidemiology of eye-related emergency department visits[J]. JAMA Ophthalmol, 2016, 134(3): 312-319. DOI: 10.1001/jamaophthalmol.2015.5778.

33. Khan SA, Gunasekera C. “Comparative analysis of large language models against the NHS 111 online triaging for emergency ophthalmology”[J]. Eye, 2025: 1-8. DOI: 10.1038/s41433-025-03605-8.

34. Preiksaitis C, Ashenburg N, Bunney G, et al. The role of large language models in transforming emergency medicine: scoping review[J]. JMIR Med Inform, 2024, 12: e53787. DOI: 10.2196/53787.

35. Read-Brown S, Hribar MR, Reznick LG, et al. Time requirements for electronic health record use in an academic ophthalmology center[J]. JAMA Ophthalmol, 2017, 135(11): 1250-1257. DOI: 10.1001/jamaophthalmol.2017.4187.

36. Quiroz JC, Laranjo L, Kocaballi AB, et al. Challenges of developing a digital scribe to reduce clinical documentation burden[J]. NPJ Digit Med, 2019, 2: 114. DOI: 10.1038/s41746-019-0190-1.

37. Ghatnekar S, Faletsky A, Nambudiri VE. Digital scribe utility and barriers to implementation in clinical practice: a scoping review[J]. Health Technol (Berl), 2021, 11(4): 803-809. DOI: 10.1007/s12553-021-00568-0.

38. Van Veen D, Van Uden C, Blankemeier L, et al. Adapted large language models can outperform medical experts in clinical text summarization[J]. Nat Med, 2024, 30(4): 1134-1142. DOI: 10.1038/s41591-024-02855-5.

39. Tremoulet PD, Shah PD, Acosta AA, et al. Usability of electronic health record-generated discharge summaries: heuristic evaluation[J]. J Med Internet Res, 2021, 23(4): e25657. DOI: 10.2196/25657.

40. Decker H, Trang K, Ramirez J, et al. Large language model-based chatbot vs surgeon-generated informed consent documentation for common procedures[J]. JAMA Netw Open, 2023, 6(10): e2336997. DOI: 10.1001/jamanetworkopen.2023.36997.

41. Waisberg E, Ong J, Masalkhi M, et al. GPT-4 and ophthalmology operative notes[J]. Ann Biomed Eng, 2023, 51(11): 2353-2355. DOI: 10.1007/s10439-023-03263-5.

42. Chen X, Zhang W, Zhao Z, et al. ICGA-GPT: report generation and question answering for indocyanine green angiography images[J]. Br J Ophthalmol, 2024, 108(10): 1450-1456. DOI: 10.1136/bjo-2023-324446.

43. Lawson MA. Artificial intelligence in surgical documentation: a critical review of the role of large language models[J]. Ann Biomed Eng, 2023, 51(12): 2641-2642. DOI: 10.1007/s10439-023-03282-2.

44. Al Nazi Z, Peng W. Large language models in healthcare and medical domain: a review[J]. Informatics, 2024, 11(3): 57. DOI: 10.3390/informatics11030057.

45. Yang Z, Wang D, Zhou F, et al. Understanding natural language: Potential application of large language models to ophthalmology[J]. Asia Pac J Ophthalmol (Phila), 2024, 13(4): 100085. DOI: 10.1016/j.apjo.2024.100085.

46. Luo MJ, Pang J, Bi S, et al. Development and evaluation of a retrieval-augmented large language model framework for ophthalmology[J]. JAMA Ophthalmol, 2024, 142(9): 798-805. DOI: 10.1001/jamaophthalmol.2024.2513.

47. Chen C, Feng X, Li Y, et al. Integration of large language models and federated learning[EB/OL]. 2023: 2307.08925. https://arxiv.org/abs/2307.08925v3.

48. Fowler T, Pullen S, Birkett L. Performance of ChatGPT and Bard on the official part 1 FRCOphth practice questions[J]. Br J Ophthalmol, 2024, 108(10): 1379-1383. DOI: 10.1136/bjo-2023-324091.

49. Mehandru N, Miao BY, Almaraz ER, et al. Evaluating large language models as agents in the clinic[J]. NPJ Digit Med, 2024, 7(1): 84. DOI: 10.1038/s41746-024-01083-y.

50. Bernstein IA, Zhang YV, Govil D, et al. Comparison of ophthalmologist and large language model chatbot responses to online patient eye care questions[J]. JAMA Netw Open, 2023, 6(8): e2330320. DOI: 10.1001/jamanetworkopen.2023.30320.

51. Rasmussen MLR, Larsen AC, Subhi Y, et al. Artificial intelligence-based ChatGPT chatbot responses for patient and parent questions on vernal keratoconjunctivitis[J]. Graefes Arch Clin Exp Ophthalmol, 2023, 261(10): 3041-3043. DOI: 10.1007/s00417-023-06078-1.

52. Bubeck S, Chandrasekaran V, Eldan R, et al. Sparks of artificial general intelligence: early experiments with GPT-4[EB/OL]. 2023: 2303.12712. https://arxiv.org/abs/2303.12712v5.

53. Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748-8763.

54. Stade EC, Stirman SW, Ungar LH, et al. Large language models could change the future of behavioral healthcare: a proposal for responsible development and evaluation[J]. NPJ Ment Health Res, 2024, 3(1): 12. DOI: 10.1038/s44184-024-00056-z.

55. Sevgi M, Antaki F, Keane PA. Medical education with large language models in ophthalmology: custom instructions and enhanced retrieval capabilities[J]. Br J Ophthalmol, 2024, 108(10): 1354-1361. DOI: 10.1136/bjo-2023-325046.

56. Han JH. Artificial intelligence in eye disease: recent developments, applications, and surveys[J]. Diagnostics (Basel), 2022, 12(8): 1927. DOI: 10.3390/diagnostics12081927.

57. Keskinbora K, Güven F. Artificial intelligence and ophthalmology[J]. Turk J Ophthalmol, 2020, 50(1): 37-43. DOI: 10.4274/tjo.galenos.2020.78989.

58. Chen D, Ran AR, Tan TF, et al. Applications of artificial intelligence and deep learning in glaucoma[J]. Asia Pac J Ophthalmol (Phila), 2023, 12(1): 80-93. DOI: 10.1097/APO.0000000000000596.

59. Zhang Z, Wang Y, Zhang H, et al. Artificial intelligence-assisted diagnosis of ocular surface diseases[J]. Front Cell Dev Biol, 2023, 11: 1133680. DOI: 10.3389/fcell.2023.1133680.

彭歆童;李光宇,人工智能在泪器疾病诊疗中的应用：挑战与机遇赵越越;康刚劲,人工智能在白内障诊疗中的应用进展朱正阳;薛春燕,人工智能在近视防控与治疗中的应用进展