《使用面部图像分析软件诊断内分泌和遗传疾病:回顾,当前研究结果以及未来展望》
Abstract
库欣综合征(CS)和肢端肥大症普遍是在发病后几年才能被诊断出的内分泌疾病。现在需要新的诊断方法,提高医生的认识。脸部分类技术是最近在初步研究中被引入的针对CS和肢端肥大症诊断的一种有前途的工具。它也被用来对各种遗传综合征进行分类通过使用常规面部照片。作者提出了该技术的基本解释,回顾了在医学中使用该技术的现有文献,并探讨未来可能的发展。本文的这种技术已经应用于以前的正脸和侧脸的标准化图片的分类研究中。图像分析是基于施加数学函数几何评估和图像纹理到一个半自动生成网格的节点,并将这些结点放置在相关的面部结构中,产生一个二进制分类结果。目前的研究重点是改善这种方法的诊断算法,使它更接近临床使用。至于对该方法未来应用的看法,作者提出了一个在线界面,便于对提交结果作为临床应用的可能模式的分析和检索病人数据。
Cushing’s syndrome (CS) and acromegaly are endocrine diseases that are currently diagnosed with a delay of several years from disease onset. Novel diagnostic approaches and increased awareness among physicians are needed. Face classification technology has recently been introduced as a promising diagnostic tool for CS and acromegaly in pilot studies. It has also been used to classify various genetic syndromes using regular facial photographs. The authors provide a basic explanation of the technology, review available literature regarding its use in a medical setting, and discuss possible future developments. The method the authors have employed in previous studies uses standardized frontal and profile facial photographs for classification. Image analysis is based on applying mathematical functions evaluating geometry and image texture to a grid of nodes semi-automatically placed on relevant facial structures, yielding a binary classification result. Ongoing research focuses on improving diagnostic algorithms of this method and bringing it closer to clinical use. Regarding future perspectives, the authors propose an online interface that facilitates submission of patient data for analysis and retrieval of results as a possible model for clinical application.
英文
Introduction
Recent studies have found that CS is currently diagnosed with a latency of about – years. This may partly be due to an overlap of clinical features with the more common metabolic syndrome. Acromegaly is still diagnosed with a delay of about years, most likely due to the slow progression of symptoms.
英文
Patient suffering from acromegaly with node placement used for analyses.
Basic description of the facial image analysis and classification method
大体分为三步:
- 在图片上检测标志;
- 从照片中提取并且分析信息;
- 使用分类算法对图像进行分类。
Gabor wavelet transformations gabor小波变换
http://blog.csdn.net/u013360881/article/details/43490791
gabor小波变换
maximum likelihood classifier 极大似然分类器
http://blog.csdn.net/liangdas/article/details/19294951
极大似然分类法
control subjects vs patients 正样本和负样本
Overall classification accuracy is calculated using the leave-one-out cross-validation method. 总体精度的计算使用交叉验证留一法
交叉验证是一种用来评价一个统计分析的结果是否可以推广到一个独立的数据集上的技术。主要用于预测,即,想要估计一个预测模型的实际应用中的准确度。它是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。
交叉验证的理论是由Seymour Geisser所开始的。 它对于防范testing hypotheses suggested by the data是非常重要的, 特别是当后续的样本是危险、成本过高或不可能(uncomfortable science)去搜集。
一个交叉验证将样本数据集分成两个互补的子集,一个子集用于训练(分类器或模型)称为训练集(training set);另一个子集用于验证(分类器或模型的)分析的有效性称为测试集(testing set)。利用测试集来测试训练得到的分类器或模型,以此作为分类器或模型的性能指标。得到高度预测精确度和低的预测误差,是研究的期望。为了减少交叉验证结果的可变性,对一个样本数据集进行多次不同的划分,得到不同的互补子集,进行多次交叉验证。取多次验证的平均值作为验证结果。
在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。这个过程一直进行,直到所有的样本都被预报了一次而且仅被预报一次。把每个样本的预报误差平方加和,称为PRESS(predicted Error Sum of Squares)。
目的
用交叉验证的目的是为了得到可靠稳定的模型。在建立PCR 或PLS 模型时,一个很重要的因素是取多少个主成分的问题?用cross validation 校验每个主成分下的PRESS值,选择PRESS值小的主成分数。或PRESS值不在变小时的主成分数
交叉验证的目的:假设分类器或模型有一个或多个未知的参数,并且设这个训练器(模型)与已有样本数据集(训练数据集)匹配。训练的过程是指优化模型的参数,以使得分类器或模型能够尽可能的与训练数据集匹配。我们在同一数据集总体中,取一个独立的测试数据集。
常见类型的交叉验证:
、重复随机子抽样验证。将数据集随机的划分为训练集和测试集。对每一个划分,用训练集训练分类器或模型,用测试集评估预测的精确度。进行多次划分,用均值来表示效能。
优点:与k倍交叉验证相比,这种方法的与k无关。
缺点:有些数据可能从未做过训练或测试数据;而有些数据不止一次选为训练或测试数据。
、K倍交叉验证(K>=)。将样本数据集随机划分为K个子集(一般是均分),将一个子集数据作为测试集,其余的K-1组子集作为训练集;将K个子集轮流作为测试集,重复上述过程,这样得到了K个分类器或模型,并利用测试集得到了K个分类器或模型的分类准确率。用K个分类准确率的平均值作为分类器或模型的性能指标。-倍交叉证实是比较常用的。
优点:每一个样本数据都即被用作训练数据,也被用作测试数据。避免的过度学习和欠学习状态的发生,得到的结果比较具有说服力。
、留一法交叉验证。假设样本数据集中有N个样本数据。将每个样本单独作为测试集,其余N-1个样本作为训练集,这样得到了N个分类器或模型,用这N个分类器或模型的分类准确率的平均数作为此分类器的性能指标。
优点:每一个分类器或模型都是用几乎所有的样本来训练模型,最接近样本,这样评估所得的结果比较可靠。实验没有随机因素,整个过程是可重复的。
缺点:计算成本高,当N非常大时,计算耗时。
训练集和测试集的选取:
、训练集中样本数量要足够多,一般至少大于总样本数的50%。
、训练集和测试集必须从完整的数据集中均匀取样。均匀取样的目的是希望减少训练集、测试集与原数据集之间的偏差。当样本数量足够多时,通过随机取样,便可以实现均匀取样的效果。(随机取样,可重复性差)
交叉验证
Application in acromegaly
local binary patterns
http://www.cnblogs.com/yingying0907/archive/2012/11/18/2773920.html
local binary patterns
Manhattan classifier 暂时没找到具体解释
软件,专家和内科医生的分类准确率
Application in CS and current research
proof-of-concept study 概念验证性研究
概念验证指你有一个医学假设,经过一番努力后你找到了一个足够活性,选择性,和药代性质的化合物,如果动物或病人吃了这个药物产生预期的效果,则证实了你的假设,因此此试验叫概念验证。对人来说,这一般指2期临床。但医学假设永远不能100%得到验证,只能不断加强或削弱。从这个意义讲,别说3期,上市药物一样值得研究。但越成熟的理论越需要突破性试验推翻,你得看人家的理论有无漏洞,你自己是否有无独到的见解。 、POC的概念 POC,是Proof of
Concept的缩写,意思是为观点提供证据,它是一套建议的电子模型,它可用于论证团队和客户的设计,允许评估和确认概念设计方案,POC的评价可能引
起规格和设计的调整。POC流程所产生的关于设计的承诺、大家都认可的意见都将记录在设计的调整文档中,以备查。这样下去,POC不断发展。
如果在完成这些任务时需要帮助,可以在Queensland大学找到协助资源。 、POC的开发。POC的开发步骤及方法如下:
第一步,开发包含所有基本导航特征(按纽,图标、菜单等)的界面模型,但不是最终的完美形式。
第二步,给界面添加少量内容,尤其是在至关重要的媒体中添加一到两个样本。例如,如果套装软件包非常依赖3D模型,就应该添加一个包含驱动所必须的3D模型样本。如果软件包需要显示数据符号和表格,那么有关数据符号和表格的样本也应添加上。
请注意,这个过程应该用于支持论证和验证设计,而并不是软件包开发的实际开端。你应该尽力去论证和销售设计,但也不要太过分,因为设计过程中有时需要作重大的修改,这样将导致浪费大量的资源。 、POC的评价和验证。评价和验证过程就是寻求风险承担者通过POC和备案设计文档的反馈。通过POC评价,风险承担者可能提出调整规格和设计的要求。
有时,由于设计存在的缺陷或不适当的地方,设计团队就可能只好回到绘图板。客户可能决定停止设计或寻找其他团队,这是因为设计没有足够地关注客户和使用者的需求,或者是因为客户需求的不稳定性。有时这种改变是由客户组织或者项目决策者所引起的。
通常,在评价和验证过程结束时,有关设计的承诺、大家都认可的意见都将记录在备案的设计文档中,这往往是产品开发的生命周期中一个重要的里程碑。在结束评价和验证之后,POC就可继续发展。 、最小化的需求。尽管POC是产品开发过程中重要的评估技术,但是你也应该限制在POC开发方面所花费的时间,考虑到早先的设计阶段包含的所有因素,构建POC中关键元素。
应该把充足的精力用于论证和认同设计方面,但也不要过多,这样即使设计中需要作重大的修改,也不会导致浪费大量的资源。
在全面设计开始执行之前,让客户对设计认可是必要的。 、客户的角色定位。规格和设计阶段,要求产品开发有详细的设计文档,而且POC常伴随着产品开发。客户签署设计文档中,并反馈POC是重要的项目里程碑。如果在下一阶段仍需修改产品设计,就要按照受控的变更控制流程得到认可和批准。在整个项目过程中处理不同的检查和停顿时,客户的一个重要职责是为按期交付而保证已确认的进度表,并同意为防止计划被耽搁而需再投资的情况出现。
概念验证
endogenous or iatrogenic CS 内源性或医源性CS
内源性:由人体内部因素产生或引起的(疾病,物质等)。如内源性哮喘、内源性瘀血、内源性吗啡肽。 外源性:是一个生物学概念,但医学中也经常用到。和内源性相对应,指一切非本体的因素,即来源自外部而能对本体发生作用的因素。如天气、土壤、水质是使种子发生变异的外源性因素;如碰伤是使血友病人病情恶化的外源性因素。 医源性:指在诊治或预防疾病过程中,由于医护人员各种言行、措施不当而造成不利于患者身心健康的疾病。出现医源性疾病的环节和涉及面较医源性传播广,可发生在防治疾病的任何环节中,大致可分为诊断性医源性疾病和治疗性医源性疾病两大类。
内源性和医源性
Application of face classification technology in genetic disorders
Zhao et al.reported that using Independent Component Analysis for landmark placement, local binary patterns for feature extraction and SVMs for classification, they achieved 96.7% accuracy in the classification of a data set consisting of 130 facial photographs (50 patients with Down syndrome, 80 healthy subjects).
Independent Component Analysis 独立成分分析
http://www.zhihu.com/question/28845451/answer/42537342
独立成分分析
Conclusions and future perspectives
对于未来,这项技术可以作为筛选工具选择需要额外的生化检测患者。理论上,它也可以用于追踪检查病人的情况,可以直接与对方比较,也可以与数据库中无问题的图像比较,通过疾病的严重程度和潜在的进展形成是否复发的标志。 此外,在线界面也是非常重要的一件事情, 这样的话大家就可以先用人脸识别系统对自己的身体状况做简单的解,再做是否要就诊的打算。但改进的人脸识别和分析的模型是一个广泛的过程,首先需要建立一个更显着的、更大的数据库。而在医学中的应用,除了这种技术上的,人脸识别也可以作为患者的紧急病例,或用脸付账等等。