文章出處:公告通知 網責任編輯: 金飛鷹 閱讀量: 發(fā)表時間:2024-02-29
11月7日,國家藥監(jiān)局器審中心發(fā)布《人工智能輔助檢測醫(yī)療器械(軟件)臨床評價注冊審查指導原則》(以下簡稱《指導原則》),我們將其中部分重點內容摘錄如下:
人工智能醫(yī)療器械從與預期用途角度可分為輔助決策類和非輔助決策類。其中,輔助決策是指通過提供診療活動建議輔助醫(yī)務人員進行臨床決策,如通過異常識別、自動制定手術計劃進行輔助分診、輔助檢測、輔助診斷、輔助治療等。
人工智能輔助檢測產品,是指基于計算機人工智能算法,可包含模式識別和數據分析等功能,通過識別、標記、突出等方式提示醫(yī)師關注可能的異常/病變區(qū)域,從而輔助臨床醫(yī)師做出相應診療決策的產品,可為獨立軟件或嵌入式軟件;分類編碼為21-04-02,管理類別為III類;產品還可同時包含非輔助決策功能,如結構化報告生成、前后圖像對比、正常解剖組織的分割(如肺葉、肋骨等)、尺寸測量、CT值測量等臨床功能和數據儲存、傳輸等非臨床功能。人工智能輔助檢測產品常見的有針對肺結節(jié)、乳腺結節(jié)、骨折、血管狹窄、結腸息肉等病變/異常的檢出產品,本指導原則給出此類產品的通用要求,并以肺結節(jié)輔助檢測和結腸息肉輔助檢測產品為例(詳見附件),闡述對人工智能輔助檢測產品的臨床試驗中具體要素的考慮建議,同類型產品可參考相關適用部分。
本指導原則不適用于如下情形(但下述產品可參照本指導原則中適用部分的要求):1. 可鑒別病變的性質(如良惡性)或疾病分期分型的人工智能輔助診斷類產品;2. 預測疾病發(fā)生概率的產品;3. 可同時輔助檢測、鑒別診斷多種病變的多分類人工智能輔助檢測產品(例如同時輔助檢測并分類肺結節(jié)、條索、胸膜增厚、胸腔積液、肋骨骨折等的產品);4. 人工智能輔助分診、轉診產品,此類產品通過初步評估患者是否疑似患有目標疾病,從而對患者的分診轉診提供輔助決策建議,該類產品不給出具體病變情況,且無論輔助分診結果為陰性、陽性,均需專業(yè)醫(yī)師再一次對患者影像進行評閱,常見的有糖尿病視網膜病變輔助分診、肺炎輔助分診、腦出血輔助分診等;5. 配合體外診斷試劑產品使用的人工智能輔助分析軟件。
人工智能輔助檢測類產品的臨床意義通常在于提升醫(yī)師的病變檢測準確度,為充分評估產品的臨床受益風險可接受性,此類產品一般需考慮開展對照試驗,根據產品特征及臨床診療實際,可以為隨機平行對照、交叉自身對照或多閱片者多數據樣本(multiple reader multiple case,MRMC)試驗設計。
試驗組一般為醫(yī)師在軟件的輔助下完成異常/病變的檢測,對照組一般為臨床醫(yī)師獨立的異常/病變的檢測,比較二者的檢測準確度。
1. 適用人群的影像學樣本
預期人群的影像學樣本是人工智能輔助檢測產品臨床試驗的典型研究對象,影像學樣本需基于定義明確的入選和排除標準收集,可為臨床已有數據(如臨床診療中產生的真實世界數據)。考慮到AI與醫(yī)師觀察、操作的協(xié)同交互等因素,基于實時影像的輔助檢測產品臨床試驗,推薦考慮前瞻性采集影像檢查,作為臨床試驗研究對象。
為了保證臨床試驗質量以及結果的可靠性,選取研究對象時,申請人需考慮如下措施:一是納入數據樣本獨立于申報產品或前代產品開發(fā)所用數據集,如申報產品或前代產品的訓練集、測試集。二是采用臨床已有數據進行研究時,需基于明確且嚴格的入排標準和臨床試驗計劃,連續(xù)收集過往某段時間內、特定醫(yī)療機構內患者影像學數據,避免主觀挑選病例。三是考慮陽性樣本中,目標疾病的疾病譜分布(如分型、分期)合理性,某些對輔助檢測具有挑戰(zhàn)性的分期、分型,必要時在臨床試驗中富集相關具有代表性的亞組。四是通常情況下,需避免在一項臨床試驗中同時入組同一患者同一目標部位的多組樣本數據。五是臨床已有數據收集時,需盡可能全面地收集與疾病相關的信息(適用的),具體包括但不限于:
1)人口統(tǒng)計學信息(如年齡、性別);
2)與輔助檢測目標疾病相關的信息,如病史、疾病狀態(tài)、分期、分型、病變大小、病變位置、器官特征(如乳腺腺體分型)、伴隨疾病等。
3)確定為陽性/陰性病例的依據,如既往診斷結論,以及確定疾病狀態(tài)、部位和程度的方法。
2. 閱片者
由于閱片者表現(xiàn)的變異度及其與患者樣本變異度和診斷方法(即AI輔助器械)之間的交互效應,一般情況下宜將閱片者列入研究對象。基于非實時影像的輔助檢測產品(如肺結節(jié)/骨折/乳腺結節(jié)輔助檢測等),采用MRMC設計可較好的控制閱片者偏倚,同等情況下所需的樣本量一般較少,申請人可優(yōu)先考慮選擇。采用MRMC設計時,根據預期的使用者情況,選取不同年資的多位醫(yī)師作為閱片者,申請人需論述閱片者數量的合理性。
主要評價指標應結合產品設計特征進行綜合選擇,一般認為靈敏度、特異度、ROC或其衍生曲線等診斷準確性指標受樣本患病率差異的影響較小,因此,宜優(yōu)先考慮此類指標作為主要評價指標。
無論選擇哪些指標作為主要評價指標,該類產品臨床試驗應當考慮整體的優(yōu)效性設計,例如ROC或其衍生曲線下面積(Area Under Curve,AUC)的優(yōu)效設計,或者目標疾病輔助檢測特異度非劣效前提下的靈敏度優(yōu)效性,或者息肉/腺瘤初檢檢出率的優(yōu)效性等。
申請人應詳述臨床參考標準的選擇、構建方法及理由??晒┻x擇的臨床參考標準構建方法包括:一是以臨床已確認結果為臨床參考標準,即臨床上結合患者影像學檢查、病史、實驗室檢查(如病理檢查)、長期隨訪結果等方法綜合判定的臨床診斷結果;二是通過專家組對研究對象(影像樣本)的閱片判定作為臨床參考標準。
對于人工智能輔助檢測產品,若根據產品設計判定可采用專家組意見作為臨床參考標準,通??蛇x擇高年資醫(yī)師組成的閱片專家組綜合意見為臨床參考標準,閱片專家組的成員需獨立于“試驗和對照組的閱片研究者”,并需要明確:1.專家數量;2.專家經驗及專業(yè)水平;3.決策機制(如遵循多數意見、背靠背第三人仲裁等);4.專家決策時所依據的信息(如圖像上是否有標記,是否還提供了病史或其他檢查結果等);5.判定所依據的臨床準則(如臨床指南、診療規(guī)范、專家共識等)。
對于試驗中對病灶的檢出是否與臨床參考標準專家組意見一致,一般可考慮:1.試驗組/對照組勾畫病灶的中心在專家組勾畫的病灶輪廓邊界范圍內;2.試驗組/對照組勾畫病灶與專家組勾畫病灶的像素重合度高于一定比例(需提供比例設定的支持依據);若采用其他判定方法,則需論述合理性。
若采用臨床已確認結果作為臨床參考標準,則需明確:1.已確認結果所依據的臨床信息,包括檢查類型及結果;2.各類影像學檢查的設備信息,包括影像檢查的掃描條件等;3. 已確認結果的臨床診斷依據;4.得出已確認結果的醫(yī)師情況,包括專家會診,需明確醫(yī)師資質;5.若還依據了臨床隨訪數據,則還需明確隨訪的時間以及隨訪所做的檢查類型及結果。
樣本量估算需綜合考慮臨床試驗設計、主要評價指標和統(tǒng)計學要求。申請人需明確計算公式、相應參數及確定理由,以及所用的統(tǒng)計軟件。
臨床試驗資料中可以提供樣本患病率以及目標疾病的流行病學研究的患病率情況進行合理性論述,并確保臨床研究設計中樣本數據隨機分配給閱片者進行評閱。
平行對照試驗樣本量計算可參考《醫(yī)療器械臨床試驗設計指導原則》中的相關內容。
若采用MRMC的試驗設計,樣本量計算需首先明確具體的分析方法,如Obuchowski-Rockette Analysis(OR分析方法)、Dorfman-Berbaum-Metz-Hillis Analysis(DBMH分析法),并進一步明確受試醫(yī)師數量,檢驗水準α、檢驗效能1-β、預計效應值,優(yōu)效/非劣效界值,其中預計效應值可通過預試驗或調研并匯總分析目標病灶檢出的診斷學研究文獻獲得,優(yōu)效/非劣效界值應通過同品種產品臨床試驗結果或權威文獻研究等確定。不同疾病的檢測效應不同,在試驗設計中應明確優(yōu)效/非劣效界值的設定依據。以DBMH分析法為例,樣本量估算與交互隨機效應值,檢驗的檢驗效能、檢驗水準,受試醫(yī)師數量,優(yōu)效界值,非劣效界值(如有)等要素有關。用于樣本量估算的效應值(effect size)選擇時,可通過預試驗得到的誤差和混合效應方差來估計,并考慮預試驗樣本量等情況,在預試驗結果的基礎上采用適度保守的估計。
所有應用了試驗產品的受試醫(yī)師和患者都將被納入分析,對于主要指標,除給出主要評價指標(靈敏度、特異度、AUC)的點估計外,還將分別對其對應的95%置信區(qū)間進行估計,通過試驗組與對照組的優(yōu)效/非劣效比較判斷本試驗產品是否滿足臨床應用的需要。
1. 臨床試驗培訓
在試驗前對閱片者開展必要的培訓,可以有效降低試驗的偏倚。除基本情況培訓(試驗流程、術語定義、數據樣本閱片的評價標準等)以外,還需考慮案例培訓和典型數據樣本講解等,且所用案例獨立于試驗研究數據樣本;培訓中宜設置閱片者培訓結果測試及合格接受標準;建議臨床試驗中,對閱片者的培訓與臨床應用時的培訓,在方法、時間、接受標準上盡量保持一致性;并考慮對臨床試驗閱片者資質、能力等要求與臨床應用時使用者情況的匹配性。對專家組的培訓時間和接受標準宜顯著高于試驗組/對照組的閱片者的培訓時間和接受標準。
2. 影像樣本評閱質量控制
一是由閱片者在獨立盲法條件下對患者關于試驗的影像檢測結果進行解釋。二是在選取試驗閱片者時基于其專業(yè)能力和參與研究的可能性,充分保證閱片者對預期使用者的代表性。可考慮不同醫(yī)療機構來源、不同年資/專業(yè)水平的醫(yī)師。三是將數據樣本的臨床診斷結果、臨床參考標準判定結果、其他診斷信息(如生化檢測結果、后續(xù)治療等)或基本信息(如年齡、病史等)對試驗的閱片者設盲。四是對照試驗可考慮采用交叉閱片設計,交叉設計中可根據相關領域記憶曲線的研究設置合理的洗脫期。若采用多閱片者,最好每位閱片者按照不同的數據樣本順序進行評閱,有文獻報道典型的洗脫期一般為4~6周。是否采用交叉設計可根據申報產品的臨床應用方法、場景及適用范圍等綜合判定。
以上僅對部分內容進行摘錄,如需查看《指導原則》全文,請前往器審中心官網。
醫(yī)療器械注冊咨詢認準金飛鷹 深圳:0755-86194173 廣州:020 - 82177679 湖南:0731-22881823 四川:028 - 68214295