摘 要: 藥物性肝損傷(Drug-induced liver injury, DILI)是導致藥物終止臨床試驗和退出市場的主要原因,由于評價候選藥物潛在毒性的動物模型和體外細胞模型物種間的一致性較差、無法模擬人體內復雜的環境等原因導致準確度較低。隨著組合化學和高通量篩選技術的發展產生了大量數據,并推動了人工智能和學習算法的進步,越來越多的人工智能應用于藥物性肝損傷研究,提高了預測藥物肝臟毒性的準確性。為了比較不同的建模算法在藥物肝臟毒性預測中的優劣并為今后的研究提供一定的參考,對近十年使用人工智能針對肝臟毒性開發的QSAR模型進行了綜述。
關鍵詞: 藥物性肝損傷; 藥物毒性; 人工智能; 機器學習; 定量構效關系(QSAR);
Abstract: Drug-induced liver injury (DILI) is the main reason for drug candidates to suspend clinical trials and withdrawal from the market. Animal models and in vitro cell models used in evaluating the potential toxicity of drug candidates are in accurate due to poor interspecies consistency and inability to simulate complex environments in vivo. With the development of combinatorial chemistry and high-throughput screening techniques, the generation of large amounts of data promotes the advancement of artificial intelligence and learning algorithms. More and more machine artificial intelligence has been applied to the study of drug-induced liver injury, which improves the accuracy of predicting drug liver toxicity. In order to dicuss the advantages and disadvantages of different modeling algorithms in the prediction and provide some references for future research,we summarized the QSAR model for hepatotoxicity using machine learning in the past ten years.
Keyword: drug-induced liver injury; drug toxicity; artificial intelligence; machine learning; QSAR;
藥物研發是一項復雜、昂貴、耗時的過程,并且具有很高的損耗率[1,2]。據統計,一種新型處方藥物的平均研發周期約10~17年[3],稅前支出約25.58億美元[4]。然而,盡管投入了大量的時間和經濟成本,新藥的研發成功率仍然很低。藥物性肝損傷(Drug-induced liver injury,DILI)是藥物終止臨床試驗和退出市場的主要原因[5,6,7],目前已導致曲格列酮、布洛芬栓、替卡韋等藥物的退市[8,9]。DILI是原因是藥物本身或其代謝產物具有肝臟毒性[10],其表現可以從肝酶升高到肝功能衰竭[11,12]。此外,接觸程度、環境因素、遺傳因素等都可能在肝毒性中起作用[13,14]。因此,臨床前階段的藥物肝臟毒性預測雖然非常必要,但由于涉及的因素過多往往難以準確地實現[15]。
目前,主要使用動物模型來評價候選藥物潛在的肝臟毒性,由于藥物的毒副作用,其損耗率已經超過20%,并且還在迅速上升[16]。此外,動物模型未涉及人體生理學的多個方面,物種間的一致性較差[17],在預測候選藥物潛在毒性方面表現不佳。此后,由于體外細胞模型能夠反映一定的人體生理學特征,因此提高了預測藥物毒性的準確性[18,19]。然而,簡單的體外細胞模型仍無法完全體現人體內復雜的環境,如酶與藥物復雜的相互作用以及慢性毒性機制,其準確性仍然有待提高。因此,需盡早開發出更有效的方法來識別和淘汰安全性較差的藥物。
與動物試驗和體外細胞模型相比,用于評估藥物潛在毒性的計算工具幾乎是沒有成本的,并且適用于虛擬篩選合成前的化合物。定量構效關系(Quantitative structure–activity relationship,QSAR)是一種廣泛用于預測藥物毒性和生成模型的計算方法,所得模型的質量在很大程度上取決于所采用的化學描述符和建模算法。早期的模型通常基于簡單的經驗描述符(如物理化學性質)和線性回歸算法[20,21],這類模型易于實現和解釋,但僅適用于與建模集高度相似的化合物。后來,大量的數據使得人工智能和機器學習迅速發展,更復雜的算法如深度學習以及更多樣的描述符應用于QSAR建模,因此提高了QSAR的普適性和準確性[22,23]。
為了比較不同的建模算法在藥物肝臟毒性預測中的優劣,并為今后的研究提供一定的參考,本文主要對近十年使用人工智能針對肝臟毒性開發的QSAR模型進行了綜述。首先,簡單介紹了大數據和人工智能的發展;隨后,對近十年使用人工智能針對肝臟毒性開發的QSAR模型研究進行了綜述;此外,討論了目前機器學習在計算毒理學的局限性;最后,提出了人工智能在計算毒理學應用中的展望。
1、 大數據和人工智能
在過去的十幾年中,隨著組合化學和高通量篩選(high-throughput screening, HTS)技術的發展[24,25],產生了大量的生物數據[26,27],并由此推動了幾個公共數據庫的建立,如:包含化合物結構和生物特性的公共數據庫PubChem[28],包含化合物結構、功能、ADME和毒性數據庫ChEMBL[29],關注藥物毒性的數據庫DrugMatrix,包含所有批準的藥物及其機制、相互作用和相關靶標數據庫DrugBank,主要收集藥物靶點和類藥小分子之間相互作用親和力的Binding數據庫[30]等。大數據并不僅僅意味著大量的數據,其真正有價值的信息是數據類型的多樣性[31]。藥物研發恰恰是一個擁有多樣數據源的領域,研究者們可通過相關的數據,利用先進的搜索技術和算法構建預測模型,該模型可將一組分子描述符與藥物的關鍵性質(如藥物的吸收、分布、代謝、排泄和毒性,即ADMET)聯系起來,并利用該模型來預測新化合物的性質,從而促進藥物的研發[32,33,34,35]。
2 、學習算法
2.1 、算法的發展
在藥物研發的早期階段(20世紀90年代之前),常使用線性回歸算法[36]和化學結構特征描述符(如原子類型和碎片描述符[37,38])來構建模型。隨著數據量的增加,新型化學描述符如拓撲描述符[39]和分子指紋描述符[40]得到發展,增加了用于建模的描述符大小和類別,促進了人工智能在藥物研發中的應用。從20世紀90年代到21世紀,基于非線性算法開發的機器學習算法(如K-近鄰),支持向量機和隨機森林被廣泛應用于建模研究中。此后,隨著硬件能力的提高和數據集的增加,不斷有新的機器學習方法被應用于藥物的研發,如圖1所示。
圖1 數據大小、計算機硬件發展和算法發展的關系
Fig.1 Relationship between data size, computer hardware and algorithm development
2.2 、常用的機器學習算法
根據不同的學習方式和處理問題的類型,常用的機器學習算法有:邏輯回歸(Logistic Regression)[41]、反向傳遞神經網絡(Back Propagation Neural Network)[42]、K-Means算法[43]、支持向量機(Support Vector Machine,SVM)[44,45]、K近鄰(k-Nearest Neighbor,k-NN)[46]、隨機森林(Random Forest,RF)[47]、樸素貝葉斯算法(Naive Bayes classifier,NB)[48]、線性判別分析(Linear Discriminate Analysis,LDA)[49]、人工神經網絡(Artificial Neural Network,ANN)[50,51,52]和深度學習(Deep Learning,DL)。其中深度學習包括深度神經網絡(Deep Neural Networks,DNNs)[53]、卷積神經網絡(ConvolutionalNeural Networks,CNNs)[54]、循環或遞歸神經網絡(Recurrent orRecursiveNeural Networks,RNNs)[55]以及包含超過一個隱藏層、每層有多個神經元的深度網絡,見圖2。
圖2 不同類型的機器學習算法
Fig.2 Different types of machine learning algorithms
3 、人工智能在藥物肝臟毒性預測中的應用
預測藥物毒性的計算方法主要分為基于化合物結構的方法和基于代謝酶的方法。在基于化合物結構的方法中,已知毒性化合物和非毒性化合物的結構建模,導出QSAR模型進而預測新化合物的潛在毒性。在基于代謝酶的方法中,主要針對細胞色素P450酶,該酶系在外源性化合物的生物轉化中起著十分重要的作用。
3.1、 基于結構的方法
從化學結構直接預測候選藥物的肝臟毒性對于指導開發更安全的藥物至關重要。2010年,Fourches等[56]使用531個化合物及其肝臟病理活性作為數據集,利用SVM算法,以Dragon描述符建立QSAR模型來預測化合物是否在人體中產生肝臟毒性。通過5倍交叉驗證,模型的預測準確度為61.9%~67.5%,雖然準確度一般,但該工作開啟了機器學習在肝臟毒性預測中的研究。
2010年,Rodgers等[57]同樣基于化學結構建立了藥物肝臟毒性二分類的QSAR模型。研究者使用從HLAED數據庫經篩選得到的295個化合物及其肝臟毒性作為數據集,利用k-NN算法,以MolConnZ和Dragon兩種不同的描述符構建QSAR模型。經驗證,以Dragon為描述符的模型靈敏度>73%,特異性>94%,具有較好的預測性能。以MolconnZ為描述符的模型預測能力較差,研究人員未給出相應的數據。
為了進一步提高算法的預測性能,2011年,Liew等[58]開發了一種預測肝臟毒性的混合學習模型。研究人員使用從FDA橙皮書[59]、默克索引[60]和《藥物性肝病》[61]中篩選得到1087個化合物(654種陽性化合物和433種陰性化合物)作為數據集,利用k-NN、SVM和NB算法,采用PaDEL描述符構建多個QSAR獨立模型。通過驗證,有794個獨立模型達到要求(AUC(Area Under Curve)≥0.6,靈敏度≥0.6,特異性≥0.6)并被納入用來構建混合模型。從隨機抽取5個獨立模型開始,以4個為單位遞增(如5、9、……、793個獨立模型),直到由793個獨立模型組成混合模型,各模型的平均性能如圖3所示。當獨立模型數量達到617個時(408個k-NN、195個SVM、14個NB),其預測性能趨于穩定,此時的AUC為82.2%,準確度87.6%,靈敏度91.9%,特異性81.1%。在valBLACK集中,其AUC為92.4%。目前,該混合模型可在網站http://padel.nus.edu下載使用。
圖3 混合學習模型的數量和性能對比圖
Fig.3 Number and performance of mixed learning algorithms
以往的肝臟毒性模型大多數是使用分子描述符建立的,2011年,Low等[62]比較了單獨或同時使用分子描述符和生物測定數據描述符(即肝臟毒性基因組學數據)對模型預測性能的影響。研究者使用日本毒性基因組學項目[63]中的127種藥物作為數據集,采用k-NN、SVM、RF和DWD(distance weighted discrimination)[64]為學習算法建立預測模型。經驗證,單獨使用分子描述符建立的QSAR模型預測性能普遍較差,正確分類率(Correct Classification Rate,CCR)在55%~61%之間;單獨使用生物測定數據描述符建立的QSAR模型,平均預測CCR在69%~76%之間;同時使用分子描述符和生物測定數據描述符構建的混合模型的CCR沒有超過單純基于生物測定數據模型的CCR,但該混合模型識別了重要的分子描述符,增強了對建模結果的解釋。
針對膽紅素血癥、膽囊炎、肝硬化等毒副作用,2011年,Liu等[65]從SIDER數據庫中篩選出13種肝臟毒副作用分別建立預測模型,并將其進一步組合成1個DILI預測系統(DILIps)。3個獨立的測試集在DILIps中的預測準確率為60%~70%,見表1。該DILIps模型有望成為篩選候選藥物是否具有肝臟毒性的工具。
表1 肝臟毒性模型的預測性能
2015年,Liu等[66]針對肝臟肥大、損傷和增生性病變,使用ToxRefDB[67]和ToxCast數據庫的677個化合物及其肝毒性作為數據集,采用711個體外生物活性描述符(來自ToxCast assays)和4376個化學結構描述符(來自QikProp、OpenBabel、PaDEL和PubChem),利用監督學習算法,包括LDA、NB、SVM、CART、k-NN以及這些分類器的集合(ENSMB)來構建預測肝毒性的模型。通過10倍交叉驗證,混合分類器在預測肝臟肥大(準確性為0.84±0.08)、損傷(準確性為0.80±0.09)和增生性病變(準確性為0.80±0.10)方面具有最佳的準確性,該研究體現了使用多個算法的集合來構建預測模型的優勢。
2015年,Muller等[68]針對膽汁阻塞、氧化應激、線粒體損傷等7種不同的藥物性肝損傷,采用分子描述符、肝臟毒性生物描述符以及兩者的混合描述符,利用SVM、ANNs和RF構建藥物肝臟毒性的預測模型。在獨立測試集上驗證表明,單獨使用分子描述符的模型表現不佳,而包含肝臟毒性的生物描述符的模型具有較高的預測能力,5倍交叉驗證的平均精度約90%。
2015年,Xu等[69]首次使用深度學習算法開發藥物肝臟損傷模型,研究人員使用從NCTR數據集[70]、Greene的數據集、Xu數據集和Liew數據集篩選得到的475個化合物及其毒性數據為訓練集,分別采用Mold2和PaDEL兩種不同的描述符進行模型的訓練。結果表明,使用深度學習開發的模型,其準確度為86.9%,靈敏度為82.5%,特異性為92.9%,AUC為95.5%,比之前所有的預測模型的性能要好,如圖4所示。目前,該預測模型可在http://www.repharma.cn/DILIserver/DILI_home.php免費獲得,該研究展示了深度學習在處理少量數據中的巨大潛力。
圖4 不同描述符類型模型的預測ROC曲線
Fig.4 ROC curve for different descriptor type models
3.2 、基于配體的方法
細胞色素P450(cytochromeP450,CYP450)是自然界中普遍存在的酶家族,并參與大部分藥物的代謝[71]。在人類身上,已經鑒定出超過50種CYP450酶,其中CYP1A2、CYP2C9、CYP2C19、CYP2D6和CYP3A4這5種亞型催化藥物分子脫烷基、氧化、環氧化、亞砜化、脫氨基化等90%的代謝反應[72,73]。通常藥物經代謝反應后毒性降低,但由于某些藥物分子抑制CYP450酶系(CYP)的活性,導致藥物無法代謝并在體內大量積蓄,造成肝損傷。此外,部分藥物經CYP450酶代謝產生親電或氧自由基的反應性代謝產物與細胞膜發生化學反應直接導致肝損傷,或與肝細胞內大分子共價結合,通過誘發免疫反應等引起免疫病理損傷[74]。因此,利用QSAR模型研究CYP450與藥物分子的相互作用,在藥物開發早期檢測潛在的肝毒性同樣是非常重要的手段。
2011年,Cheng等[75]使用C4.5決策樹[76]、k-NN和貝葉斯組成的集合算法對包含24700種化合物的大型數據集開發了針對上述5種主要CYP酶抑制劑預測模型。通過5倍交叉驗證,CYP1A2、CYP2C9、CYP2C19、CYP2D6和CYP3A4模型的AUC面積分別為:0.764~0.815,0.837~0.861,0.793~0.842,0.839~0.886和0.754~0.790。這些分類模型適用于上述5種CYP亞型抑制劑的虛擬篩選,可用于藥物研發中發現具有潛在毒性的化學物。
CYP1A2是CYP450酶系的主要成員,占人體肝臟中CYP總含量的15%。2011年,Novotarskyi等[77]使用PubChem BioAssay數據庫中的3745個CYP1A2抑制劑和3741個CYP1A2非抑制劑為數據集,采用E-state, Dragon和 ISIDA SMF描述符,利用ASNN[78]、k-NN、RT和SVM算法構建并比較了80種QSAR模型。其中,最優的模型在內部和外部測試集上分別實現了83%和68%的正確分類率。
2011年,Sun等[79]使用PubChem數據庫中的17143個化合物為數據集,首次采用原子類型分子描述符,利用支持向量分類(support vector classification,SVC)[80]為上述5種CYP亞型建立預測模型。優化后的SVC模型對5種CYP450酶的測試集都具有較高的預測能力,對CYP1A2、CYP2C9、CYP2C19、CYP2D6和CYP3A4的AUC面積分別為0.93、0.89、0.89、0.85和0.87。該研究表明,從高質量的數據集中生成的原子類型描述符,能為SVM算法提供豐富的學習數據,并為藥物毒性預測提供有價值信息。
2013年,Rostkowski等[81]使用PubChem生物測定數據庫中篩選得到的17143個化合物為數據集,利用SVM算法,對上述5種CYP450酶分別創建訓練模型,經驗證AUC值在0.88到0.95之間,見表2。除CYP2D6模型之外,所有模型的AUC值均在90%以上。該研究可以幫助藥物化學家了解哪些CYP亞型會被化合物抑制,以避免藥物之間的相互作用,從而避免肝臟毒性。
表2 各CYP模型的預測性能
2015年,Su等[82]使用美國國立衛生研究院化學基因組中心(NCGC)[83]的16000多種化合物為數據集,采用PaDEL、Mold2和PubChem指紋描述符及不同的組合為描述符,利用基于規則的C5.0算法[84]和SVM來構建預測模型。通過測試,C5.0與SVM的性能相當,最佳的C5.0模型的平均靈敏度和特異性分別為74.7%和80.7%,最佳的SVM模型的平均靈敏度和特異性分別為79.4%和81.7%,兩種模型的靈敏度和特異性的平均百分比差異很小。
2015年,Hughes等[85]利用深度卷積神經網絡來預測分子能否發生環氧化反應,從而預測潛在的肝臟毒性。研究人員利用702個環氧化反應數據庫構建預測模型,準確率為94.9%,分離環氧化和非環氧化分子的準確率為79.3%。兩年后,Hughes等[86]發現,DCNN還可以預測藥物代謝中醌類化合物的形成,用來區分該化合物能否形成醌類分子,準確率為88.2%。
4 、人工智能存在的問題及展望
雖然HTS技術產生了大量的數據,但是由于藥物研發本身高風險的特性,大多數的測試結果是陰性的,導致HTS數據庫包含的活性數據往往比無活性數據少得多[87,88]。此外,深度學習雖然可以用于無監督學習,而且可以很好地處理有噪聲的數據,然而,它存在數據擬合過度問題。例如,當一個DNN模型有兩個隱藏層,每個隱藏層有4000個神經元,使用5000個輸入層分子描述符,那么將會調整超過3600萬的權重,很容易出現過擬合現象。此外,無法解釋的“黑盒”現象以及計算成本比人工神經網絡或其他學習方法更高也是人工智能目前面臨的問題[89]。
雖然人工智能還存在一些不足,但研究者們正在努力克服這些問題。dropout算法、無監督的預訓練和早期停止可以有效地避免過擬合現象[90,91,92],谷歌公司開發的TensorFlow等程序包可以大大降低構建DNN模型的難度,GPU硬件的不斷改進和云計算的發展有望減輕計算負擔,經濟合作與發展組織(經合組織)正在努力建立QSAR模型驗證的原則來量化模型的預測性能[93,94,95]。相信隨著高通量實驗產生的大量體外毒性數據,以及神經網絡和學習算法的發展,人工智能將成為挖掘大數據中隱藏信息強有力的工具,并在藥物分子的毒性預測中“大展身手”。
參考文獻
[1] ZHU H. Big data and artificial intelligence modeling for drug discovery [J]. Annu. rev. pharmacol. toxicol., 2020, 60: 573-89
[2] BLOMME E A, WILL Y. Toxicology strategies for drug discovery: Present and future [J]. Chem. Res. Toxicol., 2016, 29(4): 473-504.
[3] ASHBURN T T, THOR K B. Drug repositioning: Identifying and developing new uses for existing drugs [J]. Nat. Rev. Drug Discov., 2004, 3(8): 673-83.
[4] DIMASI J A, GRABOWSKI H G, HANSEN R W. Innovation in the pharmaceutical industry: New estimates of R&D costs [J]. J. Health Econ., 2016, 47: 20-33.
[5] HAY M, THOMAS D W, CRAIGHEAD J L, et al. Clinical development success rates for investigational drugs [J]. Nat. Biotechnol., 2014, 32(1): 40-51.
[6] OSTAPOWICZ G, FONTANA R J, SCHI?DT F V, et al. Results of a prospective study of acute liver failure at 17 tertiary care centers in the United States [J]. Ann. Intern. Med., 2002, 137(12): 947-54.
[7] XU J J, DIAZ D, O'BRIEN P J. Applications of cytotoxicity assays and pre-lethal mechanistic assays for assessment of human hepatotoxicity potential [J]. Chem. Biol. Interact., 2004, 150(1): 115-128.
[8] HOLT M P, JU C. Mechanisms of drug-induced liver injury [J]. AAPS J., 2006, 8(1): E48-E54.
[9] KAPLOWITZ N. Idiosyncratic drug hepatotoxicity [J]. Nat. rev. Drug discov., 2005, 4(6): 489-499.
[10] GUNAWAN B K, KAPLOWITZ N. Mechanisms of drug-induced liver disease [J]. Clin. liver dis., 2007, 11(3): 459-475.
[11] WILLIAMS D P. Toxicophores: Investigations in drug safety [J]. Toxicology, 2006, 226(1): 1-11.
[12] ZIMMERMAN H J. Hepatotoxicity: The adverse effects of drugs and other chemicals on the liver [M]. Lippincott Williams & Wilkins, 1999.
[13] KOLA I, LANDIS J. Can the pharmaceutical industry reduce attrition rates? [J]. Nat. rev. Drug discov., 2004, 3(8): 711-716.
[14] KALGUTKAR A S, GARDNER I, OBACH R S, et al. A comprehensive listing of bioactivation pathways of organic functional groups [J]. Curr. drug metab., 2005, 6(3): 161-225.
[15] GREENE N, FISK L, NAVEN R T, et al. Developing structure-activity relationships for the prediction of hepatotoxicity [J]. Chem. Res. Toxicol., 2010, 23(7): 1215-1222.
[16] KOLA I, LANDIS J. Can the pharmaceutical industry reduce attrition rates? [J]. Nat. Rev. Drug Discov., 2004, 3(8): 711-715.
[17] DRIESSEN M, VITINS A P, PENNINGS J L, et al. A transcriptomics-based hepatotoxicity comparison between the zebrafish embryo and established human and rodent in vitro and in vivo models using cyclosporine A, amiodarone and acetaminophen [J]. Toxicol. Lett., 2015, 232(2): 403-412.
[18] BELL C C, HENDRIKS D F, MORO S M, et al. Characterization of primary human hepatocyte spheroids as a model system for drug-induced liver injury, liver function and disease [J]. Sci. Rep-UK, 2016, 6: 25187.
[19] SCHWARTZ M P, HOU Z, PROPSON N E, et al. Human pluripotent stem cell-derived neural constructs for predicting neural toxicity [J]. P. Natl. Acad. Sci. USA, 2015, 112(40): 12516-12521.
[20] ABRAHAM M H, KUMARSINGH R, COMETTO-MUNIZ J E, et al. Draize eye scores and eye irritation thresholds in man can be combined into one QSAR [J]. Ann. N Y Acad. Sci., 1998, 855: 652-656.
[21] ABRAHAM M H, KUMARSINGH R, COMETTO-MUNIZ J E, et al. A quantitative structure-activity relationship (QSAR) for a draize eye irritation database [J]. Toxicol. In Vitro, 1998, 12(3): 201-207.
[22] MA J, SHERIDAN R P, LIAW A, et al. Deep neural nets as a method for quantitative structure–activity relationships [J]. J. chem. inf. model., 2015, 55(2): 263-274.
[23] CHING T, HIMMELSTEIN D, BEAULIEU-JONES B, et al. Opportunities and obstacles for deep learning in biology and medicine. JR Soc Interface 15: 20170387 [M]. 2017.
[24] MALO N, HANLEY J A, CERQUOZZI S, et al. Statistical practice in high-throughput screening data analysis [J]. Nat. Biotechnol., 2006, 24(2): 167-175.
[25] ZHU H, XIA M. High-Throughput Screening Assays in Toxicology [M]. New York: Springer-Verlag, 2016.
[26] KLEKOTA J, BRAUNER E, ROTH F P, et al. Using high-throughput screening data to discriminate compounds with single-target effects from those with side effects [J]. J. chem. inf. model., 2006, 46(4): 1549-1562.
[27] MACARRON R, BANKS M N, BOJANIC D, et al. Impact of high-throughput screening in biomedical research [J]. Nat. Rev. Drug Discov., 2011, 10(3): 188-195.
[28] SAYERS E W, BARRETT T, BENSON D A, et al. Database resources of the National Center for Biotechnology Information [J]. Nucleic Acids Res., 2010, 38: D5-D16.
[29] GAULTON A, BELLIS L J, BENTO A P, et al. ChEMBL: A large-scale bioactivity database for drug discovery [J]. Nucleic Acids Res., 2012, 40: D1100- D1107.
[30] GILSON M K, LIU T, BAITALUK M, et al. BindingDB in 2015: A public database for medicinal chemistry, computational chemistry and systems pharmacology [J]. Nucleic Acids Res., 2016, 44: D1045- D1053.
[31] KHOZIN S, KIM G, PAZDUR R. Regulatory watch: From big data to smart data: FDA's INFORMED initiative [J]. Nat. Rev. Drug Discov., 2017, 16(5): 306.
[32] CAMPBELL S J, GAULTON A, MARSHALL J, et al. Visualizing the drug target landscape [J]. Drug discov. today, 2010, 15(1/2): 3-15.
[33] GEPPERT H, VOGT M, BAJORATH J. Current trends in ligand-based virtual screening: molecular representations, data mining methods, new application areas, and performance evaluation [J]. J. chem. inf. model., 2010, 50(2): 205-216.
[34] HASAN S, BONDE B K, BUCHAN N S, et al. Network analysis has diverse roles in drug discovery [J]. Drug discov. today, 2012, 17(15/16): 869-874.
[35] YANG Y, ADELSTEIN S J, KASSIS A I. Target discovery from data mining approaches [J]. Drug discov. today, 2009, 14(3/4): 147-154.
[36] EBEL S . Quantitative drug design: A critical introduction (medicinal research series, Vol. 8) von Y. C. Martin, 440 S. Preis SFrs 105,–, Marcel Dekker, Inc. New York, N. Y. 1978[J]. Archiv. der. Pharmazie, 1979, 312(5):462-463.
[37] ZEFIROV N S, PALYULIN V A. Fragmental approach in QSPR [J]. J. chem. inf. copm. sci., 2002, 42(5): 1112-1122.
[38] LABUTE P. A widely applicable set of descriptors [J]. J. Mol. Graph. Model., 2000, 18(4/5): 464-477.
[39] GOZALBES R, DOUCET J, DEROUIN F. Application of topological descriptors in QSAR and drug design: History and new trends [J]. Curr. Drug Targets, 2002, 2(1): 93-102.
[40] WILLETT P. Similarity-based virtual screening using 2D fingerprints [J]. Drug discov. today, 2006, 11(23/24): 1046-1053.
[41] MEURER W J, TOLLES J. Logistic regression diagnostics: understanding how well a model predicts outcomes [J]. Jama, 2017, 317(10): 1068-1069.
[42] HECHT-NIELSEN R. Theory of the backpropagation neural network [M]. Elsevier: Neural networks for perception, 1992.
[43] ALSABTI K, RANKA S, SINGH V. An efficient k-means clustering algorithm [M]. Elsevier: Neural networks for perception, 1997.
[44] VAPNIK V. The nature of statistical learning theory [M]. New York: Springer-Verlag doi, 1995.
[45] BURGES C J. A tutorial on support vector machines for pattern recognition [J]. Data min. knowl. disco., 1998, 2(2): 121-167.
[46] GARCIA V, DEBREUVE E, BARLAUD M. Fast k nearest neighbor search using GPU; proceedings of the 2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, F, 2008 [C]. IEEE.
[47] LIAW A, WIENER M. Classification and regression by randomForest [J]. R news, 2002, 2(3): 18-22.
[48] RISH I. An empirical study of the naive Bayes classifier; proceedings of the IJCAI 2001 workshop on empirical methods in artificial intelligence, F, 2001 [C].
[49] IOFFE S. Probabilistic linear discriminant analysis; proceedings of the European Conference on Computer Vision, F, 2006 [C]. Springer.
[50] BURDEN F, WINKLER D. Bayesian regularization of neural networks [J]. Methods Mol. Biol., 2008, 458: 25-44.
[51] MITCHELL J B. Machine learning methods in chemoinformatics [J]. Wiley Interdiscip Rev. Comput. Mol. Sci., 2014, 4(5): 468-81.
[52] ROSENBLATT F. The perceptron: a probabilistic model for information storage and organization in the brain [J]. Psychol. Rev., 1958, 65(6): 386.
[53] HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups [J]. IEEE Signal process. mag., 2012, 29(6): 82-97.
[54] SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection; proceedings of the Proceedings of the IEEE conference on computer vision and pattern recognition, F, 2013 [C].
[55] PINEDA F J. Generalization of back-propagation to recurrent neural networks [J]. Phys. rev. lett., 1987, 59(19): 2229.
[56] FOURCHES D, BARNES J C, DAY N C, et al. Cheminformatics analysis of assertions mined from literature that describe drug-induced liver injury in different species [J]. Chem. res. toxicol., 2010, 23(1): 171-183.
[57] RODGERS A D, ZHU H, FOURCHES D, et al. Modeling liver-related adverse effects of drugs using k nearest neighbor quantitative structure- activity relationship method [J]. Chem. res. toxicol., 2010, 23(4): 724-732.
[58] LIEW C Y, LIM Y C, YAP C W. Mixed learning algorithms and features ensemble in hepatotoxicity prediction [J]. J. Comput. Aid. Mol. Des., 2011, 25(9): 855.
[59] HOME F. Orange book: Approved drug products with therapeutic equivalence evaluations [J]. USA: FDA, 2013, 2(3):13-18.
[60] BUDAVARI S, O'NEIL M, SMITH A, et al. The Merck index. An encyclopedia of chemicals, drugs, and biologicals. Rahway, NJ: Merck and Co [J]. Inc Google Scholar, 1989, 2(3):13-18.
[61] NOVAK D, LEWIS J H. Drug-induced liver disease [J]. Curr. opin. gastroen., 2003, 19(3): 203-215.
[62] LOW Y, UEHARA T, MINOWA Y, et al. Predicting drug-induced hepatotoxicity using QSAR and toxicogenomics approaches [J]. Chem.l res. toxicol., 2011, 24(8): 1251-1262.
[63] UEHARA T, ONO A, MARUYAMA T, et al. The Japanese toxicogenomics project: application of toxicogenomics [J]. Mol. Nutr. Food Res., 2010, 54(2): 218-227.
[64] WANG B, ZOU H. Sparse distance weighted discrimination [J]. J. Comput. Graph. Stat., 2016, 25(3): 826-38.
[65] LIU Z, SHI Q, DING D, et al. Translating clinical findings into knowledge in drug safety evaluation-drug induced liver injury prediction system (DILIps) [J]. PLoS Comput. Biol., 2011, 7(12): e1002310.
[66] LIU J, MANSOURI K, JUDSON R S, et al. Predicting hepatotoxicity using toxcast in vitro bioactivity and chemical structure [J]. Chem. Res. Toxicol., 2015, 28(4): 738-751.
[67] MARTIN M T, MENDEZ E, CORUM D G, et al. Profiling the reproductive toxicity of chemicals from multigeneration studies in the toxicity reference database [J]. Toxicol. Sci., 2009, 110(1): 181-190.
[68] MULLER C, PEKTHONG D, ALEXANDRE E, et al. Prediction of drug induced liver injury using molecular and biological descriptors [J]. Comb. Chem. High Throughput Screen., 2015, 18(3): 315-322.
[69] XU Y, DAI Z, CHEN F, et al. Deep Learning for Drug-Induced Liver Injury [J]. J.chem. inf. model., 2015, 55(10): 2085-2093.
[70] CHEN M, VIJAY V, SHI Q, et al. FDA-approved drug labeling for the study of drug-induced liver injury [J]. Drug discov. today, 2011, 16(15/16): 697-703.
[71] GUENGERICH F P. Cytochrome P450s and other enzymes in drug metabolism and toxicity [J]. AAPS J., 2006, 8(1): E101-E11.
[72] LYNCH T, PRICE A L. The effect of cytochrome P450 metabolism on drug response, interactions, and adverse effects [J]. Am. fam. physician, 2007, 76(3): 391-396.
[73] SMITH H S. Opioid metabolism [J]. Mayo. Clin. Proc., 2009, 84(7): 613-624.
[74] 馬小超, 屠曾宏. 細胞色素P450在藥源性肝損傷中的作用[J]. 世界華人消化雜志, 003, (3):338-341.
[75] CHENG F, YU Y, SHEN J, et al. Classification of cytochrome P450 inhibitors and noninhibitors using combined classifiers [J]. J. chem. inf. model., 2011, 51(5): 996-1011.
[76] 李楠, 段隆振, 陳萌. 決策樹 C4. 5 算法在數據挖掘中的分析及其應用 [J]. 計算機與現代化, 2008, 12: 160-163.
[77] NOVOTARSKYI S, SUSHKO I, K?RNER R, et al. A comparison of different QSAR approaches to modeling CYP450 1A2 inhibition [J]. J. chem. inf. model., 2011, 51(6): 1271-1280.
[78] TETKO I V. Associative neural network [J]. Neural Processing Letters, 2002, 16(2): 187-199.
[79] SUN H, VEITH H, XIA M, et al. Predictive models for cytochrome P450 isozymes based on quantitative high throughput screening data [J]. J. chem. inf. model., 2011, 51(10): 2474-2481.
[80] HSU C , CHANG C , LIN C . A practical guide to support vector classification[J]. BJU International, 2008, 101(1):1396-1400.
[81] ROSTKOWSKI M, SPJUTH O, RYDBERG P. WhichCyp: prediction of cytochromes P450 inhibition [J]. Bioinformatics, 2013, 29(16): 2051-2052.
[82] SU B H, TU Y S, LIN C, et al. Rule-based prediction models of cytochrome P450 inhibition [J]. J. chem. inf. model., 2015, 55(7): 1426-1434.
[83] NIH Chemical Genomics Center PubChem Assay ID 1851: Cytochrome panel assay with activity outcomes [M]. https://pubchem.ncbi.nlm.nih.gov/assay/assay.cgi?aid=1851 (accessed May 10, 2014).
[84] STEVEN, L, SALZBERG. Book review: C4.5: Programs for Machine Learning by J. Ross Quinlan. Morgan Kaufmann Publishers, Inc. 1993[J]. Mach Learn, 1994, 16(3):235-240.
[85] HUGHES T B, MILLER G P, SWAMIDASS S J. Modeling epoxidation of drug-like molecules with a deep machine learning network [J]. ACS Cent. Sci., 2015, 1(4): 168-180.
[86] HUGHES T B, SWAMIDASS S J. Deep learning to predict the formation of quinone species in drug metabolism [J]. Chem. res. toxicol., 2017, 30(2): 642-656.
[87] RUSSO D P, STRICKLAND J, KARMAUS A L, et al. Nonanimal models for acute toxicity evaluations: Applying data-driven profiling and read-across [J]. Environ. Health Perspect, 2019, 127(4): 47001.
[88] ZHANG J, HSIEH J H, ZHU H. Profiling animal toxicants by automatically mining public bioassay data: A big data approach for computational toxicology [J]. PloS one, 2014, 9(6): e99863.
[89] MAMOSHINA P, VIEIRA A, PUTIN E, et al. Applications of deep learning in biomedicine [J]. Mol. Pharm., 2016, 13(5): 1445-1454.
[90] XIAO T, LI H, OUYANG W, et al. Learning deep feature representations with domain guided dropout for person re-identification; proceedings of the Proceedings of the IEEE conference on computer vision and pattern recognition, F, 2016 [C].
[91] ERHAN D, COURVILLE A, BENGIO Y, et al. Why does unsupervised pre-training help deep learning? Proceedings of the Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, F, 2010 [C].
[92] DOAN C D, LIONG S Y. Generalization for multilayer neural network bayesian regularization or early stopping; proceedings of the Proceedings of Asia Pacific Association of Hydrology and Water Resources 2nd Conference, F, 2004 [C].
[93] LIU H, PAPA E, GRAMATICA P. QSAR prediction of estrogen activity for a large set of diverse chemicals under the guidance of OECD principles [J]. Chem. res. toxicol., 2006, 19(11): 1540-1548.
[94] PAVAN M, NETZEVA T, WORTH A. Validation of a QSAR model for acute toxicity [J]. SAR QSAR Environ. Res., 2006, 17(2): 147-171.
[95] SALINER A G, NETZEVA T, WORTH A. Prediction of estrogenicity: validation of a classification model [J]. SAR QSAR Environ. Res., 2006, 17(2): 195-223.