A Hybrid Metaheuristic based Feature Selection Framework for In-silico Mutagenicity Prediction
Published in Journal of Intelligent Systems: Theory and Applications, 2024
Abstract: Mutagenicity is both a toxic risk to humans and an indicator of carcinogenicity. Hence, estimating mutagenicity in the early stages of drug design is crucial to minimize last-stage failures and withdrawals in drug discovery. Recently, in-silico methods have started to play critical and essential roles in the drug development process because they are low cost and low effort procedures. This study aims to predict mutagenicity of chemicals using in-silico methods. To achieve this goal, a two-phased flexible framework was proposed: 1) searching the effective and representative descriptors subset with Butterfly Optimization Algorithm (BOA) and Particle Swarm Optimization and 2) predicting mutagenicity of chemicals by the selected descriptor using gradient boosted tree-based ensemble methods. The study used two datasets: one including 8167 compounds for descriptor selection and modelling, and another containing 716 external compounds to validate the efficacy of our models. The datasets comprise 162 descriptors calculated using PaDEL. The results of both the cross-validation and the external data showed that descriptors reduced by nearly one-third by BOA (51 descriptors) yielded similar or slightly better predictive results than results obtained with the entire data set. The accuracy range attained by the proposed approach using BOA is approximately 91.9% to 97.91% for the external set and 83.35% to 86.47% for the test set. This research contributes that using optimization techniques for improving early drug design and minimizing risks in drug discovery can be considered as a valuable insights and advances in the field of drug toxicity prediction, based on the findings.
Özet: Mutajenite hem insanlar için toksik bir risk hem de kanserojenitenin bir göstergesidir. Bu nedenle, ilaç tasarımının erken aşamalarında mutajenitenin tahmin edilmesi, ilaç keşfinde son aşama başarısızlıklarını ve geri çekilmeleri en aza indirmek için çok önemlidir. Son zamanlarda, in-silico yöntemler, düşük maliyetli ve az çaba gerektiren prosedürler olmaları nedeniyle ilaç geliştirme sürecinde kritik ve önemli roller oynamaya başlamıştır. Bu çalışma, in-silico yöntemler kullanarak kimyasalların mutajenitesini tahmin etmeyi amaçlamaktadır. Bu amaca ulaşmak için iki aşamalı esnek bir çerçeve önerilmiştir: 1) Kelebek Optimizasyon Algoritması (BOA) ve Parçacık Sürü Optimizasyonu ile etkili ve temsili değişken alt kümesinin aranması ve 2) gradyan destekli ağaç tabanlı topluluk yöntemleri kullanılarak seçilen değişkenlere göre kimyasalların mutajenitesinin tahmin edilmesi. Çalışmada iki veri kümesi kullanılmıştır: biri değişken seçimi ve modelleme için 8167 bileşik, diğeri ise modellerimizin etkinliğini doğrulamak için 716 harici bileşik içermektedir. Veri kümeleri PaDEL kullanılarak hesaplanan 162 değişkeni içermektedir. Hem çapraz doğrulama hem de harici verilerin sonuçları, BOA ile neredeyse üçte bir oranında azaltılan değişkenlerin (51 adet), tüm veri setiyle elde edilen sonuçlara benzer veya biraz daha iyi tahmin sonuçları verdiğini göstermiştir. BOA kullanılarak önerilen yaklaşımla elde edilen doğruluk aralığı harici set için yaklaşık %91,9 ila %97,91 ve test seti için %83,35 ila %86,47’dir. Bu araştırma, bulgulara dayanarak, erken ilaç tasarımını iyileştirmek ve ilaç keşfindeki riskleri en aza indirmek için optimizasyon tekniklerinin kullanılmasının, ilaç toksisitesi tahmini alanında değerli bir içgörü ve ilerleme olarak kabul edilebileceğine katkıda bulunmaktadır.