projet de deep-learning. Apprentissage de poches de liaison de protéines-ligands

rapport.tex 5.0KB

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495
  1. \documentclass[12pt]{article}
  2. \usepackage[utf8]{inputenc}
  3. \usepackage[T1]{fontenc}
  4. \usepackage{mathptmx}
  5. \usepackage{fixltx2e}
  6. \usepackage{graphicx}
  7. \usepackage{longtable}
  8. \usepackage{float}
  9. \usepackage{wrapfig}
  10. \usepackage{rotating}
  11. \usepackage[normalem]{ulem}
  12. \usepackage{amsmath}
  13. \usepackage{textcomp}
  14. \usepackage{marvosym}
  15. \usepackage{wasysym}
  16. \usepackage{amssymb}
  17. \usepackage{hyperref}
  18. \usepackage{color}
  19. \usepackage{caption}
  20. \usepackage{setspace}
  21. \onehalfspacing
  22. \tolerance=1000
  23. \usepackage{geometry}
  24. \geometry{margin=2cm}
  25. \usepackage[font = small, labelfont = bf]{caption}
  26. \bibliographystyle{plain}
  27. \title{Prédiction d'interaction protéine-ligand}
  28. \author{Nicolas Zimmermann}
  29. \date{Octobre 2019}
  30. \begin{document}
  31. \maketitle
  32. \thispagestyle{empty}
  33. \newpage
  34. \tableofcontents
  35. \thispagestyle{empty}
  36. \newpage
  37. \section{Introduction}
  38. Dans ce projet nous avons chercher à reproduire les résultats obtenu dans un article\cite{pu2019deepdrug3d} publié dans PLOS Computational biology en février 2019. L'objectif de cet article est la classification de poches protéiques selon leurs ligands potentiels par des réseaux de neurones. Les données d'entrée du réseaux sont des "images" en 3 dimensions, où chaque voxel (pixel 3d) est décrit par 14 état représentant des propriétés physico-chimiques. La taille des objets à classifier est donc importante (chaque fichier d'entrer pèse autour de 4Mo), ce qui pose des problèmes à résoudre pour obtenir un réseau fonctionnel en des temps de calcul raisonnable. Ces problèmes nous on menez à réaliser une structure de réseau différente de celle proposée dans l'article\cite{pu2019deepdrug3d}.
  39. \section{Matériel et méthode}
  40. \subsection{Données}
  41. Les données sur lesquelles nous travaillons consistent en 4164 poches protéiques liés ou non à des ligands. Ces poches sont représentées par des images 3D de 32x32x32 voxels, et chacun de ces voxels est caractérisé par 14 descripteurs de l'activité physico-chimique en ce point de l'espace.
  42. Afin de pouvoir effectuer un travail de classification sur ces poches, ces dernières sont encodées dans des ndarrays en onehot de dimension 14x32x32x32.
  43. \begin{center}
  44. \includegraphics[width=0.49\linewidth]{pdb_to_npy.jpg}
  45. \captionof{figure}{Représentation de la poche en "cartoon" et du ligand et stick puis la même poche encoder en image 3D de dimension 32x32x32}
  46. \end{center}
  47. Les données ont été tirés au hasard pour constituer des sous-jeux d'apprentissage et de validation. Nous souhaitons avoir dans nos sous jeux des taux de chaque catégorie de poches identiques aux taux du jeu de donnée complet. Nous avons ensuite fixé une seed aléatoire à 9001 pour assurer la reproductibilité entre les différents modèles. Pour outrepasser le biais induis par l'utilisation d'un jeu partiel et d'une seed, nous avons tester la robustesse du modèle en réaliser un k-fold.
  48. \subsection{Réseaux}
  49. Les librairies python Keras et sklearn ont été utilisé afin de créer et d'entraîner les réseaux de neurones qui ont effectué les tâches de classification.
  50. Nous avons tenter de reproduire le réseaux présenté dans l'article mais ce dernier prenait des temps de calcul trop important. Deux autres version plus légère on été implémenter, permettant respectivement de calculer 2 fois plus vite et 6 fois plus vite. Cependant
  51. \begin{table}
  52. \begin{tabular}{|l|c|r|}
  53. \hline
  54. modèle & sec par epoch & val accuracy \\
  55. \hline
  56. heavy & ~3600 & Nan \\
  57. mild & ~1800 & 0.70 \\
  58. light & ~600 & 0.62 \\
  59. new & ~10 & 0.80 \\
  60. \hline
  61. \end{tabular}
  62. \captionof{figure}{Temps de calcul en secondes par epoch de chaque modèle et précision des prédictions de validation après 20 epochs sur 600 échantillons. Les calculs ont été réalisé avec une accélération matérielle(GPU 1080ti) et la librairie CUDA}
  63. \end{table}
  64. Le dernier modèle nous permet d'entraîné des réseaux en des temps significativement plus court. De ce fait nous avons fait varier d'autre hyper paramètres tel le kernel size, le nombre de filtre des réseaux de convolution et la taille des échantillons d'entrainement afin d'améliorer les perfomances du modèle.
  65. \section{Résultats}
  66. Une fois les hyper-paramètres du modèle fixé, nous avons entrainé le modèle en 50 epochs sur 1800 poches et testé ce dernier sur 1200 poches.
  67. Ces paramètres nous ont permis d'atteindre jusqu'à 94,5\% de bien préditsur les 1200 poches du jeu de validation. Cependant les performance évolue parfois d'une epoch à l'autre, mais les variations ont tendance à devenir plus faible avec l'augmentation des epochs.
  68. Nous avons également tenter de classifier les poches lié à des stéroides. Les 69 poches ont été intégralement prédite comme des poches "control".
  69. Parler des résultats des différents modèles et tracer des ROC curve.
  70. \section{Discussion}
  71. Eventuellement travailler sur plus de données d'apprentissage. Perspective d'étendre à d'autres molécules, parler de la possibilité de généraliser à d'autre molécules
  72. \newpage
  73. \bibliography{biblio}
  74. \end{document}