Pseudo aminokiselinska kompozicija

Pseudo aminokiselinska kompozicija, ili PseAA kompozicija, je reprezentacija proteinskih uzoraka. Definisao ju je Kuo-Chen Chou 2001. da bi poboljšao predviđanje proteinske subcelularne lokalizacije, kao i predviđanje tipa membranskih proteina.[1]

Uvod уреди

Da bi se predvidela subcelularna lokalizacija proteina i drugih atributa na osnovu njihove sekvence, dva tipa modela se generalno koriste za reprezentaciju proteinskih uzoraka: (1) sekvencioni model, i (2) diskretni model.

Najtipičnija sekvenciona reprezentacija proteinskog uzorka je njegova celokupna aminokiselinska (AA) sekvenca, koja sadrži najkompletniju informaciju. To je jedna od očiglednih prednosti sekvencionih modela. Da bi se dobili željeni rezultati, obično se koriste alati za pretragu sličnosti sekvenci u formiranju predikcija. Međutim, ta vrsta pristupa nije efektivna kad upitni protein ne poseduje značajnu homologiju sa proteinima da poznatim atributima. Iz tog razloga, razni diskretni modeli su bili predloženi.

Najjednostavniji diskretni model je upotreba aminokiselinske kompozicije (AAC) za reprezentaciju proteinskih uzoraka, koji su formulisani na sledeći način. Data proteinska sekvenca P sa   aminokiselinskih ostataka, i.e.,

  •  

gde R1 označava prvi ostatak proteina P, R2 drugi ostatak, itd., u saglasnošću sa modelom aminokiselinske kompozicije (AAC), protein P jednačine 1 može biti izražen kao

  •  

gde su   normalizovane frekvencije pojavljivanja 20 prirodnih aminokiselina u P, i T je transpozicioni operator. U skladu s tim, aminokiselinski sastav proteina se može lako izvesti kad je proteinska sekvenca poznata.

Zbog svoje jednostavnosti, model aminokiselinskog sastava (AAC) je bio široko korišten u mnogim ranijim statističkim metodama za predviđanje proteinskih atribute. Međutim, celokupna informacija o sekventnom redosledu se gubi upotrebom AA kompozicije za reprezentaciju proteina. To je glavni nedostatak ovog metoda.

Koncept уреди

Koncept PseAA (pseudo aminokiselinske) kompozicije je predložen da bi se izbeglo potpuno gubljenje informacije o redosledu.[1] U kontrastu sa konvencionalnom aminokiselinskom kompozicijom koja sadrži 20 komponenti koje reflektuju frekvenciju zastupljenosti 20 prirodnih aminokiselina proteina, PseAA kompozicija sadrži više od 20 diskretnih faktora, gde prvih 20 reprezentuju komponente konvencionalne AA kompozicije, dok dodatni faktori inkorporiraju deo informacije o redu sekvence putem raznih modova.

Dodatni faktori su serije korelacionih faktora različitih rangova duž proteinskog lanca. Oni su takođe mogu da budu kombinacije drugih faktora, dokle god ti faktori reflektuju na neki način red sekvence. Rani načini kojima se može formulisati PseAA kompozicija su razvijeni.[2] Dakle, suština PseAA kompozicije je da dok ona sadrži AA kompoziciju, ona takođe sadrži informaciju izvan AA kompozicije, i iz tog razloga bolje reflektuje osobine proteinske sekvence u diskretnim modelima.

Algoritam уреди

Na osnovu PseAA kompozicionog modela, protein P iz jednačine 1 se može formulisati kao

  •  

gde su ( ) komponente date se

  •  

gde je   faktor težine, i   je  -ti korelacioni faktor koji odražava red sekvence u korelaciji između svih  -tih najbližih ostataka, kao što je formulisano sa

  •  

sa

  •  

gde je    -ta funkcija aminokiseline  , i   je totalni broj funkcija uzetih u obzir.

Primene уреди

Od uvođenja PseAA kompozicije, ona je bila široko korišćena za predviđanje raznih osobina proteina, kao što su strukturne klase proteina,[3][4][5][6] klasa i podklasa enzimskih familija,[7][8] subcelularne lokacije proteina,[9][10][11][12][13] pod-nukleinske lokacije proteina,[14][15][16] apoptozne proteinske subcelularne lokalizacije,[17][18] pod-mitohondrjske lokalizacije,[19][20] proteinske kvaternarne strukture,[21][22] klasifikaciju konotoksinske superfamilije i familije,[23][24] tipova proteaza,[25] tipova G protein-spregnutih receptora,[26][27] ljudskih papilomavirusa,[28] proteina spoljašnje membrane,[29] transmembranskih regiona proteina,[30] proteinskog sekundarnog strukturnog kontenta,[31] subcelularne lokalizacije mikobakterijskih proteina,[32] tipova lipaza,[33] DNK-vezujućih proteina,[34] litičkih enzima ćelijskog zida,[35] kofaktora oksidoreduktaza,[36] kao i drugih proteinskih atributima i osobina[37].

Otkako je pojam PseAA kompozicija uveden, on se naširoko koristi za predviđanje različitih proteinskih atributa. Takođe je bio korišten da se uključe proteinski domeni i GO (Ontologija gena) informacije za poboljšanje kvaliteta predviđanja subcelularne lokalizacije proteina[38] kao i njihovi drugi atributi.

U međuvremenu, koncept PseAA kompozicije je takođe podstakao stvaranje pseudo topoloških indeksa savijanja.[39][40][41]

Literatura уреди

  1. ^ а б Chou KC (2001). „Prediction of protein cellular attributes using pseudo-amino acid composition”. Proteins. 43 (3): 246—55. PMID 11288174. 
  2. ^ Chou K-C. „Pseudo amino acid composition and its applications in bioinformatics, proteomics and system biology.”. Current Proteomics. 6: 262—274. doi:10.2174/157016409789973707. 
  3. ^ Chen C, Zhou X, Tian Y, Zou X, Cai P (2006). „Predicting protein structural class with pseudo-amino acid composition and support vector machine fusion network”. Anal. Biochem. 357 (1): 116—21. PMID 16920060. doi:10.1016/j.ab.2006.07.022. 
  4. ^ Chen C, Tian YX, Zou XY, Cai PX, Mo JY (2006). „Using pseudo-amino acid composition and support vector machine to predict protein structural class”. J. Theor. Biol. 243 (3): 444—8. PMID 16908032. doi:10.1016/j.jtbi.2006.06.025. 
  5. ^ Lin H, Li QZ (2007). „Using pseudo amino acid composition to predict protein structural class: approached by incorporating 400 dipeptide components”. J Comput Chem. 28 (9): 1463—6. PMID 17330882. doi:10.1002/jcc.20554. 
  6. ^ Li ZC, Zhou XB, Dai Z, Zou XY (2009). „Prediction of protein structural classes by Chou's pseudo amino acid composition: approached using continuous wavelet transform and principal component analysis”. Amino Acids. 37 (2): 415—25. PMID 18726140. doi:10.1007/s00726-008-0170-2. 
  7. ^ Qiu JD, Huang JH, Shi SP, Liang RP (2010). „Using the concept of Chou's pseudo amino acid composition to predict enzyme family classes: an approach with support vector machine based on discrete wavelet transform”. Protein Pept. Lett. 17 (6): 715—22. PMID 19961429. 
  8. ^ Zhou XB, Chen C, Li ZC, Zou XY (2007). „Using Chou's amphiphilic pseudo-amino acid composition and support vector machine for prediction of enzyme subfamily classes”. J. Theor. Biol. 248 (3): 546—51. PMID 17628605. doi:10.1016/j.jtbi.2007.06.001. 
  9. ^ Zhang SW, Zhang YL, Yang HF, Zhao CH, Pan Q (2008). „Using the concept of Chou's pseudo amino acid composition to predict protein subcellular localization: an approach by incorporating evolutionary information and von Neumann entropies”. Amino Acids. 34 (4): 565—72. PMID 18074191. doi:10.1007/s00726-007-0010-9. 
  10. ^ Pan YX, Zhang ZZ, Guo ZM, Feng GY, Huang ZD, He L (2003). „Application of pseudo amino acid composition for predicting protein subcellular location: stochastic signal processing approach”. J. Protein Chem. 22 (4): 395—402. PMID 13678304. 
  11. ^ Shi JY, Zhang SW, Pan Q, Zhou GP (2008). „Using pseudo amino acid composition to predict protein subcellular location: approached with amino acid composition distribution”. Amino Acids. 35 (2): 321—7. PMID 18209947. doi:10.1007/s00726-007-0623-z. 
  12. ^ Jiang X, Wei R, Zhang T, Gu Q (2008). „Using the concept of Chou's pseudo amino acid composition to predict apoptosis proteins subcellular location: an approach by approximate entropy”. Protein Pept. Lett. 15 (4): 392—6. PMID 18473953. 
  13. ^ Li FM, Li QZ (2008). „Predicting protein subcellular location using Chou's pseudo amino acid composition and improved hybrid approach”. Protein Pept. Lett. 15 (6): 612—6. PMID 18680458. 
  14. ^ Mundra P, Kumar M, Kumar KK, Jayaraman VK, Kulkarni BD (2007). „Using pseudo amino acid composition to predict protein subnuclear localization: Approached with PSSM”. Pattern Recognition Letters. 28 (13): 1610—1615. doi:10.1016/j.patrec.2007.04.001. 
  15. ^ Jiang X, Wei R, Zhao Y, Zhang T (2008). „Using Chou's pseudo amino acid composition based on approximate entropy and an ensemble of AdaBoost classifiers to predict protein subnuclear location”. Amino Acids. 34 (4): 669—75. PMID 18256886. doi:10.1007/s00726-008-0034-9. 
  16. ^ Ding YS, Zhang TL (2008). „Using Chou's pseudo amino acid composition to predict subcellular localization of apoptosis proteins: an approach with immune genetic algorithm-based ensemble classifier”. Pattern Recognition Letters. 29: 1887—1892. doi:10.1016/j.patrec.2008.06.007. 
  17. ^ Chen YL, Li QZ (2007). „Prediction of apoptosis protein subcellular location using improved hybrid approach and pseudo-amino acid composition”. J. Theor. Biol. 248 (2): 377—81. PMID 17572445. doi:10.1016/j.jtbi.2007.05.019. 
  18. ^ Lin H, Wang H, Ding H, Chen YL, Li QZ (2009). „Prediction of subcellular localization of apoptosis protein using Chou's pseudo amino acid composition”. Acta Biotheor. 57 (3): 321—30. PMID 19169652. doi:10.1007/s10441-008-9067-4. 
  19. ^ Nanni L, Lumini A (2008). „Genetic programming for creating Chou's pseudo amino acid based features for submitochondria localization”. Amino Acids. 34 (4): 653—60. PMID 18175047. doi:10.1007/s00726-007-0018-1. 
  20. ^ Zeng YH, Guo YZ, Xiao RQ, Yang L, Yu LZ, Li ML (2009). „Using the augmented Chou's pseudo amino acid composition for predicting protein submitochondria locations based on auto covariance approach”. J. Theor. Biol. 259 (2): 366—72. PMID 19341746. doi:10.1016/j.jtbi.2009.03.028. 
  21. ^ Zhang SW, Chen W, Yang F, Pan Q (2008). „Using Chou's pseudo amino acid composition to predict protein quaternary structure: a sequence-segmented PseAAC approach”. Amino Acids. 35 (3): 591—8. PMID 18427713. doi:10.1007/s00726-008-0086-x. 
  22. ^ Xiao X, Wang P, Chou KC (2010). „Quat-2L: a web-server for predicting protein quaternary structural attributes”. Mol Divers. PMID 20148364. doi:10.1007/s11030-010-9227-8. 
  23. ^ Mondal S, Bhavna R, Mohan Babu R, Ramakumar S (2006). „Pseudo amino acid composition and multi-class support vector machines approach for conotoxin superfamily classification”. J. Theor. Biol. 243 (2): 252—60. PMID 16890961. doi:10.1016/j.jtbi.2006.06.014. 
  24. ^ Lin H, Li QZ (2007). „Predicting conotoxin superfamily and family by using pseudo amino acid composition and modified Mahalanobis discriminant”. Biochem. Biophys. Res. Commun. 354 (2): 548—51. PMID 17239817. doi:10.1016/j.bbrc.2007.01.011. 
  25. ^ Zhou GP, Cai YD (2006). „Predicting protease types by hybridizing gene ontology and pseudo amino acid composition”. Proteins. 63 (3): 681—4. PMID 16456852. doi:10.1002/prot.20898. 
  26. ^ Qiu JD, Huang JH, Liang RP, Lu XQ (2009). „Prediction of G-protein-coupled receptor classes based on the concept of Chou's pseudo amino acid composition: an approach from discrete wavelet transform”. Anal. Biochem. 390 (1): 68—73. PMID 19364489. doi:10.1016/j.ab.2009.04.009. 
  27. ^ Gu Q, Ding YS, Zhang TL (2010). „Prediction of G-Protein-Coupled Receptor Classes in Low Homology Using Chou's Pseudo Amino Acid Composition with Approximate Entropy and Hydrophobicity Patterns”. Protein Pept. Lett. 17 (5): 559—67. PMID 19594431. 
  28. ^ Esmaeili M, Mohabatkar H, Mohsenzadeh S (2010). „Using the concept of Chou's pseudo amino acid composition for risk type prediction of human papillomaviruses”. J. Theor. Biol. 263 (2): 203—9. PMID 19961864. doi:10.1016/j.jtbi.2009.11.016. 
  29. ^ Lin H (2008). „The modified Mahalanobis Discriminant for predicting outer membrane proteins by using Chou's pseudo amino acid composition”. J. Theor. Biol. 252 (2): 350—6. PMID 18355838. doi:10.1016/j.jtbi.2008.02.004. 
  30. ^ Diao Y, Ma D, Wen Z, Yin J, Xiang J, Li M (2008). „Using pseudo amino acid composition to predict transmembrane regions in protein: cellular automata and Lempel-Ziv complexity”. Amino Acids. 34 (1): 111—7. PMID 17520325. doi:10.1007/s00726-007-0550-z. 
  31. ^ Chen C, Chen L, Zou X, Cai P (2009). „Prediction of protein secondary structure content by using the concept of Chou's pseudo amino acid composition and support vector machine”. Protein Pept. Lett. 16 (1): 27—31. PMID 19149669. 
  32. ^ Lin H, Ding H, Guo FB, Zhang AY, Huang J (2008). „Predicting subcellular localization of mycobacterial proteins by using Chou's pseudo amino acid composition”. Protein Pept. Lett. 15 (7): 739—44. PMID 18782071. 
  33. ^ Zhang GY, Li HC, Gao JQ, Fang BS (2008). „Predicting lipase types by improved Chou's pseudo-amino acid composition”. Protein Pept. Lett. 15 (10): 1132—7. PMID 19075826. 
  34. ^ Fang Y, Guo Y, Feng Y, Li M (2008). „Predicting DNA-binding proteins: approached from Chou's pseudo amino acid composition and other specific sequence features”. Amino Acids. 34 (1): 103—9. PMID 17624492. doi:10.1007/s00726-007-0568-2. 
  35. ^ Ding H, Luo L, Lin H (2009). „Prediction of cell wall lytic enzymes using Chou's amphiphilic pseudo amino acid composition”. Protein Pept. Lett. 16 (4): 351—5. PMID 19356130. 
  36. ^ Zhang GY, Fang BS (2008). „Predicting the cofactors of oxidoreductases based on amino acid composition distribution and Chou's amphiphilic pseudo-amino acid composition”. J. Theor. Biol. 253 (2): 310—5. PMID 18471832. doi:10.1016/j.jtbi.2008.03.015. 
  37. ^ González-Díaz H, González-Díaz Y, Santana L, Ubeira FM, Uriarte E (2008). „Proteomics, networks and connectivity indices”. Proteomics. 8 (4): 750—78. PMID 18297652. doi:10.1002/pmic.200700638. 
  38. ^ Chou KC, Shen HB (2008). „Cell-PLoc: a package of Web servers for predicting subcellular localization of proteins in various organisms”. Nat Protoc. 3 (2): 153—62. PMID 18274516. doi:10.1038/nprot.2007.494. Архивирано из оригинала 27. 08. 2007. г. Приступљено 21. 11. 2010. 
  39. ^ Agüero-Chapin G, Varona-Santos J, de la Riva GA, Antunes A, González-Vlla T, Uriarte E, González-Díaz H (2009). „Alignment-free prediction of polygalacturonases with pseudofolding topological indices: experimental isolation from Coffea arabica and prediction of a new sequence”. J. Proteome Res. 8 (4): 2122—8. PMID 19296677. doi:10.1021/pr800867y. 
  40. ^ Perez-Bello A, Munteanu CR, Ubeira FM, De Magalhães AL, Uriarte E, González-Díaz H (2009). „Alignment-free prediction of mycobacterial DNA promoters based on pseudo-folding lattice network or star-graph topological indices”. J. Theor. Biol. 256 (3): 458—66. PMID 18992259. doi:10.1016/j.jtbi.2008.09.035. 
  41. ^ González-Díaz H, Dea-Ayuela MA, Pérez-Montoto LG, Prado-Prado FJ, Agüero-Chapín G, Bolas-Fernández F, Vazquez-Padrón RI, Ubeira FM (2010). „QSAR for RNases and theoretic-experimental study of molecular diversity on peptide mass fingerprints of a new Leishmania infantum protein”. Mol. Divers. 14 (2): 349—69. PMID 19578942. doi:10.1007/s11030-009-9178-0. 

Dodatna literatura уреди