Информация

Изчислително инженерство на протеин свързващ джоб

Изчислително инженерство на протеин свързващ джоб


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Имам рентгенова структура на ензим с отчетена активност към малка молекула. Тази активност е доста ниска, тъй като не е естествен субстрат.

Мога да изпълнявам симулации на молекулярно моделиране (например с помощта на DOCK), за да преценя поведението на свързване на ензима с различни съединения. Въпреки това, това, което бих искал да мога да направя, е да мутирам свързващия джоб, така че да свързва по-добре малката ми молекула, която представлява интерес.

Изследването на всички възможни замествания на аминокиселини е твърде скъпо изчислително, така че се чудя дали са разработени по-интелигентни начини за разглеждане на този проблем.

Може ли някой да ме насочи в правилната посока? Търсих в Google, но не можах да намеря точен отговор


Можете да опитате еволюционен алгоритъм. Ако можете бързо да оцените афинитета на свързване, можете да инициализирате набор от копия на вашия протеин, но със случайни мутации. Можете да им присвоите фитнес резултат въз основа на афинитета на обвързването. Тези с най-висок афинитет вие възпроизвеждате отново с известна вероятност да мутирате всяка аминокиселина и продължавате толкова поколения, колкото са ви необходими. Ако откриете правилно вашите параметри (степен на мутация, размер на популацията и т.н.), можете лесно да оптимизирате свързването, без да знаете нищо априори за различните сайтове. Има много литература за това, предлагам ви да направите бързо търсене в Google учен за насочена еволюция или еволюционни алгоритми за оптимизиране на афинитета на свързване.

Хартия върху in silico evolution за оптимизиране на свързването протеин-протеин


Изчислителен дизайн на алостерични сигнални трансдукции на G протеин-свързан рецептор

Мембранните рецептори усещат и трансдуцират извънклетъчни стимули във вътреклетъчни сигнални реакции, но молекулярните основи остават слабо разбрани. Ние съобщаваме за изчислителен подход за проектиране на протеинови алостерични сигнални функции. Чрез комбиниране на симулации на молекулярна динамика и дизайнерски изчисления, методът проектира аминокиселинни „микропревключватели“ в алостерични места, които модулират стабилността на рецептора или свързването на далечни разстояния, за да препрограмират специфични сигнални свойства. Ние проектирахме 36 варианта на допаминов D2 рецептор, чиято конститутивна и индуцирана от лиганд сигнализация се съгласува добре с нашите прогнози, преназначихме D2 рецептора в серотонинов биосензор и предвидихме сигналните ефекти на повече от 100 известни мутации на G-протеин-свързан рецептор (GPCR). Нашите резултати разкриват съществуването на различни класове алостерични микропревключватели и пътища, които определят непредвиден молекулен механизъм на регулиране и еволюция на GPCR сигнализирането. Нашият подход позволява рационалното проектиране на алостерични рецептори с подобрена стабилност и функция за улесняване на структурната характеристика и препрограмиране на клетъчната сигнализация в приложенията за синтетична биология и клетъчно инженерство.


Абстрактно

Мутациите, които възникват в HIV-1 протеазата след излагане на различни HIV-1 протеазни инхибитори, се оказаха труден аспект при лечението на HIV. Мутациите в свързващия джоб на протеазата могат да попречат на протеазния инхибитор да се свърже ефективно с протеина. В настоящото изследване, кристалните структури на 68 HIV-1 протеази, комплексирани с един от деветте одобрени от FDA протеазни инхибитори от Protein Data Bank (PDB), бяха анализирани чрез (а) идентифициране на мутационните промени с помощта на разработена карта на мутации и (b) корелиране на структурата на свързващите джобове с комплексираните инхибитори. Мутациите на всяка кристална структура бяха идентифицирани чрез сравняване на аминокиселинната последователност на всяка структура срещу HIV-1 див тип щам HXB2. Тези мутации бяха визуално представени под формата на мутационна карта за анализиране на мутационни модели, съответстващи на всеки протеазен инхибитор. Мутационните модели на кристалната структура на всеки инхибитор (инвитро) бяха сравнени с моделите на мутации, наблюдавани в in vivo данни. В инвитро Установено е, че моделите на мутации са представителни за повечето от основните in vivo мутации. След това извършихме анализ за извличане на данни на свързващите джобове от всяка кристална структура по отношение на техните химически дескриптори, за да идентифицираме важни структурни характеристики на протеина протеазата на HIV-1 по отношение на свързващата конформация на HIV-1 протеазните инхибитори. Анализът за извличане на данни се извършва с помощта на няколко техники за класификация: Random Forest (RF), линеен дискриминантен анализ (LDA) и логистична регресия (LR). Разработихме два хибридни модела, RF-LDA и RF-LR. Случайната гора се използва като прокси за избор на характеристики, намалявайки пространството на дескриптора до няколко от най-подходящите дескриптори, определени от класификатора. След това тези дескриптори се използват за разработване на следващите модели на LDA, LR и йерархична класификация. Групиращият анализ на свързващите джобове, използвайки избраните дескриптори, използвани за създаване на оптимални модели за класификация, разкрива конформационни прилики на лигандите във всеки клъстер. Това проучване предоставя важна информация за разбирането на структурните характеристики на HIV-1 протеазата, която не може да бъде изследвана от други съществуващи in vivo набори от геномни данни.


Резултати

Хомоложни модели на Olfr73

За да получим надежден 3D модел на Olfr73 чрез първоначално моделиране на хомология, първо сравнихме последователността на Olfr73 с последователности от други клас А GPCR в PDB базата данни. Открихме, че той споделя в най-добрия случай 19% идентичност на последователността с бета-2-адренергичен рецептор (β2AR, pdb код: 4LDE) 48 и 16% идентичност на последователността с родопсин (RHO, pdb код: 4BEY) 49 . Тъй като множество шаблони за моделиране могат значително да подобрят надеждността на хомологичните модели 50,51,52, ние използвахме кристалните структури на двата рецептора като шаблони за изграждане на модел. Подравняването на 3D последователността (допълнителна фигура 1) показва, че повечето силно запазени остатъци/мотиви в клас A GPCRs 9, включително N 1.50, D 2.50, DRY мотив, W 4.50, Y 5.58, F 6.44 и NPxxY мотив също присъстват в Olfr7 мотив. Въпреки това, остатък P 5.50 и мотив CWxP, които обикновено се срещат в GPCR без ИЛИ клас А, липсват в Olfr73. Освен това, една празнина в TM3 се наблюдава между последователността на C 3.25 и DRY мотива на Olfr73 (допълнителна фигура 1).

Взаимодействие пръстови отпечатъци (IFP) между агонисти и Olfr73

Окончателният усъвършенстван модел на хомология на Olfr73 (фиг. 2) споделя много от общите характеристики на GPCR без ИЛИ клас А, описани другаде 9,54. След това поставихме изоевгенол, мощен агонист за Olfr73 47, в предвидения извънклетъчен лиганд-свързващ джоб, за да изследваме атомистични детайли на взаимодействието между лиганда и неговия рецептор. Както е показано на фиг. 2, хидрофобната част на изоевгенола е заобиколена от няколко ароматни остатъка, включително F102 3.30 , F105 3.33 , F182 ECL2 , F203 5.42 , Y260 6.52, за които също беше установено чрез функционален анализ на мутантни рецептори, че играят решаваща роля в свързването на агонист 47 . Освен това, трите неароматни хидрофобни остатъка L199 5.38, L259 6.51 и V277 7.39 влизат в контакт с агонистичната молекула. Хидроксилната група в изоевгенола образува Н-връзка с Y260 6,52, която от своя страна образува Н-връзка с E208 5,47 и медиирана от вода водородна връзка към S113 3,41. И двата Y260 6.52 , E208 5.47 и S113 3.41 бяха показани на друго място като важни за активиране на Olfr73 47 .

3D структурният модел на Olfr73 (вляво) и увеличен изглед на режима на свързване на агониста изоевгенол (вдясно). Страничните вериги на аминокиселини в контакт със свързания изоевгенол са показани в зелено

За по-нататъшно валидиране на тези наблюдения, ние извършихме IFP анализ (фиг. 3а), който кодира специфични взаимодействия между конкретен лиганд и специфични аминокиселини в свързващия джоб. IFP анализите са използвани за изчислително откриване на лекарства за не-обонятелни GPCR 55 . Тук закачихме 25 по-рано докладвани Olfr73 агонистични молекули 16,45 (фиг. 4) в свързващия джоб на Olfr73 и получихме отпечатъците на взаимодействието на различните агонисти с остатъци в свързващия джоб (фиг. 3а). Анализът на IFP показа, че всички докирани агонисти могат да взаимодействат с пет остатъка в свързващия джоб на рецептора, включително F102 3.30, F105 3.33, L199 5.38, L259 6.51 и Y260 6.52. Освен това C106 3,34 (80%), V109 3,37 (96%), E181 ECL2 (80%), F182 ECL2 (64%), F203 5,42 (60%), E208 5,47 (88%), V277 7,39 (52%) и T280 7,42 (52%) също се откриват често (процент в скоби), контактуващи с агонистите (фиг. 3а, горна хистограма). В допълнение, трите остатъка V110 3,38 (5%), F179 ECL2 (8%) и K273 7,35 (12%) бяха открити понякога в контакт с агонистите. Установено е, че всеки конкретен лиганд взаимодейства с най-малко 80% от всички остатъци в свързващия джоб (фиг. 3а, дясна хистограма). Повечето от тези споменати остатъци бяха установени чрез функционален анализ на мутантни рецептори, че играят решаваща роля в свързването на агонист 47 .

Взаимодействие пръстови отпечатъци на 25 известни агонисти на Olfr73, групирани в класове 1–5 съгласно фиг. 4. а В хистограмата на взаимодействието всеки контакт на конкретен остатък с лиганда е обозначен с цвят. Цветният код разграничава местоположението на остатъка в определена спирала на ТМ. Всеки клас съединения е разделен с хоризонтална сива линия. б Фармакофорният модел, базиран на 25 известни агонисти на Olfr73. Като прототипен пример, позицията на изоевгенол в свързващия джоб Olfr73, показваща пръстовия отпечатък на взаимодействие. Задачи: донор на Н-връзка (I), акцептор на Н-връзка (II), хидрофобна част (III, IV, V, VI), полярни остатъци (жълти), ароматни остатъци (циан), хидрофобни остатъци (зелени)

Йерархично групиране на молекули агонист на Olfr73. Идентифицирани са шест различни класа агонисти (разграничени с цветен код) според техните PH4 характеристики. В йерархичната диаграма връзките между химичните съединения са представени като разклонени вертикални линии. Височината на линиите, съчетана с разстоянието на сливане (числата, показани във всеки възел), показват нормализираното разстояние на несходство между съседните съединения. По-висока линия или по-голямо разстояние на сливане означава по-голямо несходство. Типична представителна молекулярна структура за всеки клас е показана под дендрограмата заедно с техните молекулярни повърхности, показващи хидрофобни части в сиво и полярни части в червено. Обикновено споделените атоми в рамките на определен клас молекули са съответно обозначени с цветни точки. Молекулните структури на шестте класа агонисти са групирани в кутии. 17-те новооткрити агонисти са представени като A1-A17 в синьо. 25-те по-рано докладвани агонисти са представени като B1-B25 в черно. Агонистът изоевгенол е В3, а р-изобутилфенолът е А1. Във всички случаи съответният микромоларен EC50 стойностите са посочени в скоби. Имената на А- и В-съединенията са изброени в допълнителни таблици 2 и 3

Структурни характеристики на Olfr73 от симулации на молекулярна динамика

Моделирахме Olfr73 с кристални структури от активирани GPCR. За да изследваме надеждни атомни детайли, направихме 2 × 500 ns симулации на молекулярна динамика на всички атоми както за апо формата на рецептора (apo-Olfr73), така и за рецептора с агонист изоевгенол (iEG-Olfr73) (фиг. 2). Симулациите на молекулярната динамика показват, че обемите на свързващия джоб за apo-Olfr73 и iEG-Olfr73 са съответно 190 ± 3 Å 3 и 220 ± 3 Å 3 . Това вероятно се дължи на ефекта на индуцирана прилягане (IFD), който е широко наблюдаван в GPCR система и много други 56,57.

Тъй като Olfr73 беше моделиран с шаблони за идентичност с ниска последователност, беше необходимо да се ограничи гръбнакът на моделираната OR структура по време на симулации на молекулярна динамика, за да се запази правилната вторична структура 50,52. По този начин добавихме малко ограничение на силата по време на всички наши симулации на молекулярна динамика (вижте раздела за методи). Трансмембранните (TM) движения са отличителен белег на активирането на GPCR. Тъй като шаблоните, използвани за симулациите на молекулярната динамика, се основават на рецептори в активирани състояния, цитоплазмените TM региони на Olfr73 се поддържат в активна отворена конформация до края на симулациите на молекулярната динамика (допълнителна фигура 2).

Скрининг на виртуален агонист

Установихме усъвършенстван 3D структурен модел на хомология на Olfr73, пръстовия отпечатък на взаимодействието агонист-рецептор и структурната рамка, обясняваща механизма на активиране на рецептора. За да потвърдим тези открития, направихме виртуален екран на голяма библиотека с химични съединения, за да намерим нови кандидати за агонисти за Olfr73 (Фиг. 1) отвъд библиотеките на класическите одорантни съединения, които накрая ще бъдат тествани чрез клетъчни функционални анализи.

Първо, ние оценихме физикохимичните свойства на всички докладвани съединения (виж раздел Методи за филтриране на физични свойства) и ги използвахме за задаване на условията за първоначален филтър, според който 312 800 съединения бяха избрани от първоначалните 1,58 милиона лекарственоподобни съединения на ZINC библиотека (допълнителна таблица 1). За подробности относно тази процедура, моля, вижте раздела Методи за виртуален скрининг).

Приложихме следващия кръг от критерии за подбор към нашата намалена библиотека с химически съединения, използвайки търсене на фармакофори (PH4) 58, скрининг метод, избиращ съединения според тяхната химическа форма (фиг. 3b). Екранът на PH4 до голяма степен разчита на нашите резултати, получени от IFP анализа и симулациите на молекулярната динамика. Според симулациите на молекулярната динамика, кислородът на място I е от решаващо значение за свързването на агониста, образувайки отделни Н-връзки с Y260 6,52 и E208 5,47 . Анализът на IFP допълнително потвърждава, че взаимодействието с Y260 6.52 в тази позиция е силно запазено (фиг. 3а). Тъй като -OH групата може да бъде или донор на Н-връзка, или акцептор на Н-връзка, беше представено, че филтърът за избор на PH4 допълнително намалява библиотеката до 266 000 съединения.

Интересно е, че празният лиганд-свързващ джоб на Olfr73 има обем от 190 Å 3 и е забележимо по-малък от този на други GPCR, включително AR (270 Å 3 ) 59 , родопсин (260 Å 3 ) 11 (фиг. 5), 5-НТ 60 рецептор (360 Å 3 ) или μ-опиоидният рецептор 57 (510 Å 3 ) и следователно действа като филтър за избор на размер за потенциални свързващи вещества. Това обяснява защо всички докладвани понастоящем агонисти на Olfr73 са малки (MW = 130–220) и съответните EC50 стойностите са относително високи, поради ограничените взаимодействия в такъв малък свързващ джоб. На тази основа създадохме обемен брояч по протежение на 3D пространството на шестнадесетте насложени лиганди, като допълнително намалихме библиотеката от потенциални свързващи вещества Olfr73 до 493 съединения. След това продължихме да филтрираме подбор, прилагайки първо йонизиращо наказание и след това брояч на молекулярната полярност, което стесни библиотеката още повече до 371 и след това до 204 съединения.

Напречно сечение през няколко GPCR по протежение на нормата на мембраната, показващо вертикалната част на лиганд-свързващия джоб на (а) АR в комплекс със ZMA, (б) родопсин в комплекс с ретината и (° С) Olfr73 в комплекс с изобутилфенол. д Парцел на ЕК50 стойности спрямо обеми на агонист и полярни повърхностни площи на агонист (PSA) за Olfr73 въз основа на всички докладвани агонисти. Силно мощни агонисти се намират в региони а1, а2, а3 и а4 агонисти със средна ефикасност са в областите на b1, b2 и b3 агонисти с по-ниска ефикасност се намират в региони c1 и c2. д Молекулно масово разпределение на OR лиганди. е Молекулно масово разпределение на не-обонятелни GPCR лиганди

Накрая, ние избрахме потенциални агонисти от останалите 204 съединения, използвайки количествени връзки структура-активност (QSAR), базирани на сравнителни методи за анализ на молекулярно поле (CoMFA) 61 . Свързахме първите 100 класирани съединения от QSAR в MD прецизирания хомологичен модел и открихме, че 64 съединения са поставени в лиганд-свързващия джоб на Olfr73, близо до активационния тригер F105 3.33. Въпреки това, само 25 от 64 избрани съединения са били търговски достъпни за тестване на биологична активност.

Клетъчни функционални тестове

След това използвахме репортерния анализ на SEAP, наблюдавайки промените в сигнализирането на втория месинджър на цикличния аденозин монофосфат (cAMP) като отчитане за клетъчните отговори на активиране на рецептор, предизвикано от одорант, и открихме лиганди, способни да активират Olfr73 в клетките Hana3A 47 Тествахме 25 съединения на молекулите, предсказани от виртуален скрининг и идентифицирани 17 (фиг. 4, синьо белязани съединения, допълнителна таблица 1 и допълнителна фигура 3), индуциращи забележим SEAP сигнал в зависимо от концентрацията активиране на Olfr73. Би било интересно да се тества чрез допълнителни експерименти дали от осемте съединения, които не са показали агонистична активност, има антагонисти за Olfr73.

Разнообразието от OR агонисти

По-долу използвахме йерархичен агломеративен метод за клъстериране 62, за да класифицираме както новооткритите, така и по-рано известните агонисти на Olfr73 въз основа на техните PH4 характеристики. Както е показано на фиг. 4, 42-те съединения могат да бъдат групирани в 6 различни класа. Четирите агонисти от клас-1 включват обща фенолна група с обемисти хидрофобни групи (циклохексил или разклонени метил-съдържащи алкилови вериги) в ал позиция. ЕК50 стойностите на агонистите от клас-1 варират от 13 до 64 μM. Агонистите от клас-2 споделят централна модифицирана пирокатехонова структура (предимно под формата на монометокси-фенол или диметокси-фенон) с прикрепена допълнителна линейна, разклонена или циклична хидрофобна група. ЕК50 стойностите на тези агонисти варират от 7 до 240 μM. Агонистите от клас-3 съдържат централна бензалдехидна структура. В ал позиции носят предимно метокси- или етокси-заместител мета позиции са заместени предимно с метокси групи или за един случай с метилова група. ЕК50 на агонистите от клас 3 варират от 26 до 270 μM. 16-те агонисти от клас-4 споделят централна фенолна структура с кислород пренасящи групи в ал а понякога и в орто позиция. Агонистите от клас 4 са най-полярните в нашата колекция, десет от тях показват ЕК50 стойности в диапазона 4–100 μM, останалите шест имат EC50 стойности между 200 и 660 μM. Агонистите от клас-5 са доста различни от първоначалните четири класа, те не съдържат ароматен пръстен, а вместо това носят централна циклохексанонова структура, за предпочитане с линеен или разклонен алкилов заместител при ал позиция. Четирите агонисти от клас 5 показват EC50 стойности от 36 до 63 μM. Само един агонист е посочен в клас-6. Състои се от тетрахидро-2Н-пиранова структура, носеща две хидрофобни замествания в пръстена и има EC50 стойност от 630 μM.

Терапевтичен потенциал на новооткритите агонисти

Открихме р-изобутилфенол (4-изобутилфенол) като най-мощния лиганд, активиращ Olfr73 в нашия функционален анализ (фиг. 4). Това е известен продукт на разграждане на ибупрофен, който се използва широко като аналгетично противовъзпалително лекарство, но също така е доказано, че р-изобутилфенолът проявява антибиотична активност 63 . Естрогенната активност на съединението 4-циклохексилфенол е документирана чрез in vitro анализи 64 . Olfr73 активиращото съединение 4′-хидрокси-3′,5′-диметоксиацетофенон (ацетосирингон) има антиастматични и противовъзпалителни свойства 65 . И накрая, 4′-хидроксипропиофенонът е прогнозиран инхибитор на металопротеиназа 10, която има активна роля в развитието на рак на белия дроб (Kiresee et al., 2016). По този начин, нашите резултати разкриха някои прозрения относно потенциалния полифармакологичен профил на тези лекарства, които действат не само върху определена медицинска цел, но също така активират OR. Подобни наблюдения на непреднамерени взаимодействия и активиране от лекарствени лекарства също са документирани за рецептора на горчив вкус TAS2R14 66 . Пълният списък на новооткритите съединения може да бъде намерен в допълнителна таблица 2. Пълният списък на докладваните съединения е в допълнителна таблица 3.

Ограничен обем на ИЛИ джоба за подвързване

OR като цяло и Olfr73 в частност показват някои интересни структурни и функционални разлики спрямо техните роднини от клас A GPCR. Повечето от известните OR-агонисти са по-малки по размер от типичните агонисти на GPCR без обонятелен клас А. Като се има предвид голям панел от докладвани OR лиганди 67 заедно с новите лиганди (общо 105 съединения) от тази работа показва, че молекулната маса (M) на OR лигандите се разпределя между 80 и 220 Da (максимум около 150 Da) (фиг. 5e ). Обратно, не-обонятелните GPCR лиганди 68 (общо 161 083 съединения) разпределят предимно между 300 и 600 Da (максимум около 450 Da) (Фиг. 5f). Освен това ЕК50 стойностите за OR-агонисти обикновено са много по-високи от тези на агонистите от GPCR без обонятелен клас A 69 . В нашето настоящото изследване това може да се обясни с обема на лиганд-свързващия джоб на Olfr73, който в апо форма е значително по-малък от сравнимите региони на не-обонятелния клас A GPCRs, намалявайки броя на точките на взаимодействие между лиганда и рецептора (фиг. 5). Очевидно лиганд-свързващият джоб на конкретен рецептор действа като филтър за изключване по размер за потенциални лиганди. За да тестваме тази хипотеза и да изследваме гъвкавостта на лиганд-свързващия джоб за Olfr73-агонистите, ние представихме Olfr73 със свързани съединения A1, A2 и A3 (фиг. 4) на допълнителни симулации на 2 × 500 ns изцяло атомна молекулярна динамика. Подобно на агониста изоевгенол, обемът на свързващия джоб на Olfr73 се увеличава от 190 ± 3 Å 3 в празно състояние до 220 ± 3 Å 3 за A1 (MW = 149) до 225 ± 5 Å 3 за A2 (MW = 166 ), и 240 ± 2 Å 3 за A3 (MW = 171), съответно. Като цяло, по-големите лиганди предизвикват по-голямо увеличение на обема в заетия свързващ джоб 56 . Очевидно свързващият джоб на Olfr73 е в определен диапазон доста гъвкав и се настройва перфектно към размера на свързания лиганд с промени в обема между 15 и 25%. По-рано направихме подобни наблюдения за GPCR без обонятелен клас А, като P2Y1 рецептор 70 променя обема на свързващия джоб от 230 ± 4 на 280 ± 5 Å 3 (22% промяна), 5-НТ 60 рецептор от 360 ± 5 до 425 ± 3 Å 3 (18%), AR 59 от 270 ± 2 до 315 ± 4 Å 3 (17%), а μ-опиоидният рецептор 57 от 510 ± 3 до 575 ± 5 Å 3 (13%). В следващата стъпка направихме анализ на пръстови отпечатъци на взаимодействие за нашите новооткрити 17 агонисти и сравнихме резултата с този на Фиг. 3 от 25-те известни агонисти (допълнителна фигура 4). IFP и на двата комплекта агонисти са доста сходни. Освен това, IFPs показват, че има само две взаимодействия на водородна връзка между Olfr73 и неговите агонисти, докато има много по-полярни взаимодействия в други GPCRs 71,72. Тези резултати допълнително потвърждават нашите заключения, че обемът на Olfr73 е ограничен, което е отговорно за малкия размер на неговите агонисти и слабата EC50 стойности.


Дискусия

В това проучване ние изчислително съкратихме и проектирахме човешката ACE2 рецепторна последователност за мощно свързване към SARS-CoV-2 RBD. Освен това идентифицирахме оптимизиран пептиден вариант, който позволява стабилно разграждане на RBD-sfGFP комплекси в човешки клетки, както в транс, така и в цис с човешки E3 убиквитин лигази. И накрая, ние показахме, че нашата оптимална фузионна конструкция инхибира производството на инфекциозно-компетентни вируси, псевдотипирани с пълноразмерния S протеин на SARS-CoV-2.

Въпреки че са необходими допълнителни контексти за тестване, може да има определени предимства за нашата платформа в сравнение със стратегията PAC-MAN, представена наскоро 6, освен етичните последици от прилагането на CRISPR при хора 35 . Първо, и двата компонента на пептида и на E3 убиквитин лигаза са конструирани от ендогенни човешки протеини, за разлика от Cas13d, който е получен от Ruminococcus flavefaciens бактерии, като по този начин потенциално намалява риска от имуногенност. В допълнение, по отношение на доставката in vivo като РНК или рекомбинантен протеин, Cas13d има отворена рамка за четене (ORF) от близо 1000 аминокиселини, без да включва водещите РНК, необходими за интерференцията. Целият пептид-CHIPΔTPR ORF се състои от малко над 200 аминокиселини, които могат лесно да бъдат синтезирани като пептид или ефективно опаковани за доставяне в липидни наночастици или адено-асоцииран вирус.

Освен това нашата платформа за сливане на пептиди като профилактично средство осигурява жизнеспособна алтернатива на настоящите антивирусни стратегии, които се изследват за COVID-19. Антиретровирусните протеазни инхибитори за ХИВ, като лопинавир и ритонавир, са показали минимална ефикасност в клиничните проучвания на COVID-19 и са генерирали нежелани ефекти при подраздел от пациенти 36 . По подобен начин антималаричните средства, като хидроксихлорохин и хлорохин, които могат да гликозилират ACE2, не са показали полза при пациенти, заразени със SARS-CoV-2 в рандомизирани, контролирани проучвания 37 . И накрая, има глобални усилия за създаване на ваксина срещу COVID-19. Въпреки че 11 кандидата са преминали във фаза 3 изпитания и 5 са ​​одобрени за ранна или ограничена употреба в Китай и Русия, стандартната времева рамка за пълна оценка на безопасността и ефикасността отнема повече от една година 4 . Въпреки че нашата платформа вероятно изисква синтез и оценка на генна терапия, а не на малка молекула или съединение, и не генерира имунологична памет срещу SARS-CoV-2, както би направила ваксината, нейният бърз и директен механизъм за насочване, съчетан с нейния размер и извличане на човешки протеин, представя многобройни предимства в сравнение със съществуващите стратегии.

Като цяло, ние предвиждаме, че стратегията за използване на компютърно проектирано пептидно свързващо вещество, свързано с E3 убиквитин лигаза, може да бъде изследвана не само за SARS-CoV-2, но и за други вируси и лекарствени цели, които имат известни свързващи партньори. С вече над 30 000 кокристални структури, които понастоящем са в PDB и определянето на структурата става все по-рутинно с напредъка в криогенната електронна микроскопия, представеният тук тръбопровод за изчислително пептидно инженерство предоставя гъвкава нова терапевтична платформа в борбата срещу COVID-19, бъдещи нововъзникващи вирусни заплахи и много заболявания.


МАТЕРИАЛИ И МЕТОДИ

Нашият подход, описан по-подробно в следващите раздели, се състои в (i) дефиниране на региона на заявка, т.е. региона на входния целеви протеин, съдържащ желания сайт на свързване (ii) търсене на региони, структурно подобни на региона на заявка в не излишна база данни от експериментално решени мономерни протеини (iii) извличане на непрекъснати фрагменти на гръбнака в контакт с областта на запитване и сливането им в подходяща относителна позиция с целевия протеин и (iv) проектиране на пептидната последователност, използвайки повтарящи се цикли на диверсификация на структурата и проектиране на последователност. Тези стъпки са описани по-долу.

Дефиниране на региона на заявка: регионът на заявка може да бъде дефиниран по два начина, т.е. чрез изброяване на конкретен набор от остатъци или чрез избиране на един единствен остатък рез и радиус на областта на заявката r. В последния случай всички остатъци имат поне един атом вътре rÅ от всеки атом на рез са включени в заявката.

Идентифицирайте региони, структурно подобни на региона на заявка: търсене на структурно сходство на региона на заявка, както е дефинирано по-горе, се извършва срещу неизлишна база данни от решени мономерни протеини (филтриран на ниво 70% идентичност на последователността). Ние използваме Triangle Match ( 23, 24) с параметри по подразбиране, за да изберем региони на гръбнака (посегнати региони), структурно подобни на региона на заявка в аминокиселинна последователност и независим начин.

Извличане на подходящите гръбнаци: ние извличаме скелета на гръбнака, като разглеждаме регионите на засегнатите протеини в контакт с засегнатия регион. Това се постига чрез анализиране на контактните графики. Контактите са предварително изчислени за всички протеини в нашата база данни, като се използва почти Делоне теселация (25), както е реализирано в програмата ADCGAL (26) и се използва за конструиране на графики с помощта на пакета NetworkX за Python (27). Конформациите на първите 2000 по-дълго засегнати региона се анализират допълнително. Фрагменти в контакт с засегнатите региони (които ние наричаме скелета) се извличат. Тези, които нямат разширена конформация, са изключени, тъй като регионите със спираловидни или завои конформации в естествената структура е малко вероятно да запазят своята конформация в изолация. Разширените гръбначни скелета се дефинират като фрагментите, за които nд/(L - 2) ≥ 0,5 където nд е броят на остатъците, които имат ϕ ъгли в диапазона от −185° до −35° и ψ ъгли в диапазона от 85° до 160° и L е дължината на фрагмента, определена като броя на неговите остатъци. Региони, по-къси от четири остатъци, не се вземат предвид.

Контактната плътност (дефинирана като брой контакти на остатък) между останалите потенциални скелета и съответния район на попадане се използва за повторно сортиране на списъка и запазване на първите 500 скелета (или повече, ако има региони със същата контактна плътност при позиция 500). Това се основава на предположенията, че е по-вероятно скелетите на гръбнака с по-висока контактна плътност да поддържат последователности, водещи до свързващи пептиди с висок афинитет в следващата стъпка на проектиране на последователност. След това избраните гръбначни скелета се обединяват с протеина на заявката, за да се изградят предполагаеми протеин-пептидни комплекси на базата на суперпозицията между заявката и засегнатите региони. Суперпозицията се извършва с помощта на Triangle Match ( 23, 24).

Дизайн на последователност: дизайнът на последователността се извършва с помощта на PyRosetta (22), базиран на Python интерфейс към пакета за молекулярно моделиране на Rosetta (28) и енергийната функция на пълните атоми на Rosetta с тегла на енергийните термини Talaris2013 (29). Проектирането се състои от два различни етапа, включително диверсификация на структурата и проектиране на последователност.

Първо, стъпка на релаксация се извършва с помощта на PackRotamersMover, за да позволи промени в ротамерите на страничната верига както на протеина, така и на пептида. След това се извършват малки движения на твърдо тяло на пептида и малки локални гъвкави гръбначни движения на структурата на протеин-пептиден комплекс с помощта на RigidBodyPerturbMover със стъпки на транслация и въртене съответно от 0,08 Å и 0,3°, последвани от пет кръга на BackrubMover върху целия комплекс ( 22). Минимизирането на енергията на протеин-пептидния комплекс се извършва с помощта на минимизиране на MinMover DFP с толеранс от 0,01 Å. След това аминокиселинната последователност на пептида се оптимизира с помощта на стандартен симулиран метод на отгряване на Монте Карло, използвайки функцията PackRotamersMover, където ротамерите се променят както в протеина, така и в пептида, докато аминокиселините се мутират само в пептида. За всяко гръбначно скеле се изчисляват 10 различни пептидни последователности и получените комплекси се оценяват и класират с помощта на FoldX (30). 100-те скелета на гръбнака, съответстващи на най-горните протеинови пептидни комплекси по отношение на най-ниската енергия на свързване на FoldX, са избрани за следващата стъпка за проектиране на изчерпателна последователност.

В следващия етап на проектиране, всеки пептид се подлага на три итерации на движения на гърба, минимизиране на енергията и проектиране на последователност и 100 пептида се генерират от всяко скеле на гръбнака, избрано в етапа на предварително проектиране. Допълнителна стъпка за прецизиране на структурата се извършва върху протеин-пептидния комплекс, следвайки протокола Rosetta Classic Relax (31). In this final step the backbone of the protein is kept fixed and all residues within 20 Å from any atoms of the query region are considered in the calculation. Resulting models differing by more than 1Å in terms of Cα RMSD from the initial protein–peptide structure are filtered out in order to avoid both significantly distorted structures and peptide conformations that deviate too much from the starting backbone scaffold. The remaining peptides corresponding to the same backbone are grouped by sequence identity using CLUSEQ ( 32) and each group is assigned the average FoldX binding energy of its members.

The parameters used in the pipeline described above have been selected on the basis of their ability to retrieve peptides similar in both structure and sequence to experimentally known cases. A few selected examples of the results are illustrated later more are available in the ‘Example’ section of the web server.


Методи

Computational protocol

The computational protocol is organized in two main parts (Fig. 2). Computational models of ligand analogues (N6-(benzyl) ATP, N 6 -(1methylbutyl)adenosine-5′-triphosphate (N6-(1-methylbutyl) ATP), N 6 -cyclopentyl-adenosine-5′-triphosphate (N6-(cyclopentyl) ATP), N 6 -(2-phenythyl)adenosine-5′-triphosphate (N6-(2-phenythyl) ATP), and 1-tert-butyl-3-(4-methylphenyl)-1H-pyrazolo[3,4-d]pyrimidin-4-amine (PP1) Fig. 3) were modelled in Maestro (version 9.5, Schrödinger, LLC, New York, NY, 2013). For each molecule, an ensemble of low energy conformers was generated by performing an in vacuo conformational search keeping the adenine base, the ribose ring, the phosphates and the pyrazolopyrimidine core of PP1 fixed and allowing the bonds of each substituent group to rotate freely. We used the Monte Carlo multiple minimum (MCMM) method [29] for 10,000 steps and OPLS_2005 as force field [30, 31]. During the conformational search, new structures generated were retained if they exhibited conformational energies lower than 100 kJ/mol. The conformation energy cutoff was chosen at 100 kJ/mol to allow for the various geometric approximations made in the force field. It serves as a proxy for the estimated protein–ligand interaction energy. To obtain an ensemble of non-redundant conformations, each conformer was compared with the previous ones and only retained if the root mean square deviation (all atoms) exceeds 0.5 Å. The conformational search was performed with the MacroModel module implemented in the Schrödinger suite (version 10.1, Schrödinger, LLC, New York, NY, USA, 2013).

Workflow of the computational protocol. The protocol is organized in two parts, the first part identifies residues to mutate and the 2nd part evaluates mutant-analogue interactions. The specific inputs are depicted in кръгове, steps of the workflow are shown in правоъгълници and outputs are depicted in rectangles with dashed lines. In case all analogue conformations are scored as having favorable interactions with the wild type, the analogue is considered to act as substrate for the wild-type protein and thus not further considered

Chemical structures of ATP and ATP-competitive analogues used in this study. For N6-(substituent) ATPs only the structures of the adenine ring and the hydrophobic groups are shown

For each analogue, the ensemble was superposed onto the adenine moiety of the native ATP ligand within the binding pocket of the reference protein. If the distance between an atom of a protein residue and any atom of the substituent group of a ligand analogue in the ensemble is shorter than the sum of their van der Waals [32] radii, the corresponding residue is considered a potential candidate for single-point mutagenesis. If no residues were identified by this approach, the analogue was considered to act as substrate for the native target and thus not further considered. The method was implemented in Python 2.5.4 and contains functions from the OpenStructure software framework [33].

In the second step, the interaction between potential protein mutants and ligand analogues was evaluated using a protein–ligand scoring function. Amino acids at positions identified in the first step were replaced in silico to generate mutant proteins. When a residue was changed into Gly or Ala, the entire structure was relaxed by a minimization step performed using OPLS_2005 as force field in Maestro [34]. When a residue was mutated into an amino acid with a larger side chain, such as Met or Thr, a rotamer scan was performed to identify the most probable rotamer state using Rapid Torsion Scan tool available in Maestro. The kinase mutant-ligand conformer pairs were evaluated and ranked by the protein–ligand scoring function GlideScore [35]. The kinase mutant-ligand conformer structure with the lowest GlideScore was selected and the corresponding Glide energy was computed. The Glide energy is the sum of the Coulomb and van der Waals terms and represents an estimate for the protein–ligand interaction energy. Typically, predicted energies of interaction (Glide energies) correlate better with protein–ligand binding affinities or experimental IC50 values than GlideScore [36]. We arbitrarily limited all positive energies to zero as we were only interested in identifying favorable interactions. In the case of engineered kinases and ATP analogue pairs, only the adenine base and the substituent group were scored by GlideScore.

Kinase data set

A set of 7 protein kinases and 15 mutants for which experimental data were available in literature was used as test set (Table 1). Unless stated otherwise, in silico mutagenesis was performed using Maestro and the structure was prepared with the Protein Preparation Wizard tool [34]. Residues are numbered as as in PDB structures. The crystal structure of JNK bound to ANP (an ATP analogue with an amino group in place of the oxygen between the β and γ phosphates that mimics the natural cofactor) and Mg 2+ was solved in 1998 (Хомо сапиенс, PDB:1JNK, resolution 2.30 Å, [37]). The crystal structure was prepared for molecular modelling by adding hydrogen atoms, optimizing the hydrogen bonding network, the orientation of the amide groups of Asn and Gln, and the orientation and protonation state of the imidazole ring of His. This optimization allowed for improving interactions between charged groups as well as hydrogen bonds within the structure. The optimization was performed at pH of 7. Finally, a minimization step was applied to relax the entire structure. OPLS_2005 was used as force field and the termination criterion was based on the rmsd of the heavy atoms relative to their initial location (rmsd less than or equal to 0.30 Å). The M108GL168A mutant was obtained by in silico replacing Met108 to Gly and Leu168 to Ala and the structure was prepared as described above.

The kinase domain of v-Src differs from that of the cellular protein kinase c-Src at position 338 within the binding pocket (Ile338 in v-Src and Thr338 in c-Src). The crystal structure of c-Src in complex with ANP has been solved (Хомо сапиенс, PDB:2SRC, resolution 1.50 Å, [38]). To obtain a model of v-Src bound to its natural cofactor, we substituted in silico Thr338 into Ile. The v-SrcI338A and v-SrcI338G mutants were obtained in the same way.

To obtain a model of v-Src in complex with a pyrazolopyrimidine inhibitor, PP1, the structure of v-Src bound to ANP was superposed onto the structure of the hematopoietic cell kinase (Hck, a homologous protein) in complex with PP1 (Хомо сапиенс, PDB:1QCF, resolution 2.00 Å, [39]). The superposition was based on residues belonging to the hinge regions (residues 338–341 in both v-Src and Hck). The coordinates of PP1 were copied into the v-Src binding site and the complex was then prepared and minimized as described before. The same procedure was used for all other protein kinases and mutants studied in the same paper, proto-oncogene c-Fyn (Fyn, Хомо сапиенс, PDB:2DQ7, resolution 2.80 Å, [40]), abelson murine leukemia viral oncogene homolog 1 (Abl, Хомо сапиенс, PDB:2G1T, chain D, resolution 1.80 Å, [41]), calcium/calmodulin-dependent protein kinase type II subunit alpha (CamKII, Хомо сапиенс, PDB: 2VZ6, chain B, resolution 2.30 Å, [42]), cyclin-dependent kinase 2 (Cdk2, Хомо сапиенс, PDB:1HCK, resolution 1.90 Å, [43]), and mitogen-activated protein kinase p38 alpha (P38, Хомо сапиенс, PDB:1DI9, resolution 2.60 Å, [44]).

The complex of Fyn bound to the PP1 conformer with the best GlideScore was minimized in vacuo without constraints. We used the Polak-Ribier Conjugate Gradient (PRCG) as method for 2500 steps [45]. The same procedure was used for the complexes of FynT339A, Abl and AblT334A. The procedure was performed using MacroModel.

Data comparison

All plots reported in this paper were made using the Matplotlib [46] and NumPy packages [47]. In the plot of JNKM108GL168A, the interaction energies were scaled between 0 and 100 to fit the same range of observed phosphorylation values (expressed as percentage of phosphorylation). The lowest Glide energy was set to 0 and the highest to 100. The plots of v-Src, v-SrcI338A and v-SrcI338G in complex with ATP and N6-(benzyl) ATP were created by comparing the experimental catalytic efficiency (kcat/Km) and the predicted interaction energies (Glide energies). To correlate experimental and predicted data, we computed the negative logarithm of the kcat/Km ratio. The plots of tyrosine kinases and serine/threonine kinases in complex with PP1 were made measuring the linear correlation between the predicted interaction energies and the experimental measured pIC50 (−log(IC50)). For each family, the Pearson correlation coefficient was computed.


Въведение

Elucidating the properties of a protein interfacial pocket (IP) can be a daunting task,2 , 32 let alone re-engineering it by altering residue and R-group arrangements to endow intended new functionalities. The IP of a protein may be abstracted as a set of amino acid residues, not necessarily adjacent in the linear polypeptide sequence, that form a local biochemical environment in three-dimensional structure space using conformations of their R-groups that is favorable to binding the proper substrate.29 These residues are housed amongst the rest of the residues, or scaffold, that do not participate in direct binding. Contribution to this favorable local environment can arise from a number of biophysical factors. В steric effects, approximated by a pairwise Lennard–Jones interaction energy, Е VDW , of the van der Waals (VDW) radii of atoms composing the amino acid residues of the IP as well as the proper substrate, contribute to favorable binding between them and provide hindrance and shielding against unintended side-reactions involving other substrates.46 The coulombic effects, represented by an analogous pairwise electrostatic interaction energy, Е electrostatics , enable charge complementarities between regions of the IP and proper substrate and repulsive mismatches with other substrates.46 Since both the IP and a region of the substrate with which it interfaces are occupied by electrostatic interactions with water molecules or some other solvent, evacuating this solvent is quantified as the electrostatic desolvation energy of the former, (ΔG desolvation IP , and the latter, ΔG desolvation substrate . Thus, an estimate has been often used for the net binding free energy, ΔG, from a linear sum of these weighted energies46:

The protein IP engineering possibilities, as outlined in Fig. 1, and IP residue replacement R-group refinement (R 4 ) maintain these favorable ΔG of interactions and global minimum energy conformations (GMECs) of the protein–substrate complex as a whole.14

Protein IP engineering possibilities. The wild-type protein, consisting of the original scaffold and IP with the original substrate (top) can serve as a starting point for three distinct engineering possibilities: an advantageous original scaffold can support an engineered IP that binds a different substrate than wild-type (bottom left) an original IP that binds the original substrate well can be adapted to an engineered scaffold (bottom center) or both IP and scaffold can be engineered to provide advantageous support and binding to a different substrate (bottom right)

Computational Filtering (CF) Approaches

There are a number of CF approaches to perform R 4 with the aforementioned energetic conditions under consideration. However, due to the rapidly increasing degrees of freedom at each residue, н, of the protein chain, coupled with the specific characteristics of the 20 amino acids that can be found at each position, an colossal combinatorial quagmire of 20 н possibilities require modeling and analysis—and for an average-sized protein composed of 100 amino acids, simulating 20 100 possible physical combinations exceeds the number of atoms in the known universe. Thus, the probability of the protein’s IP locating its native state by pursuing all these combinations is biologically infeasible (known as the Levinthal paradox)15 and computationally impractical (known as the Blind Watchmaker paradox).15 An exhaustive structural bioinformatics search for IP formation and end-state continues to be a challenge that is tackled using filtering, heuristics, homology, distributed computing, and high performance supercomputers with varied success.39

Heuristics are often helpful and necessary in undertaking R 4 at the scale of IPs. For example, heuristics in genetic algorithms, mean field algorithms, constraint logic programming enumeration, or database search perform adequately under certain scenarios and assumptions and not as well with others.11 While the computational cost is lessened or efficiency increased compared to the exhaustive search, the quality, however, of the end solution may or may not be consistent rather than assuring that the particular IP R 4 generated by the heuristic is located at or near the GMEC.

Homology can often aid in proper R 4 as well. Here, informatics searches and interpolations from signature sequences of a few residues composing a key motif of IP, substrate, or both can provide clues for engineering. This can extend further to domain sampling of entire regions across the protein that compose the IP. While this may be effective in well-investigated and documented systems, those sequences or structures with no similarity or availability of such information can hinder this approach. Even with fertile sources, often the R 4 is limited by what has been already observed to transpose well.26 , 27

In similar fashion, partitioning and docking can narrow the possibilities for R 4 .25 A collection of IP conformations can be generated that each present a different VDW, electrostatic profile, or desolvation cost. By docking this collection of IP conformations to the proper substrate, the affinity features of those subpartition of IPs that dock more readily can be gleaned. However, fully enumerating all the elements in this collection may be computationally difficult or biologically unsubstantiated.

Furthermore, exact filtering algorithms, among them integer programming,21 dead-end elimination (DEE),12 , 13 , 23 and A*,24 can advance the R 4 process by eliminating possibilities.17 For example, in DEE the relative global energy, Е глобални, of an IP is composed of the linear sum of the energy contributions from the backbone, the self and interaction with backbone energy, Е(и r), of rotamer, r, at its position, и, and its pairwise interaction energy with rotamer at nearby position, j:

Thus, if the minimum energy, determined via some given discrete rotamer library and energy function, or best case, arrangement of rotamer, и r, still has a higher energy than the maximum energy, or worst case, arrangement of an alternate rotamer, и T:

then the former rotamer is considered an energetic dead-end for further investigation as its arrangement is guaranteed to not be a participant in the GMEC, thus filtering the number of possibilities than need to undergo R 4 . However, this guarantee is accompanied by an expensive computational cost due to the enumeration of all elements of the rotamer library in use at each residue position of the IP. In addition, since these IP R-groups need to be energy minimized as a whole, then DEE may no longer be provably accurate. In summary, the CF approaches are often a trade-off between the quality of the end IP candidate and the efficiency to reach it.42

Biological Focusing (BF) Approaches

Correspondingly, there are many BF approaches to perform R 4 so that resulting possibilities are in or near the aforementioned energetic conditions, perhaps by virtue of the constraints and fitness requirements existing in and imposed by the biological environment.44 , 45 Here, the parallel processing nature of this environment may provide a natural, even advantageous, platform to evaluate the large combinatorial number of possibilities and interdependencies to be considered in a tractable manner. However, this evaluation is often performed in a stochastic, discovery-driven investigation using various mutagenesis techniques, recombination, and directed evolution among others to screen for high performing clones or select those that survive from a large starting population representing the number of possibilities.7

Stochastics are often necessary for R 4 at a single position in the protein, let alone the half-dozen to a dozen residues that comprise some IPs.19 Consider a random mutagenesis methodology using mutagenic chemicals, wobble base PCR, or error prone PCR to incorporate mutations at the genetic level that will be selected or screened for the desired characteristics at the protein level. Though apparently misguided, it has been observed that non-obvious mutations can give rise to proteins with new characteristics.3

Another group of approaches to achieve R 4 using biology relies on using the recombination of existing components in the system to generate new promising possibilities.43 Among these is incremental truncation to correlate the loss or gain of certain IP features and functions to the gene and protein truncation positions.31 , 38 There is also homologous gene shuffling to generate variants of the original IP from internal wellsprings of diversity.9

These external and internal sources of stochastics can be considered aspects of directed and simulated evolution, which mimic the fitness requirements, survival and natural selection, propagation and amplification and of individuals, or IPs, to evaluate massive potential-filled populations with desirable properties.19 However, these stochastic approaches rely on the robustness of this evolutionary condition to propagate order from randomness. In summary, the BF approaches are usually a compromise between the intended end IP and those that arise serendipitously or survive having unintended properties.

Coupling Computational and Biological Approaches: CF–BF

While CF and BF each has its own advantages and drawbacks, a synergistic coupling of CF and BF may narrow the scope to a smaller number of high-quality, intended candidates more efficiently than either alone (Fig. 2). This smaller number of possibilities is also more amenable to downstream computational and empirical evaluation and feedback. In this research, we attempt to demonstrate the application of the CF–BF criterion to computationally engineer a putative IP on the scaffold of the restriction endonuclease R.PvuII to bind a different DNA substrate, which is to be that of the restriction endonuclease R.EcoRV.

CF–BF reduces the search space Ω and the corresponding cost required to locate GMEC. Using existing CF criterion, shown in red arrows, the search space of all possibilities, Ω, eliminates residues and R-group configurations of those residues that are most likely not in the GMEC based on pairwise local energies, to yield a smaller number of conformational possibilities, shown in dotted blue line, that must be evaluated via global energy minimization (top panel). Coupling to a BF criterion, shown in green, improves this condition by further reducing Ω to an even smaller number of possibilities based on evolutionarily relevant residues and R-groups, to be evaluated for minimum global energy as well as functionality (bottom panel)


Web-based tools for computational enzyme design

Enzymes are increasingly used in technological applications but often require prior optimization.

Computational tools save time and effort in protein engineering endeavours.

Web-based tools make computational enzyme design accessible to a broad user community.

The recent enzyme engineering web-tools are described and classified by engineering purpose.

Enzymes are in high demand for very diverse biotechnological applications. However, natural biocatalysts often need to be engineered for fine-tuning their properties towards the end applications, such as the activity, selectivity, stability to temperature or co-solvents, and solubility. Computational methods are increasingly used in this task, providing predictions that narrow down the space of possible mutations significantly and can enormously reduce the experimental burden. Many computational tools are available as web-based platforms, making them accessible to non-expert users. These platforms are typically user-friendly, contain walk-throughs, and do not require deep expertise and installations. Here we describe some of the most recent outstanding web-tools for enzyme engineering and formulate future perspectives in this field.


CONCEPTS AND METHODS

Fpocket

fpocket relies on the concept of α-spheres, a concept initiated by Liang and Edelsbrunner ( 3) and is also used by Chemical Computing Group in the SiteFinder software (http://www.chemcomp.com/). An α-sphere is a sphere in contact with four atoms on its boundary, not containing any internal atom inside. For a protein, very small spheres are located within the protein, whereas large spheres are located at the exterior. Clefts and cavities correspond to spheres of intermediate radii. Thus, it is possible to filter the ensemble of α-spheres defined from the atoms of a protein according to some minimal and maximal radii values in order to address pocket detection. Based on this, we have recently introduced the fpocket package for pocket detection. For more information refer to ( 10).

Pocket tracking over collection of structural frames

Given a collection of comparable protein structures, such as provided by molecular dynamics or by homology search, one challenge is to track the persistence of pockets within this set of conformations or frames. The approach used can be summarized as an iterative run of fpocket on each frame, followed by a post-analysis using a grid-based approach, as illustrated Figure 1.

Workflow of the pocket tracking methodology. α-spheres from different snapshots are represented by different colors (dark and light).

Workflow of the pocket tracking methodology. α-spheres from different snapshots are represented by different colors (dark and light).

In more detail, a 1 � spaced grid is generated to encompass previously aligned conformers. The grid allows tracking of pockets (α-spheres) in very precise zones over time. On each grid point the α-sphere density of 8� 3 volume around it is calculated, corresponding to a small box of a 2 � sized edge. Furthermore, the associated pocket score for each α-sphere near a grid point is tracked following formula ( 3).