Фото - Луганский центр стоматологической имплантации

Моделювання білків за допомогою Blue Gene / L

  1. Мал. 1. Частина десяти мікросекунд життя білка усередині живої клітини; см. відео
  2. Мал. 2. шаростержневих модель ДНК
  3. Мал. 3. Триптофан - одна з 20 стандартних амінокислот
  4. Мал. 4. Білок гемоглобіну
  5. Комерційні і академічні передумови
  6. Що ми моделюємо?
  7. оснащення лабораторії
  8. запуск моделі
  9. Що все це нам дає?
  10. Прогнози на майбутнє
  11. Ресурси для скачування

Практичні наукові досягнення, отримані при моделюванні і візуалізації даних на суперкомп'ютері

У 2001 р дослідники з IBM почали розробку нового сімейства серверів, в даний час поставляються як IBM System Blue Gene®. Ці сервери були доступні для використання, починаючи з 2004 р - спочатку Blue Gene / L (про який йде мова в цій статті), а потім Blue Gene® / P.

Суперкомп'ютери сімейства Blue Gene надають дуже високу продуктивність в поєднанні зі стандартною середовищем програмування і володіють дуже високими показниками ефективності з точки зору споживаної потужності, охолодження і займаної площі. Багато університетів, урядові та комерційні дослідницькі лабораторії використовують Blue Gene для обчислювальних досліджень в радіоастрономії, аналізі конформаций білків, кліматології, космології і розробці ліків. Ця система значно, на порядки, змінює організацію наукових досліджень, надаючи економічно ефективні засоби для розробки та прорахунку альтернативних версій складних моделей.

У цій статті ми опишемо деякі досягнення одного з проектів по моделюванню просторових конфігурацій білків. На рис.1 показаний масштаб роботи, яку ми тепер можемо виробляти завдяки мощі Blue Gene / L. Відправною точкою для розрахунку конфігурацій служить кристалічна структура лізоциму (див. Джерело в розділі ресурси ).

Мал. 1. Частина десяти мікросекунд життя білка усередині живої клітини; см. відео
Практичні наукові досягнення, отримані при моделюванні і візуалізації даних на суперкомп'ютері   У 2001 р дослідники з IBM почали розробку нового сімейства серверів, в даний час поставляються як IBM System Blue Gene®

Протеоміка: різноманіття білків

Білки - це біологічні макромолекули, які є невід'ємною частиною живих організмів і беруть участь у всіх внутрішньоклітинних процесах. Багато білки є ферментами, що каталізує біохімічні реакції; деякі беруть участь в сигнальних і імунних відповідях; інші виконують структурні і механічні функції в м'язах і цитоскелету. Наступні два приклади ілюструють важливість і поширеність білків:

  • Один з білків відповідає за червоний колір крові; він переносить кисень з легень по всьому тілу.
  • Інший білок відповідає за реакцію людського тіла на контакт з отруйною рослиною - сумахом, який викликає сильне роздратування, але, як правило, не приносить шкоди.

В процес життя на Землі залучені сотні і тисячі білків. Протеоміка - це наука про те, як працюють білки, як вони взаємодіють і як еволюціонує їх різноманіття і спеціалізація серед живих організмів навколо нас. Ця стаття являє короткий огляд того, що являють собою білки, як вони виробляються і як вони зачіпають ті системи, в яких існують.

У кожній клітині кожної рослини і тварини є ДНК - структура, що зберігає генетичну інформацію. Інформація зберігається у вигляді послідовності хімічних будівельних блоків (нуклеотидів), що позначаються A, C, T і G (аденін, цитозин, тимін, гуанін в ДНК, в РНК тимін замінюється урацілом). В цілому ці будівельні блоки дуже схожі, тому будь-яка ділянка ДНК, на який би ви не подивилися, має однакову загальну структуру - знамениту подвійну спіраль Уотсона-Кріка.

При зчитуванні інформації з ДНК вона розкручується, і потім на основі її внутрішньої структури формується інша молекула, звана РНК. Замість того, щоб робити "зліпок ключа", ми отримуємо «образ ключа». Ця молекула РНК далі доставляється в якості складального креслення в рибосому - білкову структуру, яка діє як універсальна фабрика. Рибосома прочитує код з букв ACTG групами по три нуклеотиду, що дає 64-буквений "алфавіт".

Двадцять з цих "букв" відповідають амінокислотам - будівельним блокам для білків. Ці амінокислоти в основному надходять з уживаної нами їжею (людина не може синтезувати всі необхідні амінокислоти і тому змушений отримувати відсутні амінокислоти ззовні). Кожна амінокислота має "голову" і "хвіст". Рибосома знаходить відповідну амінокислоту для кожної "букви" і складає їх в послідовність голова до хвоста; інші "букви" вказують, де почати і де закінчити. Отримана лінійна послідовність амінокислот є новоствореного білкову молекулу, побудовану в точності по коду, записаного в використаному ділянці ДНК.

Взаємодії між атомами всередині білкової молекули, взаємодія з трохи підсоленій рідиною в клітці, а також випадкові коливання, які ми б назвали тепловим рухом, потім викликають "згортання" білкової молекули в характерну форму.

Молекули білків досить стабільні, деякі з них можуть існувати без змін протягом сотень років і витримувати температури в сотні градусів, які вбили б організм, який їх зробив. Вони зберігаються в практично незмінному вигляді до тих пір, поки не будуть зруйновані сильнодіючими реагентами, високим тиском, спекою або холодом або ставши їжею для іншої живої істоти.

Форма молекули і її зміни в часі, температура, а також навколишні молекули, визначають, що буде робити білкова молекула - чи буде вона переносити кисень, викликати у вас алергію на сумах або проводити будь-які інші дії, що відбуваються в мікромасштабі.

На рис. 2 показана знайома шаростержневих модель ДНК (це стереопара; джерело см. В розділі ресурси ):

Мал. 2. шаростержневих модель ДНК

На рис. 3 показаний триптофан - одна з 20 стандартних амінокислот (це стереопара; джерело см. В розділі ресурси ).

Мал. 3. Триптофан - одна з 20 стандартних амінокислот

Амінокислоти складаються в білки при відсіканні групи OH (права частина рис. 3) однієї молекули, відсікання H від іншої молекули (верхня частина рис. 3) і з'єднанні отриманих залишків молекул. Атоми, що залишилися HOH утворюють молекулу води. Всі амінокислоти мають цю характерну групу атомів (права верхня частина рис. 3).

На рис. 4 представлена ​​візуалізація білка гемоглобіну (це стереопара; джерело см. В розділі ресурси ).

Мал. 4. Білок гемоглобіну

Гемоглобін складається з 574 молекул амінокислот в чотирьох субодиниць. Гемоглобін разом з супутніми атомами заліза (опис того, як вони вбудовуються в білок, знаходиться за рамками нашої статті) переносить кисень по току крові. Атоми заліза здатні переносити кисень і самі по собі, але з білковим "каркасом", який надає структура гемоглобіну, це відбувається набагато ефективніше. Якщо ви помістіть це зображення в стереоскоп, то зможете розібратися в тривимірній атомну структуру; візуалізація більш складних структур вимагає іншого підходу.

Комерційні і академічні передумови

Що таке дикий тип?

Дикий тип - це типова форма, яку організм, ген, лінія або деяка характеристика приймає в природі. Стосовно до фенотипу (спостережуваним характеристикам організму, зазвичай відображенню генів і факторів навколишнього середовища) характеристики дикого типу є найбільш поширеними в природної популяції. Стосовно до генотипу (неспостережуваних генетичним сполученням) вони визначають алелі в кожному локусі, необхідні для відтворення фенотипу дикого типу. Дикі типи не є ні домінантними, ні рецесивними. Хорошим антонімом до терміну «дикий тип» є термін мутація.

Останнім часом досягнення в розробці лікарських препаратів і охороні здоров'я все більше забезпечуються найкращим розумінням базових будівельних блоків життя, таких як білки. Один з поточних питань - неправильне згортання і агрегація білка: якщо білок згортається в іншій формі, крім очікуваної, то результат часто дає пасивні білки з іншими властивостями, які можуть привести до нейродегенеративних захворювань, таким як хвороба Альцгеймера, хвороба Крейтцфельдта-Якоба, губчаста енцефалопатія великої рогатої худоби (коров'ячий сказ), хвороба Хантінгтона, хвороба Паркінсона, кістозний фіброз і амілоїдози.

Розуміння того, що може змушувати білкові молекули змінювати свою корисну згорнуту форму на іншу згорнуту форму - предмет активних досліджень способів лікування цих серйозних захворювань. Останні експерименти, розпочаті Крісом Добсоном і його співробітниками в Кембриджському університеті (див. Посилання в розділі ресурси ) Показали, що амілоїд і фібрили можуть формуватися не тільки зі звичайних бета-амілоїдних пептидів, але також практично з будь-яких білків (таких як лізоцим), якщо є відповідні умови. Дійсно, одна мутація (W62A) білка лізоциму може змусити білок мати менш стабільний стан в порівнянні з диким типом (див. Виноску збоку); вона також може змусити його неправильно згорнутися і утворити в розчині сечовини амілоїд завдяки втрати ключових "далеких гідрофобних взаємодій".

Вчені до цих пір не знають, яким чином все один залишок W62 може грати ключову роль в далеких гідрофобних взаємодіях в процесі згортання, а далі по функціональним причин зрушуватися до поверхні з передбачуваного місця нуклеации. Це надає унікальну можливість краще зрозуміти як конкретні ефекти мутації, так і механізм, що стоїть за перерахованими захворюваннями, пов'язаними з неправильним згортанням і агрегацією білка.

Технологія Blue Gene / L надає широкі можливості для вивчення таких захворювань, так як забезпечує більш економічно ефективне (і швидке) моделювання ефектів згортання і неправильного згортання білка.

Що ми моделюємо?

Відео , З якого був узятий фрагмент, представлений на рис.1 , Є візуалізацією частини процесу неправильного згортання білка лізоциму внаслідок однієї мутації. Лізоцим - це білок, що входить в імунну систему людини; при правильному функціонуванні він пробиває клітинну стінку упровадився бактерії і знищує її.

Одиночна мутація, що порушує послідовність нуклеотидів в ДНК, змушує рибосому використовувати іншу амінокислоту при побудові молекули лізоциму. Відповідно до теорії, ця інша амінокислота впливає на форму, в яку згортається лізоцим, і згорнута іншим чином молекула лізоциму має іншу ефективність при пробої бактеріальних клітинних стінок. Зрозумівши механізм цієї зміни, ми могли б розробити лікарські препарати або інші види лікування, які допоможуть людям з даної конкретної мутацією виліковуватися від бактеріальних захворювань.

У процесі розрахунку в пам'яті комп'ютера зберігаються координати і швидкості кожного атома в молекулі лізоциму, а також дані приблизно про 10 000 молекулах води і сечовини (для імітації експериментів моделювання проводиться для 8-молярного розчину сечовини). Існує багато способів моделювання міжатомних сил; ми використовуємо варіант моделі куль та пружин для міжатомних зв'язків, а також модель зворотних квадратів для електростатичних сил між зарядженими атомами і модель тяжіння-відштовхування для атомів, які знаходяться поблизу один одного, але не є ковалентно зв'язаними. Розрахунок моделі виконується кроками по часу. На кожному часовому кроці ми розраховуємо сили, що діють на кожен атом, а потім оновлюємо швидкості і координати відповідно до другого закону Ньютона.

На кожному часовому кроці (дуже малому, близько однієї фемтосекунди) теоретично необхідно розраховувати сотні мільйонів впливають сил. В силу такого великого обсягу обчислень, а також того, що для моделювання цікавлять нас змін необхідно виконувати досить тривалі імітаційні розрахунки (близько мікросекунд), подібний підхід став практично реалізованим лише останнім часом, навіть і з найпотужнішими комп'ютерами, які тільки можна побудувати. Докладні відомості про альтернативні підходи наведені в статті "Destruction of long-range interactions by a single mutation in lysozyme", посилання на яку є в розділі ресурси .

оснащення лабораторії

У дослідницькій лабораторії IBM ім. Т.Дж. Уотсона в Йорктауне, штат Нью Йорк, ми маємо в своєму розпорядженні двадцятьма серверними стійками з BlueGene / L. Кожна стійка містить 1024 двоядерних мікропроцесора PowerPC®, і кожен мікропроцесор забезпечений 512 МБ оперативної пам'яті. Для кожних 64 мікропроцесорів в цій обчислювальної мережі є додатковий мікропроцесор, приєднаний до Ethernet-каналу 1 Гбіт / с. Ці 320 Ethernet-з'єднань пов'язані звичайними Ethernet-комутатори зі стандартними машинами IBM Power з дисками, стрічками, компиляторами мов і програмним забезпеченням по управлінню завданнями.

У цій роботі з моделювання лізоциму для генерування набору даних молекулярної динаміки об'ємом більше 10 мікросекунд протягом декількох місяців були задіяні в середньому чотири стійки процесорів BlueGene / L. Періодичного виконує контрольне зчитування координат і швидкостей всіх атомів моделі (частина цього інформаційного потоку була використана для створення наведеного вище синтезованого відео ). При необхідності перезапуску моделювання відповідні координати і швидкості можна завантажити повторно. Перезапуск може знадобитися після запланованого відключення, випадкового збою машини або для прорахунку цікавить дослідників моменту моделі з іншою величиною кроку.

запуск моделі

Додаток завантажується на вузли Blue Gene / L за допомогою механізму, аналогічного відправці завдань MPICH (MPICH - це безкоштовна і переноситься реалізація інтерфейсу передачі повідомлень MPI; див. Посилання в розділі ресурси ). Кожен процесор в кластері надає додатком середу файлової системи POSIX. Прочитувані додатком дані можуть бути записані в загальну паралельну файлову систему IBM (IBM General Parallel File System, GPFS); коли додаток записує результати, вони також поміщаються туди для подальшого використання в зовнішніх системах.

Для покрокового моделювання, подібного до нашого, звичайною практикою є зчитування початкових умов з файлової системи і подальший запис періодичних "знімків" стану моделі в файлову систему.

Що все це нам дає?

Наведене відео є невеликим віконцем в незвіданий світ. Звичайно, ми не знаємо, чи представляє воно справжній стан справ, так як вченим завжди необхідно порівнювати те, що показує модель, з тим, що спостерігається в реальності. Перегляд неправильного згортання лізоциму в реальних умовах до цих пір є тільки мрією; щоб подивитися навіть частина "фіксованих" конфігурацій, необхідно підготувати зразки і помістити їх під електронний мікроскоп або навіть кристалізувати велику кількість молекул лізоциму і потім досліджувати кристали методом рентгенодифракційну спектроскопії. Однак ці експериментальні підходи зазвичай не дають уявлення про те, як може рухатися білок.

Таким чином, сучасні великомасштабні імітаційні моделі надають унікальне "вікно" для вивчення подробиць молекулярних рухів і критичних змін, що відбуваються при неправильному згортання, пов'язаному із захворюваннями. Хочеться сподіватися, що доступність забезпечує все це технології розширить межі і просуне далі передові досягнення в дослідженнях амілоїдозу. Ця технологія також може використовуватися для підготовки наступного покоління вчених до застосування описаного методу як основного інструменту вирішення подібних завдань.

Прогнози на майбутнє

Звичайно, ми не беремо на себе сміливість прогнозувати, що буде завтра, але можна припустити, що серія обчислювальних машин Blue Gene буде продовжувати розвиватися за планом (ми використовували версію L; доступна версія Blue Gene / P має 4 процесора на чіп, Ethernet-з'єднання 10 Гбіт / с, а також несе безліч інших поліпшень). Вартість більш інтенсивних розрахунків, а також вартість більш об'ємних і швидких накопичувачів (те й інше в значній мірі необхідно для задач візуалізації даних на зразок тієї, що ми описали в статті) найближчим часом швидше за все будуть знижуватися - як це і необхідно, оскільки існує безліч областей, дослідження яких вимагає потужних засобів моделювання: і в науці, і для розробки комерційних продуктів.

Описана нами модель лізоциму - це лише незначна частина нової області обчислювальної біології. Існує більше 50 000 білків, структури яких описані в загальнодоступній базі даних білкових структур (див. Посилання в розділі ресурси ); потрібно детально дослідити мільйони потенційно корисних лікарських компонентів; існує велика кількість людських захворювань, пов'язаних з білками і змінами в них. І це не враховуючи безліч інших областей досліджень, де могло б бути корисно моделювання в таких масштабах. Робота Blue Gene тільки починається.

Ресурси для скачування

Схожі тими

  • оригінал статті Protein modeling with Blue Gene / L (EN).
  • Огляд ДОСЛІДЖЕНЬ, пов'язаних з Blue Gene / L, можна найти на странице проекту IBM Blue Gene . Серед других компонентів РІШЕНЬ и ресурсов Blue Gene: (EN)
  • База Даних білковіх структур в RCSB (PDB RCSB) - це архів для вивчення біологічних макромолекул з інформацією про експериментально визначених структурах білків, нуклеїнових кислот і складних збірок. (EN) У числі навчальних ресурсів - такі цікаві речі, як рубрика молекула місяці .
  • Вихідні дані для Мал. 1 взяті з PDB, 1.33: структура тетрагонального лізоциму білка курячого яйця .
  • Вихідні дані для Мал. 2 взяті з PDB: структура додекамера B-форми ДНК, форма і динаміка .
  • Мал. 3 надано бібліотекою MathMol , Підтримуваної в Нью-Йоркському університеті.
  • Вихідні дані для Мал. 4 взяті з PDB: дезоксигемоглобін (A-GLY-C: V1M, L29F, H58Q; B, D: V1M, L106W). .
  • Група Кріса Добсона публікує додаткові посилання на дослідження в молекулярній біології . (EN)
  • Стаття " Destruction of long-range interactions by a single mutation in lysozyme "(R. Zhou, M. Eleftheriou, A. Royyuru, BJ Berne; Proc. Natl. Acad. Sci., 2007) містить додаткову інформацію про підхід до моделювання, який я використав в даному дослідженні. (EN)
  • Стаття " Parallel implementation of the replica exchange molecular dynamics algorithm on Blue Gene / L "(M. Eleftheriou, A. Rayshubski, JW Pitera, BG Fitch, R. Zhou, RS Germain; IEEE, 2006) пояснює деякі математичні прийоми, використані для моделювання. (EN)
  • MPICH2 - наступний рівень розвитку MPICH, високопродуктивної, широко яку переносять (і безкоштовної) реалізації стандарту інтерфейсу передачі повідомлень (Message Passing Interface, MPI). (EN)
  • У центру Argonne Leadership Computing Facility є програма зі співробітництва , В рамках якої час Blue Gene / P надається для обчислень науковому співтовариству. (EN)
  • Доступ до демонстрації моделює додатки на IBM Innovation Centers можливий з будь-якої точки планети. (EN)
  • Серія з двох статей "High-performance Linux clustering": довідкова інформація про високопродуктивні обчислення в Linux. Перша частина (DeveloperWorks, вересень 2005 року) описує основи HPC, доступні типи кластерів, аргументи при виборі конфігурації кластера, а також роль Linux в HPC. У второй части (DeveloperWorks, жовтень 2005 року) обговорюється паралельне програмування з використанням MPI, описано управління кластерами і їх випробування, а також показано, як налаштувати Linux-кластер з використанням відкритого програмного забезпечення. (EN)
  • Стаття " Port Fortran applications "(DeveloperWorks, квітень 2009 року) допоможе вам подолати основні труднощі при перенесенні додатків на Fortran на різні високопродуктивні комп'ютерні системи. (EN)
  • Open Discovery - це live-дистрибутив Linux, заснований на Fedora Core і містить програмні засоби з біоінформатики, ліцензовані за вільної академічної ліцензії (Academic Free License, AFL), які можуть працювати з усіма завданнями, починаючи з аналізу послідовностей і до завдань молекулярної динаміки. Може бути завантаженим з DVD або USB і забезпечує збереження даних. Велике спасибі Відділенню біоінформатики Університету SRM, кампус Рамапурама, Ченнаї, Індія. (EN)
  • Деякі з інструментів, вбудованих в додатки, описані в цій статті, включають бібліотеку тривимірного швидкого перетворення Фур'є для Blue Gene / L і написані Крісом Уордом спеціальні математичні функції для високопродуктивних обчислень . (EN)
  • В розділі Linux на developerWorks ви можете знайти додаткові ресурси для розробників Linux, а також переглянути наші найбільш популярні статті та керівництва . (EN)
  • Ознайомчі версії ПЗ IBM : Використовуйте у вашому наступному проекті програмне забезпечення, яке можна завантажити безпосередньо з сайту developerWorks. (EN)

Підпішіть мене на ПОВІДОМЛЕННЯ до коментарів

Що ми моделюємо?
Що все це нам дає?

  • Зуботехническая лаборатория

    Детали
  • Лечение, отбеливание и удаление зубов

    Детали
  • Исправление прикуса. Детская стоматология

    Детали