Транскриптомы единичных клеток помогут выявить связи между генами

Биоинформатики создали нейросеть, которая, используя данные секвенирования РНК единичных клеток (то есть уровни экспрессии), предсказывает характер взаимодействия двух генов.

Credit:
CI Photos | Shutterstock.com

Связь между экспрессиями разных генов очень важна. Если несколько генов одновременно активны, то, скорее всего, они взаимодействуют. Таким образом, например, можно реконструировать метаболический путь в клетке. За последние два десятилетия было разработано несколько алгоритмов для определения такой взаимозависимости генов. Однако у существующих моделей есть значительные недостатки. С одной стороны, это, как правило, машинное обучение «без учителя», то есть заведомо правильных ответов, на которых можно тренироваться, нет, и это приводит к ложноположительным результатам. С другой — некоторые методы принимают допущения, которые часто ведут к ложноотрицательным результатам. Новая модель — сверточная нейросеть для коэкспрессии (CNNC, Convolutional Neural Network for Coexpression) — показала лучший результат, чем существующие до нее методы.

Сверточные нейросети изначально были созданы для работы с изображениями, например, для распознавания лиц на фотографиях. Однако Е Юань и Зив Бар-Йозеф из университета Карнеги — Меллона (Питтсбург, США) нашли способ, как применить их для анализа транскриптома.

В качестве входных данных CNNC принимает результаты секвенирования РНК единичных клеток (single-cell RNA-sequencing, scRNAseq). Далее для каждой пары генов А и В строится своя гистограмма, где показаны уровни их коэкспрессии, которые рассчитываются и нормализуются для каждой клетки. Такой формат данных лучше всего подходит для глубокого обучения.

Каждой такой диаграмме в тренировочном датасете, на котором нейросеть учится, соответствует метка. Метки — то, что «учитель» уже знает (например, взаимодействие какого-то транскрипционного фактора с ДНК уже было показано с помощью иммунопреципитации). Размерность меток зависит от задачи. Если мы хотим определить, взаимодействуют гены или нет, то размерность 2: метка принимает значения 0 — не взаимодействуют, 1 — взаимодействуют. Если хотим вывести причинно-следственные связи, то размерность 3: 0 — не взаимодействуют, 1 — А зависит от В, 2 — В зависит от А.

Программа также отдельно может учитывать другие имеющиеся данные, такие как результаты секвенирования ДНК или позиционную весовую матрицу (используется для поиска мотивов в последовательности).

Чем больше входных данных получает CNNC, тем качественнее она работает. Авторам статьи удалось показать, что данный метод точнее существующих моделей. «Так как CNNC основана на обучении с учителем, ее нельзя использовать в случаях, когда нет уже известных меток. С другой стороны, в большинстве случаев с геномными данными, где такие метки доступны, CNNC — гораздо лучший выбор, нежели модели без учителя», — говорится в статье.

Источник

Ye Yuan и Ziv Bar-Joseph. // Deep learning for inferring gene relationships from single-cell expression data. // PNAS USA, 2019 Dec 10; DOI:   10.1073/pnas.1911536116

Добавить в избранное

Мы используем файлы cookie для улучшения работы сайта. Узнать больше.

Настройки файлов cookie

Мы используем файлы cookie для улучшения работы сайта, анализа трафика и показа персонализированной рекламы. Вы можете изменить настройки в любой момент.

Категории файлов cookie:

Необходимые

Эти cookie обеспечивают базовую функциональность сайта — вход в аккаунт, безопасность, оформление заказов. Отключение невозможно.

Функциональные

Функциональные cookie используются для обеспечения работы отдельных функций сайта, а также для запоминания ряда пользовательских предпочтений (например, выбранный язык, товары в корзине), с целью улучшения качества предоставляемого сервиса.

Отключение этого типа файлов cookie может привести к тому, что некоторые сервисы или функции сайта станут недоступны или будут работать некорректно. В результате, вам может потребоваться повторно вводить определённую информацию или настраивать предпочтения при каждом посещении сайта вручную.

Аналитические

Аналитические файлы cookie, включая сторонние аналитические cookie, помогают нам понять, как вы взаимодействуете с нашим сайтом. Эти файлы не собирают информацию, позволяющую установить вашу личность. Все данные обрабатываются в агрегированной и анонимной форме.

Рекламные

Рекламные cookie, включая сторонние, используются для создания пользовательских профилей и показа рекламы, соответствующей вашим интересам и предпочтениям при просмотре сайтов.

Эти cookie позволяют персонализировать рекламные сообщения, которые вы видите, делая их более релевантными. Они также могут использоваться для ограничения количества показов одной и той же рекламы и для оценки эффективности рекламных кампаний.