Деятельность наших организмов определяют десятки тысяч генов: крошечных спиралей ДНК и РНК, содержащих в себе информацию о всех характеристиках, которые делают нас уникальными. Каждый ген имеет официальное название, однако для удобства их систематизации учёные используют специальные алфавитно-цифровые коды. На протяжении нескольких лет исследователям пришлось не раз столкнуться с довольно абсурдной проблемой: Microsoft Excel стабильно воспринимал коды за даты и искажал записи.
За прошедший год HUGO Gene Nomenclature Committee – комитет международной организации по изучению генома – изменил названия 27 генов из-за того, что Microsoft Excel каждый раз исправлял их на даты. Оказывается, такая проблема – вовсе не редкость. Excel на протяжении многих лет остаётся одним из самых популярных инструментов в процессе систематизирования научных данных. Увы, стандартные параметры программы рассчитаны на более примитивные задачи, вследствие чего случаются неприятные ошибки. К примеру, при введении в таблицу алфавитно-цифрового названия гена MARCH1 (кода для Membrane Associated Ring-CH-Type Finger 1) Microsoft Excel безоговорочно исправляет его на дату 1-Mar – 1 марта.
Такие ошибки не просто раздражают: они опасны, поскольку, оставаясь незамеченными, они могут значительно исказить результаты какого-либо исследования, например, клинического испытания нового лекарственного средства. Как следствие, учёным приходится вновь и вновь вручную проверять тонны информации, чтобы не упустить неуместное исправление. Проблемы с Microsoft Excel неожиданно распространены даже в научном сообществе, где пересмотр готовых документов нередко продолжается гораздо дольше написания самой исследовательской работы. Более того, в 2016 году в научном журнале BMC появилось исследование, в рамках которого учёные проанализировали 3597 работ своих коллег и обнаружили, что примерно 20% из них «пострадали» от ошибок читаемости Microsoft Excel.
Работа Дежо Модоса – системного биолога из Института Quadram в Великобритании – заключается в анализе результатов секвенирования геномов. Систематизация новых генов при помощи разного рода таблиц – один из важнейших этапов в его деятельности. Основываясь на собственном опыте, Модос утверждает, что ошибки при использовании Microsoft Excel случаются постоянно, поскольку это наиболее распространённое программное обеспечение для работы с таблицами. К сожалению, у учёных нет лёгкого пути устранения этой проблемы. Excel не позволяет отключить автоматическую замену. Специалист может вручную изменить тип вводимых данных в настройках программы, однако при открытии того же документа на другом устройстве нередко происходит сброс настроек, и протеин SEPT1 упрямо превращается в 1-Sep.
Помощь учёным пришла со стороны комитета HUGO Gene Nomenclature Committee, который опубликовал новое руководство по генерированию и систематизации названий генов. Среди прочего новые инструкции изменили существующие коды, и MARCH1 стал MARCHF1, SEPT1 превратился в SEPTIN1 и т. д. Кроме того, руководство содержит подсказки касательно того, от каких символов и кодов следует отказаться во избежание путаницы.
К счастью, учёные мира всё больше стараются работать сообща, что также влияет на практику называния новых генов. На ранних этапах развития генетики процесс придумывания кодов не был унифицирован. Как следствие, особо креативные и гордые исследователи не упускали возможности побаловаться или продемонстрировать своё остроумие и эго. Таким образом появлялись самые странные и порой абсолютно нелогичные названия: например, «sonic hedgehog» (да-да, тот самый sonic: эта группа генов управляет эмбриональным развитием организма) и «Indy» (сокращённо от «I’m not dead yet»: при мутации этого гена продолжительность жизни фруктовых мух увеличивается практически вдвое). Теперь HGNC пытается сделать данный процесс более практичным, чтобы никакие излишне оригинальные названия не становились причиной недопонимания и конфликтов. Согласно новому руководству, новые коды могут содержать латинские буквы и арабские цифры, но ни в коем случае не могут читаться, как уже существующие слова, особенно нецензурные.
Координатор комитета HGNC Элспет Бруфорд признался, что ему и его коллегам впервые пришлось вносить изменения в практическое руководство из-за проблем с программным обеспечением. Учёные встретили поправки с одобрением и оптимизмом, однако многие из них всё ещё надеются, что разработчики Microsoft Excel примут ко вниманию существование подобных затруднений в работе с их продуктом. Представители Microsoft пока никак не отреагировали на посыпавшиеся на них вопросы о том, почему переписать генетику оказалось проще, чем обновить Microsoft Excel.