сховати меню
Розділи: Лекція

Доказательные исследования в психиатрии: анализ практической значимости

А.Б. Шмуклер, Московский научно-исследовательский институт психиатрии МЗ РФ
В настоящее время в психиатрии особое внимание уделяется доказательности проводимых исследований. Считается, что результаты только тех из них, которые в полной мере соответствуют принципам доказательной медицины, могут рассматриваться как достоверные и, соответственно, претендовать на внедрение в клиническую практику, а также учитываться в дальнейших научных изысканиях.
Считается, что термин «медицина, основанная на доказательствах» (evidence-based medicine) был предложен в 1990 г. группой ученых из Университета Макмастера (Торонто, Канада), хотя стремление к разработке рекомендаций по диагностике и лечению больных на основе научно обоснованных исследований, безусловно, осуществлялось значительно раньше, по крайней мере. последние 150 лет [10]. Однако именно с 90-х годов XX в. данный подход стал доминирующим.
Развитие концепции доказательной медицины связано с рядом имен [10]. Во-первых, следует упомянуть A. Cochrane. Занимаясь проблемой медицинских ошибок и в конечном итоге став эпидемиологом, он был сторонником экспериментального подхода в клинической медицине, направленного на получение достоверных данных в отношении диагностики и лечения: в основе такой научной достоверности, по его мнению, должны лежать рандомизированные контролируемые исследования (РКИ). Данная точка зрения сразу же привлекла внимание медицинских чиновников во многом благодаря чрезвычайно чувствительному для них посылу: стоимость медицинской помощи весьма велика, и любые процедуры, эффективность которых не доказана, не могут рекомендоваться для применения и, более того, должны быть «искоренены».
Еще одной ключевой фигурой для развития концепции доказательной медицины является A. Feinstein [10]. Будучи по первому образованию математиком и лишь в дальнейшем занявшись медициной, он очень хорошо понимал возможности и ограничения предлагаемых методик, а его способность давать меткие характеристики была весьма чувствительной для оппонентов.
В частности, чрезмерную увлеченность РКИ он называл «рандофилией», метаанализы – «статистической алхимией XXI столетия», а ряд методов клинической биостатистики сравнивал с туманом и воздушными замками [10]. Как клиницист, A. Feinstein обращал внимание на гетерогенность проявлений заболевания, наблюдаемых в клинической практике: у одних больных может наблюдаться одна группа симптомов, у других – другая, а у части пациентов отмечается их полный спектр. По его мнению, эти данные должны быть тщательно собраны, систематизированы и использованы для определения лечения и прогноза, что и составляет основу клинического суждения – ключевого понятия в его системе (книга с аналогичным названием вышла в 1967 г.). Преимущества РКИ он видел в их способности отвечать на административные вопросы, однако без прояснения клинических. При этом он с сожалением отмечал, что подход, основанный на клиническом суждении, умирает: выросло поколение, которое «никогда не слышало о нем», и в большинстве случаев клиническая эпидемиология игнорирует его, увлекшись математической моделью [10]. Подчеркивая, что он не нападает на РКИ, которые, по его мнению, внесли блестящий вклад в науку, A. Feinstein указывал, что совершенно неверно думать, что они могут ответить на вопросы клинической практики, отмечая, что «если вы не хотите думать, рандомизированные исследования – прекрасный путь избежать этого» [10]. Однако, несмотря на это, он довольно тесно сотрудничал с отделом клинической эпидемиологии и биостатистики университета Макмастера.
Появление данного подразделения в конце 60-х годов XX в. в значительной степени было связано с ростом стоимости медицинской помощи, который достиг кризисного уровня в последующие десятилетия. В основе разработок данной группы лежало положение A. Feinstein о возможности оценить эффективность клинической помощи, объединенное с подходом A. Cochrane, предлагавшего с помощью РКИ решать задачи администрирования, что оказалось весьма cвоевременным в условиях нарастающего напряжения между клинической практикой и системой организации здравоохранения. Ключевым положением этих разработок являлось утверждение о возможности использования только тех профилактических, диагностических и лечебных методов, эффективность которых была достоверно доказана и польза от применения которых превышает потенциальные нежелательные явления [13]. Указывалось, что РКИ могут дать ответ на вопрос «что работает?», а концепция A. Feinstein адресуется процессу принятия решения клиницистом в определенной клинической ситуации.
Все это позволило авторам говорить о возникновении новой научной дисциплины – медицины, основанной на доказательствах. Ее методической основой является клиническая эпидемиология, разрабатывающая методы клинических исследований, которые дают возможность делать научно обоснованные заключения, сводя к минимуму влияние систематических и случайных ошибок на результаты. Основным инструментом клинической эпидемиологии является статистика – дисциплина, занимающаяся изучением приемов систематического наблюдения над массовыми явлениями, составлением их описаний и научной обработкой последних. С помощью биомедицинской статистики описываются результаты любых биологических и медицинских испытаний, представленных в виде цифр, таблиц, графиков, гистограмм.
Однако исследовательская группа из университета Макмастера не ограничилась только статистическими описаниями. Как подчеркивал ее основатель и первый руководитель D. Sackett, доказательная медицина не исчерпывается исключительно рандомизированными исследованиями и метаанализами: «Без клинической квалификации практика рискует подавиться доказательствами, поскольку даже превосходно внешне обоснованное доказательство может быть неприменимым или несоответствующим отдельному пациенту». Так, необходимо объединение индивидуального профессионализма (квалификация и клиническое мышление, приобретаемые в процессе накопления клинического опыта) с доказательствами, полученными из систематического исследования [53].
С этой точки зрения огромной заслугой специально созданной рабочей группы по доказательной медицине являлась публикация большой серии статей, дающих рекомендации специалистам-медикам о том, каким образом оценивать результаты и выводы тех или иных публикаций, клинических исследований, обзоров, руководств по клинической практике, клинических анализов: насколько надежны приводимые данные, какова их суть, как оценивать безопасность анализируемых методов и их влияние на качество жизни больных [11, 12, 17-21, 25, 26, 39, 42, 44, 45, 47, 48, 50, 51, 60, 61]. Чрезвычайно важным является тот факт, что авторы наряду с рассмотрением значения представленных данных для медицинской службы (в том числе с точки зрения экономики здравоохранения) большое внимание уделили вопросу, каким образом они могут быть полезны для выбора тактики в отношении конкретного пациента.
В настоящее время значение этих работ, учитывая растущее число публикаций, еще больше повышается. Вместе с тем для широкого круга специалистов предлагается использовать довольно простую схему, отражающую иерархию достоверности полученных результатов (по возрастающей): описание отдельных случаев, описание серии случаев, ретроспективное исследование «случай – контроль», аналитическое одномоментное, проспективное когортное (популяционное) исследования, РКИ медицинских вмешательств (методов лечения, профилактики), метаанализ. Из этой схемы вытекают общепринятые уровни доказательности испытаний (по убывающей):
• уровень I (А) – большие двойные слепые контролируемые плацебо исследования, а также данные, полученные при метаанализе нескольких РКИ;
• уровень II (В) – небольшие РКИ, при которых статистические данные построены на небольшом числе больных;
• уровень III (С) – нерандомизированные клинические исследования на ограниченном количестве пациентов;
• уровень IV (D) – выработка группой экспертов консенсуса по определенной проблеме.
На сегодняшний день представленный подход стал общепринятым и практически канонизировался, нередко с игнорированием всех других подходов и систем доказательств (например, качественного анализа) или с низведением их значимости (отдельные «классические» случаи). В значительной степени это обусловлено тем, что он дает простые и строго регламентированные критерии для организаторов здравоохранения, менеджеров фирм-разработчиков, представителей страховых компаний и грантодателей, пациентов, их родственников и адвокатов, то есть лиц, как правило, не являющихся специалистами по собственно оказанию медицинской помощи, но которые могут быть вовлечены в ее оценку и принятие организационных и юридических решений. В этих случаях строго регламентированный подход оказывается, безусловно, выигрышным. Однако в том виде, в котором он существует в настоящее время, позволяет ли получать данные для выработки тактики ведения конкретного пациента? Сомнения в этом, в частности в отношении психиатрической помощи, налицо. Так, указывается, что существует разрыв между клиническими исследованиями и обстоятельствами конкретных больных, обусловленный преимущественно бизнес-направленностью клинических испытаний: их целью главным образом является одобрение со стороны административных структур и продвижение на рынок [22]. В некоторых работах отмечается, что стандарты доказательной медицины не вполне применимы в психиатрии, по крайней мере, на данном этапе ее развития, из чего обосновывается вывод о необходимости разработки для психиатрии специальных стандартов доказательности [16].
Но не является ли данная точка зрения артефактом клинического впечатления, столь низко оцениваемого доказательной медициной? Этот вопрос требует прояснения, на что в значительной степени и направлена данная статья.

Общие положения
При проведении корректных клинических исследований, отвечающих принципам доказательной медицины, необходимо соблюдать ряд этапов, планирование и осуществление которых должно соответствовать определенным требованиям. В основу проведенного в данной работе анализа была заложена оценка как собственно содержания этих требований, так и особенностей их выполнения при подготовке и осуществлении исследований. Конкретным содержанием анализа являлись цели и задачи, которые ставились при их планировании, подходы к формированию выборки пациентов, оцениваемые показатели, полученные результаты и их обработка, а также выводы (полнота, обоснованность и практическая значимость). Цель большинства клинических исследований, направленных на изучение новых методов терапии психических расстройств, – определение эффективности изучаемых препаратов по сравнению с плацебо, активным контролем, а также безопасность и переносимость данного лечения.
В этой связи следует упомянуть активно обсуждаемую в последнее время проблему проведения контролируемых плацебо исследований. Помимо рассмотрения этичности данного подхода (этот аспект выходит за рамки задач проводимого анализа), важным является определение возможности терапевтического действия плацебо: значительное число специалистов сознательно используют его в своей повседневной практике для терапевтических целей. Так, в США 56% семейных врачей прибегают к плацебо (правда, в этих случаях, как правило, применяется не нейтральное вещество, а лекарственное средство, не обладающее соответствующими фармакологическими свойствами), причем 97% указывают на его терапевтический эффект, 85% считают, что оно оказывает как психологическое, так и соматическое лечебное действие [27]. Только 8% специалистов высказались за то, чтобы применение плацебо в клинической практике было категорически запрещено.
Следует отметить, что подобная точка зрения была выявлена не только у врачей первичной помощи, но и у специалистов, работающих в университетских клиниках (в частности, данный опрос проводился в Чикаго), то есть потенциально более осведомленных в отношении новейших достижений медицины: 45% из них используют плацебо в своей клинической практике, 97% указывают на его терапевтический эффект, 40% предполагают также физиологическое действие в отношении курируемого заболевания и только 12% предлагают категорически запретить применение плацебо для лечения больных [55].
В упомянутых работах обращает на себя внимание то, что даже в США (при высоком уровне стандартизации помощи и контроле со стороны страховых компаний) существует практически полная (97%) убежденность специалистов в реальном терапевтическом действии плацебо. Данный факт, по-видимому, требует постановки ряда вопросов. При каких болезнях, какой их тяжести и других особенностях эффект плацебо более выражен и почему? Существует ли эффект плацебо при применении препаратов с доказанной эффективностью, и если да, то суммируется ли он с их собственно терапевтическим действием, формируя результирующий эффект в ви- де простой суммы отдельных составляющих (резуль-тирующий эффект = эффект препарата + эффект пла-цебо), частично поглощаясь (результирующий эффект = эффект препарата + k ∞ эффект плацебо, где k < 1) или усиливая «клинически обоснованное» действие препарата (результирующий эффект = эффект препарата + k ∞ эффект плацебо, где k > 1)? Какие факторы могут повлиять на этот процесс: в частности, собственно эффективность препарата (можно ли утверждать, что более эффективные лекарства обладают и более выраженным эффектом плацебо, и какие отдельные составляющие терапевтического действия являются наиболее значимыми); индивидуальные (личностные и соматические) характеристики пациентов, а также обстоятельства осуществления терапии?
Последнее является особенно важным в случаях использования плацебо в клинических исследованиях. При их проведении курация больных существенно отличается от рутинной практики. Пациенты часто (во многих случаях еженедельно) наблюдаются персоналом, им уделяют большое внимание, интересуясь обстоятельс-твами жизни, обследуют, проводят значительное число диагностических процедур, нередко малодоступных в обычных условиях.
Участие в исследовании дает шанс получать самые современные препараты (рандомизация в группы с активным лекарственным средством составляет в зависимости от дизайна исследования от 50 до 80%). В этих условиях возможность развития эффекта терапии, не связанного с фармакологическим действием изучаемого препарата, значительно возрастает. Фактически, помимо назначения медикаментозного лечения, осуществляется своего рода психотерапия.
Следует отметить, что ответы на часть из поставленных выше вопросов известны. Так, указывается, что эффект плацебо труднее «отделить» от терапевтического действия активного препарата при наличии депрессивной симптоматики по сравнению с галлюцинаторно-бредовой, а также при меньшей тяжести расстройств [14, 28, 29]. Однако большинство аспектов развития эффекта плацебо, в частности при проведении клинических испытаний, остаются без рассмотрения. Так, дизайн анализируемых в данной работе исследований (см. ниже) ни в одном случае не был направлен на минимизацию дополнительных возможностей влияния нелекарственных воздействий на результат лечения (за исключением введения периода «отмывки»), а последующий анализ полученных результатов не вводил поправки на их наличие 1.
Складывается впечатление, что на практике при проведении клинических исследований эффективность в группе плацебо рассматривается как артефакт, некое случайное стечение обстоятельств, по существу приравниваемое к спонтанному улучшению без проведения терапии. Соответственно, проблемы «отделения» изучаемого препарата от плацебо 2 решаются не путем учета факторов, которые могут сказаться на выраженности эффекта плацебо, а большей стандартизацией и «объективизацией» оценок (например, проведение диагностических тестов «третьей стороной», специально обученными высококвалифицированными независимыми экспертами): предполагается, что чрезмерно высокая эффективность терапии в группе плацебо преимущественно связана с недостаточным качеством работы исследователей [30]. В ряде публикаций демонстрируются положительные результаты такого подхода, однако это не исключает необходимости учета других факторов, сказывающихся на эффекте плацебо: в клинических исследованиях его влияние должно быть минимизировано (в отличие от повседневной клинической практики, когда его можно использовать в терапевтических целях), поскольку является «шумом» при оценке эффективности изучаемого лекарственного средства [31, 54].
Возвращаясь к анализу целей проведения клинических исследований, следует отметить, что сопоставление нового препарата с плацебо является лишь первым этапом доказательства его клинической эффективности.
На следующей стадии необходимо продемонстрировать преимущества исследуемого вещества по сравнению с другим препаратом с доказанной эффективностью. Однако проблема состоит в том, что в разных испытаниях нередко получают прямо противоположные результаты [9, 58]. Анализ этих работ выявил существенное в этом отношении значение факта, кем было организовано и финансировано то или иное исследование [5, 23]. При формальном соблюдении основных принципов доказательной медицины (рандомизированные двойные слепые контролируемые плацебо испытания), публикации в журналах с высоким рейтингом и требованиями к предоставляемым статьям (например, в упомянутых выше случаях это «Американский журнал психиатрии» и «Журнал клинической психофармакологии») выявляются факторы, в конечном итоге оказывающие решающее значение на основные результаты.
Согласно специально осуществленному анализу, в 90% абстрактов статей, поддерживаемых фирмами-производителями, их препарат имеет преимущество перед препаратом сравнения [23]. Хотя авторы данной работы признают высокое качество испытаний, спонсируемых фармацевтическими компаниями, в методологическом отношении нередко превышающее качество «независимых» исследований (среди таких методологических преимуществ – достаточный размер выборки, ее валидная центральная рандомизация, высокие требования к сбору материала, его мониторированию и аудиту), ряд особенностей разработанного спонсором протокола позволяет представлять «свой» препарат в более выгодном свете. К таким существенным характеристикам относятся критерии включения и исследуемая выборка, используемые дозы и их титрация, а также методика обработки полученных данных. Указывается, что рецензенты должны учитывать эти особенности в своих отзывах, а читатели в обязательном порядке обращать на них внимание при чтении научных статей, хотя формат публикаций зачастую не позволяет полностью изложить все существенные аспекты проведенного исследования. Кроме того, публиковаться должны все полученные результаты, как демонстрирующие преимущества изучаемого метода лечения, так и потерпевшие неудачу (в последнее время подобное требование становится обязательным).
Таким образом, чрезвычайно важным является как соблюдение требований проведения и изложения результатов клинических испытаний, так и умение читателя не просто формально усвоить представленные авторами основные выводы, но и самостоятельно проанализировать все особенности проведения исследовательской работы, ее сильные стороны и ограничения, понять клинический смысл полученных данных и на этой основе определить возможности их применения в своей повседневной практике. В этой связи большое значение имеет определение, в какой степени публикуемые статьи позволяют приблизиться к данной цели.

Анализ публикаций
Учитывая огромное количество работ, ежегодно публикуемых в психиатрической периодической печати, тщательное рассмотрение и отбор которых могли бы блокировать собственно рассмотрение изучаемой проблемы, было решено использовать представленную в литературе, уже осуществленную другими авторами селекцию статей. При этом представлялось целесообразным ограничиться исследованиями, касающимися фармакотерапии шизофрении современными антипсихотиками: подобные испытания достаточно многочисленны, как правило, тщательно мониторируются регуляторными органами, что положительно сказывается на их соответствии требованиям доказательной медицины.
Таким образом, выбор остановился на метаанализе международной группы авторов, посвященном прямому сравнению эффективности антипсихотиков второго поколения, зарегистрированных на момент проведения данной работы (амисульприд, арипипразол, зипразидон, зотепин, кветиапин, клозапин, оланзапин, рисперидон, сертиндол) [41]. Авторы провели поиск публикаций (по состоянию на май 2007 г.) в регистре Кокрановской группы по шизофрении, который формируется с использованием значительного числа международных баз данных (BIOSIS, CINAHL, Dissertation Abstracts, EMBASE, LILACS, MEDLINE, PSYNDEX, PsycINFO, RUSSMED, Sociofile).
Всего в результате поиска было выявлено 3620 ссылок. Из них выбрано 612 работ, в которых изучалась анализируемая проблема, однако 319 публикаций были исключены вследствие несоответствия критериям отбора (оценивались только рандомизированные слепые исследования, уровень доказательности A или В). Таким образом, в анализ было включено 293 публикации, отражавшие 78 исследований, при общем числе участников 13 558. Полный список публикаций приводится в метаанализах авторов, посвященных прямому парному сравнению указанных атипичных антипсихотиков [1, 32-38, 56]. Кроме того, в случаях, когда при проведении анализа были необходимы данные, отсутствовавшие в отобранных публикациях, по соответствующим ключевым словам осуществлялся поиск необходимых работ в базе PubMed.
Как уже указывалось, согласно критериям отбора все исследования, вошедшие в анализ, были рандомизированными и включали большое число пациентов из значительного числа исследовательских центров. Таким образом, согласно принятой классификации, данные работы имеют наивысший уровень доказательности. Однако если позволить себе усомниться в абсолютной ценности подобного канонизированного подхода (A. Cochrane некоторые авторы сравнивают с иконой [10]), необходимо обратить внимание на ряд существенных моментов.
Корректно проведенная рандомизация позволяет распределить исследуемую случайную выборку на сопоставимые группы. Однако данная методика никак не влияет на репрезентативность выборки. В целом, очевидно, что контингент пациентов, принимавших участие в клинических исследованиях, отличается от всей популяции лиц с данной патологией, но вопрос, в какой степени, остается без ответа: ни в одной из изученных публикаций он даже не ставился.
Дополнительный поиск в базе данных PubMed позволил выявить лишь единичные работы, касающиеся данного вопроса, которые при этом только отчасти проливали свет на интересующую проблему. Так, в одной из публикаций указывалось, что 70-77% пациентов, поступивших в психиатрическую больницу, готовы участвовать в клинических испытаниях препаратов (в том числе двойных слепых) [63]. В то же время только 13% больных из 279 обследованных с деменцией альц-геймеровского типа могли быть отобраны в соответствующее исследование как отвечавшие критериям включения/исключения [59]. Сходные результаты сообщаются и для других диагностических групп (шизофрении, биполярного расстройства, депрессии, панического расстройства): число отобранных для скрининга больных составляло 10-25% от общего количества обследованных, лишь в одном случае достигая 34% [6, 7, 15, 24, 43, 49]. Кроме того, ряд авторов отмечают, что ввиду трудностей набора участников клинических исследований нередко в них включаются одни и те же пациенты, которые «кочуют» из одних испытаний в другие. Так, по данным S. Woods et al., из 137 пациентов, участвовавших на протяжении ряда лет в проводимых авторами клинических исследованиях эффективности терапии шизофрении и шизоаффективного расстройства, 27 (19,7%) человек включались последовательно в несколько из них [62].
Значительный интерес представляют прямые сопоставления контингента больных, принимавших/не принимавших участие в испытаниях. Так, в работе S. Woods et al. пациенты – участники клинических исследований (119 человек) в Центре психического здоровья New Haven (Коннектикут, США) – сравнивались с остальной выборкой больных шизофренией и шизоаффективным расстройством, наблюдавшейся в этом же центре и не принимавшей участия в испытаниях (1536 человек) [62]. Авторы выявили значимые различия между группами по демографическим и некоторым социальным показателям (образование, работа, семейное положение, принадлежность к национальным меньшинствам). Кроме того, участники исследований были зарегистрированы в психиатрической службе более длительный период времени и имели большее количество (но не суммарную длительность) госпитализаций. Диагноз параноидной шизофрении чаще отмечался у пациентов, принимавших участие в испытаниях, но различия не достигали статистически значимого уровня.
В другой подобной работе на основе анализа большого материала (10 тыс. пациентов медицинской службы Управления по делам ветеранов, США) показано, что среди больных шизофренией, не входивших в проводимое исследование, лишь 23,3% соответствовали основному критерию включения [4]. При этом даже они (не говоря уже о тех пациентах, кто не соответствовал критериям включения) статистически значимо отличались от участников исследований по ряду социально-демографических (раса, возраст, семейное положение) и, что более существенно, клинико-организационных показателей (в частности, касающихся психиатрических госпитализаций, наличия стационирований в связи с соматическими причинами, характера и интенсивности амбулаторной психиатрической помощи, особенностей психофармакотерапии).
Обращает на себя внимание, что в упомянутых работах, осуществленных в США, практически не оцениваются клинические характеристики сравниваемых групп больных, что, однако, представляется наиболее значимым при решении вопроса о репрезентативности выборок пациентов, участвующих в клинических исследованиях. В этом отношении значительный интерес вызывает работа, выполненная на кафедре психиатрии и психотерапии Университета Людвига – Максимилиана (Мюнхен, Германия) [52].
Авторы сопоставили выборку из 100 стационарных больных, принимавших участие в клинических исспытаниях, начиная с 1 января 1995 г. (последний пациент, включенный в данную группу, был отобран в 1999 г.), с таким же количеством больных (100 человек), получавших лечение в университетском госпитале на об-щих основаниях, без осуществления исследовательских процедур. Последние (контрольная группа) поступали в госпиталь примерно в те же сроки, что и исследовательская группа, и отбирались таким образом, чтобы соответствовать ей по диагнозу (основной критерий отбора), полу и возрасту. В результате у пациентов двух групп не обнаруживали статистически значимых отличий по большинству социальных показателей (образование, семейное положение, условия жизни) и уровню социального функционирования (по шкале оценки общего функционирования), однако по ряду клинических различия были.
Так, хотя возраст начала болезни, возраст первой госпитализации и семейная отягощенность психозами не имели существенных различий в сравниваемых группах, длительность заболевания и число предшес-твующих госпитализаций были больше у больных, не принимавших участие в исследованиях, так же как и худшее состояние соматического здоровья и связанная с ним более интенсивная сопутствующая соматическая терапия. Кроме того, несмотря на отсутствие различий в исходном уровне тяжести симптоматики, оцененной по шкале общего клинического впечатления, для ее контроля у пациентов, не включенных в клинические испытания, судя по хлорпромазиновому эквиваленту, требовались более высокие дозы антипсихотиков. Также у больных сравниваемых групп несколько отличалась структура выявленных расстройств. В частности, у пациентов исследовательской группы отмечалась более высокая выраженность галлюцинаторно-бредовой симптоматики (p < 0,05) и апатии (значимость на уровне тенденции). Наоборот, маниа-кальный аффект (p < 0,005) и враждебность, включая собственно агрессивность (значимость на уровне тенденции), в большей степени выявлялись у больных контрольной группы. Число больных, имевших суицидальные тенденции и нарушения формального мышления, также было выше в контрольной группе (p < 0,05), а негативная симптоматика чаще выявлялась в исследовательской (p < 0,05).
Полученные результаты не кажутся неожиданными и вполне объяснимы: определенная интенсивность галлюцинаторно-бредовых расстройств, как правило, является одним из критериев включения в исследование (с менее выраженной симптоматикой пациенты не могут быть скринированы), однако при наборе больных врачи по вполне понятным причинам стараются отбирать таковых без нарушений поведения (включая агрессивные и аутоагрессивные тенденции), признаков остроты состояния, предпочитая им более аутизированных и погруженных в мир собственных переживаний пациентов с удовлетворительным соматическим статусом, уменьшающим вероятность развития нежелательных явлений терапии.
Таким образом, исходя из имеющихся немногочисленных работ, можно сделать вывод, что больные, принимающие участие в клинических исследованиях, далеко не в полной мере соответствуют «усредненному типичному пациенту» [52]. При этом вопрос, в какой степени результаты, полученные в клинических испытаниях, могут быть применимы ко всей генеральной совокупности больных, остается открытым и требует дальнейшего изучения.
В частности, далеко не очевидно, что выборки пациентов в разных исследованиях являются сопоставимыми, – этот вопрос особенно актуален при проведении метаанализов, когда обработке подвергаются результаты наблюдений, осуществленных в разное время, по различному дизайну и с разными группами исследователей, не участвовавших в совместных тренингах, которые могли бы позволить получать более согласованные данные.
Сопоставление описания испытаний, включенных в метаанализ прямого сравнения антипсихотиков второго поколения, позволило получить следующие результаты 3 [1, 32-38, 56]. Возраст участников в разных исследованиях (в данном случае не учитывались наблюдения, касающиеся исключительно лечения больных старших возрастных групп и молодых пациентов с впервые возникшими психотическими состояниями) находился в интервале 32,4 ± 11,0 / 46,4 ± 9,1 года; соотношение по полу (мужчины/женщины) – 31,8/68,2% / 88,9/11,1%.
Во всех случаях изучались лица с шизофренией, а в ряде работ дополнительно с шизоаффективным расстройством или в целом с расстройствами шизофренического спектра. Диагностика в подавляющем большинстве наблюдений (вне зависимости от региона проведения исследования – Северная Америка, Европа, Австралия и Новая Зеландия) осуществлялась по DSM-IV (в более ранних публикациях по DSM-III-R) и лишь в единичных работах – по Международной классификации болезней Всемирной организации здравоохранения, в определенной степени отличающейся от Американской национальной классификации. В исследования включались все формы шизофрении с наибольшей частотой встречаемости параноидной формы, распространенность которой в разных работах варьировала от 50,0 до 90,0% (данные представлены преимущественно в публикациях европейских авторов). Диапазон диагностики дезорганизованной формы составлял от 0 до 32,6%, недифференцированной – от 0 до 40,0%, кататонической – от 0 до 3,4%, резидуальной шизофрении – от 0 до 7,3%. Количество предшествующих госпитализаций варьировало от 5,9 ± 4,8 до 14,0 ± 10,8 (то есть согласно правилу трех сигм в последнем случае у 99,7% больных число госпитализаций находилось в интервале от 0 до 46). Длительность текущего обострения симптоматики составляла от 7 дней до 2 и более лет (разница медиан достигала 10 месяцев). Тяжесть расстройств (суммарная оценка по шкале позитивных и негативных симптомов [PANSS]) при включении больных в исследования находилась в интервале 69,3 ± 18,5 / 112,4 ± 17,6 балла, по субшкале позитивной симптоматики – 15,9 ± 5,8 / 27,2 ± 6,2 балла, негативной симптоматики – 19,6 ± 7,2 / 29,4 ± 6,9 балла. Таким образом, не только по демографическим показателям, но и по представленным в публикациях (к сожалению, далеко не в полном объеме) клиническим характеристикам, группы пациентов обнаруживали определенный спектр, по крайней мере, в своих крайних точках существенно различающихся между собой значений.
В целом можно сделать вывод, что выборки пациентов, включаемых в клинические испытания, по ряду клинико-социальных показателей не только отличаются от всей когорты больных шизофренией в этих же исследовательских центрах, но и обнаруживают существенные расхождения при сопоставлении контингента больных, принимавших участие в разных наблюдениях. Исходя из этого, полученные в анализируемых клинических исследованиях результаты не могут быть распространены на всю генеральную совокупность лиц с шизофренией и касаются лишь ограниченной группы, которая соответствует только изученной (причем учитывая заметную скудость имеющихся во многих публикациях клинических описаний, идентифицировать эту группу бывает достаточно сложно).
Следующий аспект проведенного анализа касался изучаемых в клинических исследованиях показателей. Как отмечалось выше, основными задачами изучения в этих случаях является определение эффективности и безопасности/переносимости исследуемого препарата. С этой целью используются психометрические шкалы и стандартизированные опросники, позволяющие унифицировать оценку и минимизировать влияние на нее субъективного фактора 4 . В то же время негативной стороной подобного подхода является ограниченность сведений, получаемых с помощью любой, пусть даже самой совершенной шкалы, которая, безусловно, не способна охватить весь масштаб психопатологической структуры расстройств, в значительной степени редуцируя их, а некоторые не учитывая. Все большую популярность приобретают краткие шкалы или версии шкал и опросников, экономящие время исследователей, но еще более сокращающие спектр изучаемых показателей. Так, краткая психиатрическая рейтинговая шкала (BPRS), разработанная в 1962 г. и до сих пор пользующаяся большой популярностью, содержит всего 18 пунктов (первоначальная версия имела 16 пунктов), и ее заполнение занимает только 20-30 минут [46].
В части случаев для характеристики клинического статуса больных используются лишь отдельные пункты шкал. Например, в ряде анализируемых работ тяжесть состояния больных определялась лишь по четырем пунктам шкалы PANSS («необычное содержание мыслей», «галлюцинаторное поведение», «концептуальная дезорганизация», «подозрительность»), причем для установления требуемой по протоколу глубины расстройств достаточно было иметь определенный минимальный балл лишь по двум из них 5 . При этом динамика указанных пунктов при окончательном анализе не учитывалась.
Подобный подход характерен для всех проанализированных работ: при оценке терапевтической динамики психопатологических расстройств основной акцент делался на изучении суммарных показателей («общая эффективность»), а также в значительном числе случаев показателей позитивных и негативных расстройств 6 . Ни в одной из изученных публикаций не осуществлялся детальный анализ отдельных пунктов используемых шкал (то есть отдельных проявлений заболевания), и лишь в некоторых из них проводилось изучение групп факторов (таких, например, как «нарушение мышления», «анергия», «тревога/депрессия», «враждебность/подозрительность» и др. при использовании BPRS). Однако и в этих случаях основное внимание уделялось глобальной оценке их динамики (более детальные данные, при их наличии, приводились преимущественно в виде табличного материала и практически не обсуждались в тексте).
Определенным исключением из этого являлись работы, специально посвященные изучению отдельных, наиболее привлекающих внимание авторов аспектов заболевания, в частности постпсихотической депрессии, суицидальной активности, агрессивного поведения и некоторых других. Однако полученные для оценки этих характеристик данные психометрических шкал также анализировались по суммарному показателю, без попыток определить динамику отдельных пунктов шкалы. При этом анализ ограничивался поведенческим уровнем, без определения стоящих за ним психопатологических феноменов (например, регистрировалось наличие суицидальных мыслей или тенденций, но не рассматривались психопатологические причины их возникновения).
В анализируемых публикациях ни в одном случае не определялось соотношение полученных результатов с социально-демографическими и клинико-организационными характеристиками, представленными при описании контингента больных; в этих условиях их наличие в тексте статей фактически было лишено смысловой нагрузки, превращаясь в пустую формальность 7 , усугубляющуюся еще и тем, что в части публикаций различия между сравниваемыми группами по этим показателям достигали статистически значимого уровня.
Более детально в тексте изученных статей были представлены характер и частота встречаемости побочных эффектов и нежелательных явлений терапии. Однако, как и в отношении клинических проявлений заболевания, анализ во всех случаях основывался на усредненных показателях. Ни в одной работе не обсуждалось, у каких больных развились те или иные побочные эффекты и что предрасполагало к их развитию или способствовало ему.
Отсутствие в статьях полной информации о полученных в исследованиях результатах, по-видимому, является одним из наиболее типичных их недостатков 8 . В частности, как следует из обсуждаемых метаанализов, только в 15,3% публикаций результаты были предоставлены в полном объеме, а в 83,5% случаев отмечалось выборочное изложение материала (в части случаев определить это, по мнению авторов, было затруднительно), причем данный недостаток касался в том числе и ряда аспектов, которые декларировались как дополнительные или даже основные задачи работы [1, 32-38, 56].
Переходя к анализу статистической обработки представленных в изученных публикациях данных, следует обратить внимание на один существенный аспект 9 : считается, что для повышения непредвзятости доказательных исследований необходимо заранее четко определить, какие показатели и какими статистическими методами будут обрабатываться. Однако при таком подходе при обнаружении некоторых данных для их осмысления может потребоваться дополнительная, в том числе статистическая обработка материала (например, выделение субгрупп, различающихся по вновь исследуемым признакам, специальные методы статистического анализа и пр.). Соответственно, при отсутствии такого подхода в тексте публикаций (как это и оказалось в целом ряде анализируемых статей) появляются статистические данные, которые трудно понять и объяснить, то есть представляющие исключительно статистический феномен, не обнаруживающий какой-либо смысловой нагрузки и, естественно, только регистрирующийся, но не обсуждающийся.
В целом, статистический анализ в изученных публикациях, несмотря на определенное разнообразие применяемых методик, касался довольно узкого аспекта: при обработке материала основное внимание исследователей уделялось выявлению статистически значимых различий между сравниваемыми показателями (причем, как уже отмечалось выше, в основном это касалось суммарных оценок, без сопоставления отдельных характеристик). Между тем доказательство статистических различий в обследованных выборках указывает лишь на то, что они сохранятся в том же объеме и в генеральной совокупности. Однако этот статистический показатель никоим образом не указывает на величину различий. Для оценки последнего обычно используются другие подходы. К ним, например, относится вычисление «величины эффекта», которая определяет силу изучаемого воздействия 10 . Еще одним используемым с этой целью показателем является относительный риск (или соотношение рисков), рассчитываемый как частное вероятности наступления изучаемого исхода в основной группе к аналогичному показателю в контрольной. И наконец, среднее количество больных, которых необходимо пролечить исследуемым методом (NNT), чтобы получить положительный результат (предотвратить неблагоприятный исход болезни) дополнительно у 1 пациента по сравнению с терапией сравнения 11.
Обращает на себя внимание тот факт, что, несмотря на очевидное практическое значение оценки величины (а не только статистической значимости) различий сравниваемых показателей, эти данные приводятся только в отдельных работах, причем, как правило, не являясь центральной частью изложения (о чем, например, свидетельствует отсутствие этих данных в резюме статей и представление их в тексте преимущественно лишь в таблицах с короткими ссылками на них). Тем не менее, используя имеющиеся в статьях сведения, расчет указанных величин произвести можно: в частности, эти расчетные данные приводятся в анализируемых метаанализах, где выявлены определенные количественные различия в эффективности антипсихотиков второго поколения. Вместе с тем авторы признают полученные результаты лишь в небольшой степени полезными в повседневной клинической практике [41]. Дело в том, что в баллах PANSS различия составляли от 1,9 (для пары оланзапин/рисперидон) до 8,3 (при сопоставлении оланзапина и зипразидона). Колебания величины эффекта были, соответственно, от 0,11 до 0,29, что указывает на ее слабую/умеренную выраженность. Более того, средние различия в эффективности между атипичными антипсихотиками и плацебо составили только 10 баллов по PANSS (величина эффекта – 0,51) [40]. В результате одним из наиболее значимых факторов для выбора препарата в каждом конкретном случае авторы признают спектр его побочных эффектов, подчеркивая, что это может оказаться более важным, чем небольшие отличия в эффективности. Однако, хотя выводы об ограничении использования того или иного медикамента с определенным спектром побочных явлений в случае наличия у пациента соответствующей им патологии логически оправданны, они, как правило, не подкреплены клиническими данными 12. В результате постулируется, что назначение терапии в каждом конкретном случае происходит путем проб и ошибок, то есть фактически отрицается возможность целенаправленного подбора лечения [57].

Обсуждение и выводы
Описанные выше особенности получения и анализа клинического материала, безусловно, сказываются на возможности использования результатов исследований в повседневной клинической практике в отношении отдельных пациентов. Первое, что необходимо отметить, что, как известно из биомедицинской статистики, данные, полученные на репрезентативных выборках, применимы исключительно в отношении соответствующих групп больных, но их использование у отдельных пациентов не является корректным. То есть полученное в клинических исследованиях доказательство эффективности того или иного метода лечения является основанием говорить об его эффективности при применении, например, у больных шизофренией в целом, но не указывает на обоснованность его выбора при терапии конкретного пациента.
Во-вторых, как следует из анализа данных литературы, выборки пациентов, включаемых в клинические испытания, в значительной степени отличаются от контингента больных, наблюдаемых в тех же клинических центрах, и, кроме того, по ряду социально-демографических и клинико-организационных показателей обнаруживают существенные различия между отдельными исследованиями. Это обусловливает серьезные ограничения генерализации полученных в них результатов.
В-третьих, опубликованные данные, полученные в ходе клинических испытаний, касаются преимущественно суммарных оценок изучаемых характеристик и, как правило, не рассматривают детали влияния на отдельные психопатологические феномены и их совокупности (синдромы/дименсии). В тех же случаях, когда такая оценка осуществлялась, она также носила обобщенный характер, концентрируясь на суммарной тяжести расстройств (например, таких факторов, как «депрессия», «враждебность» и пр.) или степени уменьшения выраженности «нежелательного» поведения (агрессивного или аутоагрессивного) без анализа динамики стоящей за этим клинической симптоматики, что затрудняет возможность дифференцированного назначения терапии. Кроме того, негативную роль играет заметная выборочность представления полученных в исследованиях данных, часть из которых остается недоступной и, таким образом, не может использоваться в клинической практике.
Статистический анализ ограничивается преимущественно выявлением достоверности различий между сравниваемыми группами больных без определения выраженности этих различий. При этом изначальная предопределенность форм и методов обработки результатов значительно сужает возможности клинико-статистического анализа.
В результате полученные в клинических исследованиях данные и выводы лишь в небольшой степени оказываются полезными в повседневной клинической практике, поскольку касаются только ограниченного круга интересующих клиницистов вопросов, не содержат важных практических деталей, а порой являются не в полной мере достоверными; например, широко публикуются данные о влиянии ряда психотропных средств на негативную симптоматику, хотя большинство исследователей признают, что в подобных наблюдениях речь идет главным образом о вторичной негативной симптоматике, а терапевтическое влияние антипсихотиков на собственно негативную симптоматику ограниченно и противоречит концепции развития дефицитарных расстройств при шизофрении [8, 57].
В целом можно констатировать, что на сегодняшний день так называемые доказательные исследования в психиатрии являются таковыми лишь в ограниченной степени. В их основу положен достаточно узкий круг подходов (к ним в первую очередь относятся рандомизация и двойная слепая контролируемая методика), которые были объявлены «золотым стандартом» и, по существу, канонизировались с игнорированием или низведением на менее значимый уровень всех других возможностей сбора и анализа материала, некоторые из которых в конкретных, соответствующих определенным целям и задачам ситуациях могут являться, безусловно, более адекватными (анализ особенностей, сильных и слабых сторон этих методических подходов, вне всякого сомнения, чрезвычайно важен, однако его проведение выходит за рамки данной работы и требует специального рассмотрения).
Предположительно, причины сложившегося положения дел скорее всего лежат, как уже отмечалось в начале данной статьи, в значительной востребованности доказательных исследований со стороны разных регуляторных органов, для которых, однако, наиболее значимыми являются присутствующие в них формальные аспекты (с использованием дихотомии: метод эффективен или неэффективен, полученная польза перевешивает недостатки или нет и пр.), причем преимущественно на уровне групп больных (необходимо для принятия административных решений, в том числе на региональном и государственном уровне), а не отдельных пациентов (что оказывается более важным для практикующих врачей).
Значительная часть доказательных исследований в психиатрии проводится фирмами-производителями препаратов для получения разрешения на их использование и регистрации клинических показаний. Подобная работа подразумевает привлечение больших сил и средств: в них принимают участие значительное число клиницистов, нередко из многих стран мира, а количество изученных больных исчисляется сотнями, а иногда и тысячами, что, безусловно, требует тщательной координации деятельности всех участников и крупных финансовых вложений. Естественно, компании-производители стараются минимизировать объем работы и затраты, в том числе исключив из задач исследования «лишние», не требуемые регуляторными органами в обязательном порядке. Кроме того, здесь могут присутствовать и маркетинговые соображения, в частности касающиеся того, какие показания данного препарата регистрировать в первую очередь, а какие отложить 13, что, конечно же, сказывается на содержании клинических испытаний лекарственных средств.
Следует отметить, что в последние годы все больше стало появляться независимых от фармацевтических компаний исследований, что могло бы изменить ситуацию. Однако, к сожалению, этого не происходит, что объясняется рядом причин. Так, часть подобных испытаний спонсируется другими «заинтересованными» учреждениями (например, страховыми компаниями), для которых также важен формализованный, исключительно статистический подход.
Другой возможной причиной может быть сложность проведения крупных многоцентровых исследований, требующих огромной организационной работы, специального административного и координирующего аппарата (количество клинических центров, принимающих участие в таких наблюдениях, может достигать нескольких десятков в разных регионах мира) и чрезвычайно крупных финансовых вложений, значительно превышающих средства стандартных исследовательских грантов. Соответственно, в реальной практике такие независимые испытания оказываются весьма небольшими по объему изученного материала, что не всегда позволяет получить адекватную доказательную базу.
И наконец, за прошедшие десятилетия сложился определенный стереотип «правильного» («качественного») проведения клинических исследований, изменение которого потребует, по-видимому, значительных объективных и субъективных усилий. Так, необходимо будет признать, что привычный и одобряемый профессиональным сообществом подход является не всегда достаточно приемлемым. Однако, для того чтобы проводить в психиатрии действительно доказательные исследования, следует разработать обновленные требования к их осуществлению, которые заменят старые, не отвечающие современным реалиям. Разработка научных основ и организационной структуры проведения испытаний, основанных на доказательствах, является амбициозной, но чрезвычайно насущной задачей профессионального сообщества психиатров.

Литература
1. Asenjo Lobos C., Komossa K., Rummel-Kluge C. et al. Clozapine vs other atypical antipsychotics for schizophrenia // Cochrane Database Syst Rev. – 2010. – 11. – CD 006633.
2. Azorin J.-M., Spiegel R., Remington G. et al. A double-blind comparative study of clozapine and risperidone in the management of severe chronic schizophrenia // Am J Psychiat. – 2001. – 158. – Р. 1305-1313.
3. Azorin J.-M., Strub N., Loft H. A double-blind, controlled study sertindole versus risperidone in the treatment of moderate to severe schizophrenia // Int J Psychopharmacol. – 2006. – 21. – Р. 49-56.
4. Barnett P.G., Scott J.Y., Rosenheck R.A. How do clinical trial compare to other patients with schizophrenia? // Schizophr Res. – 2011. – 130. – Р. 34-39.

Полный список литературы, включающий 63 пункта, находится в редакции.

Психиатрия и психофармакотерапия имени П.Б. Ганнушкина. – Т. 14, № 5. – С. 4-13.

1 По­видимому, этот аспект исследований клинических средств практически не разработан. При этом понятны клинические, организационные и этические сложности, возникающие при осуществлении подобных исследований, хотя в части случаев здесь возможны и простые решения: например, раздельный анализ пациентов из базы данных исследовательских центров, то есть «своих», с которыми уже сложился терапевтический альянс, и направленных «со стороны».
2 Значимость указанной проблемы наглядно иллюстрируется, например, данными, согласно которым в 36% исследований не удается «отделить» от плацебо «старые» антидепрессанты с давно и успешно доказанной эффективностью; для таковых нового поколения эта цифра еще выше и достигает 52% [28].
3 Следует отметить, что не все изученные публикации содержат полный перечень анализируемых показателей.
4 При обучении работе с психометрическими шкалами обычно подчеркивается необходимость скрупулезного следования представленных в них описаний, не прибегая к суждениям на основе собственного клинического опыта.
5 Недостаточность такой оценки подтверждается тем, что в конечном итоге тяжесть расстройств по PANSS в одном из подобных исследований варьировала в разных группах в пределах 108,9 ± 16,8 / 112,4 ± 17,6 балла, а в другом (с близкими критериями тяжести) – 69,3 ± 14,9 / 69,7 ± 18,5 балла, причем первый автор в обеих публикациях был один и тот же [2, 3].
6 При этом другие разделы шкалы зачастую не обсуждались: например, оценка по субшкале общепсихопатологической симптоматики PANSS приводилась и, самое главное, анализировалась далеко не во всех использующих данную шкалу публикациях, хотя в этом разделе имеются пункты, также относящиеся к продуктивной и негативной симптоматике.
7 Это становится особенно очевидным в условиях все более отчетливой тенденции рассматривать шизофрению an mass, без выделения различных форм и вариантов течения (www.dsm5.org).
8 В данном случае речь идет не об умышленном сокрытии «неудобной» информации. Включение в текст полного перечня полученных сведений может, например, ограничиваться лимитированным объемом журнальных статей. В этих условиях авторы вынуждены исключать «менее важные» данные. Однако проблема состоит в том, чтобы правильно оценить, что является наиболее существенным, а что можно исключить без большой потери для содержания. В анализируемых статьях предпочтение отдавалось более формальным аспектам (например, декларации приверженности принципам качественной клинической практики, иногда с перечислением всех определяющих ее документов), а не детальному клиническому анализу.
9 В данном случае не рассматривались очевидные погрешности в методике статистической обработки результатов (например, как это было выявлено в ряде статей, использование t­статистики без доказательств корректности ее применения на этом материале и пр.).
10 В количественном отношении величина эффекта определяется значением показателя d’Cohen, который при оценке групповых различий рассчитывается как частное разницы между двумя средними сравниваемых групп и общего стандартного (среднего квадратичного) отклонения (принята следующая приблизительная градация: менее 0,2 – слабая величина эффекта, около 0,5 – средняя, более 0,8 – сильная).
11 Например, если при лечении новым методом А эффект обнаружился у 60% больных, а методом сравнения В – только у 40%, то NNT составляет 100/(60 – 40) = 5 (чем ниже NNT, тем новый метод эффективнее; в случае максимальной эффективности он равен 1, то есть все больные при лечении исследуемым методом выздоровели, а при методе сравнения не выздоровел никто).
12 Например, специальных исследований требует клиническое наблюдение о максимальной подверженности фармакогенному увеличению массы тела девочек­подростков с изначально низкой массой тела (в то же время известны случаи, когда у больных с избыточным весом при назначении атипичных антипсихотиков, в структуре нежелательных эффектов терапии которых существенное место занимает увеличение массы тела, отмечалось ее уменьшение).
13 Известны случаи, когда новая форма уже ранее применявшегося препарата регистрировалась не для всех показаний, по которым использовался последний;
другим примером могут служить показания для применения селективных ингибиторов обратного захвата серотонина у больных расстройствами тревожного спектра: для различных заболеваний нередко зарегистрированы разные препараты, хотя в клинической практике в этих случаях может назначаться любой из них.

Наш журнал
у соцмережах:

Випуски за 2012 Рік

Зміст випуску 6-2, 2012

Зміст випуску 2-1, 2012

Зміст випуску 10 (45), 2012

Зміст випуску 8 (43), 2012

Зміст випуску 7 (42), 2012

Зміст випуску 6 (41), 2012

Зміст випуску 5 (40), 2012

Зміст випуску 4 (39), 2012

Зміст випуску 3 (38), 2012

  1. М. Мартинес

Зміст випуску 2 (37), 2012

Випуски поточного року