Оценочный бум

События

С недавних пор участились разговоры о важности оценки научных исследований, и поэтому может создаться впечатление, что в предыдущие эпохи ученых не оценивали. Необходимо прояснить это недоразумение и напомнить, что возникновение оценочных процедур датируется началом институционализации науки, а их сфера применения впоследствии расширялась по мере появления новых организационных структур. С середины XVII века и до наших дней исследователи всегда подвергались оценке.

Проблема состоит не столько в оценивании как таковом, сколько в расширении его применения. В результате исследователям поступает все больше запросов на оценку их коллег, и некоторые отвечают на эти запросы отказом, не желая отрывать время от собственной работы. И хотя некоторые ученые, видимо, считают, что работу мысли оценить невозможно, следует напомнить, что оценивание на разных уровнях уже давно осуществляется в следующих сферах:

1) научные публикации и доклады;

2) запросы на финансирование исследований;

3) преподавание в высшей школе;

4) продвижение по должности;

5) научные центры и департаменты;

6) учебные программы в высшей школе;

7) с конца 1980-х годов в некоторых странах к этому списку прибавилась оценка самих университетов.

Оценка публикаций

Не будет преувеличением сказать, что практика оценки научных трудов восходит к созданному в марте 1665 года журналу Лондонского королевского общества Philosophical Transactions. Его главным редактором был один из двух секретарей этого ученого общества Генри Ольденбург. Это издание представляло собой прототип современного научного журнала: его содержание ограничивалось сферой науки и включало книжные рецензии, оригинальные статьи и перепечатки статей из иностранных источников. Уже в анонсе проекта этого нового издания уточнялось, что его содержание будет «рецензироваться членами Общества» [].

Сам Исаак Ньютон испытал на себе превратности оценивания, подав в 1672 году свою первую статью в Philosophical Transactions Лондонского королевского общества. Рецензентом был назначен Роберт Хук, не обнаруживший в произведении Ньютона ничего оригинального и даже посчитавший, что заключения автора ошибочны в свете его собственной теории света, опубликованной несколькими годами раньше. Ньютон же имел дерзость не снизойти даже до ее упоминания. Такая оценка, разумеется, ввергла Ньютона в страшный гнев… []

Долгое время оценивание науки ограничивалось оценкой публикаций коллег и соперников в научном поле. Поначалу журналы имели общий профиль и охватывали несколько областей, а позже, в течение XIX века, специализировались и стали отраслевыми. С появлением дисциплинарных журналов связано формирование относительно независимых друг от друга областей, объединяющих исключительно представителей одной дисциплины (химия, математика, физика и т. п.) [].

До начала XX века оценивание носило достаточно формальный характер: редактор журнала или редколлегия решали, достаточно ли им компетенции, чтобы самим оценить предложенный текст, а если нет, то выбирали среди своего близкого окружения эксперта, способного написать отчет о значимости присланного текста. Доля отказов в публикации в целом была очень незначительной. Даже в Annalen der Physik, ведущем журнале по физике начала XX века, по оценкам Макса Планка, отказы составляли менее 10%, и сам он предпочитал скорее предложить внести исправления в текст, чем отказывать своим коллегам в публикации [].

А вот пример того, как медленно развивался процесс оценивания. В 1936 году Альберт Эйнштейн, привыкший к тому, что его публикации принимались быстро и без возражений, был удивлен тем, что статья, предложенная им в американский Physical Review, прошла оценку анонимного рецензента, написавшего в своем отчете, что великий ученый ошибся в своих расчетах! Эйнштейн ответил, что никогда не давал разрешения редактору показывать кому-либо свой текст до публикации, и не счел целесообразным отвечать на комментарии, показавшиеся ему ошибочными, сообщив редакции журнала, что попросту отзывает свой текст. По всей видимости, он тогда просто не знал, как функционирует этот американский журнал, который тогда более строго следовал процедурам, чем его европейские аналоги. Однако это не помешало ему учесть замечания рецензента и опубликовать на следующий год отредактированную версию своей статьи в другом журнале [].

Оценка исследовательских проектов

Схожий процесс коллегиального оценивания имеет место и при подаче заявок на финансирование исследований. Система грантов институционализировалась в течение XX века в большинстве стран, где стали появляться агентства по финансовой поддержке научных исследований, особенно после Второй мировой войны. Во Франции в 1901 году была создана Касса научных исследований для финансирования индивидуальных исследовательских проектов. Впоследствии такие гранты стали выдаваться как министерствами, так и Национальным центром научных исследований (CNRS). Созданное в 2005 году Национальное агентство исследований (ANR) является продолжением и наиболее ярким выражением этого тренда.

В Северной Америке подобные агентства по финансированию науки, независимые от министерств, имеют гораздо более давнюю историю. Канадский Национальный совет научных исследований с 1916 года распределяет гранты среди исследователей, подавших свои научные проекты []. Однако в США ведущая роль в этом процессе перешла к федеральному центру лишь в 1950 году, когда был создан Национальный научный фонд (ННФ) [].

Оценка проектов, зачастую в форме живого обсуждения в рамках комитетов из 10–20 человек, долгое время оставалась достаточно неформальной и слабо регулируемой — компромисс по вопросу выбора лучших проектов достигался в ходе непосредственного общения. Как показали социологи Джонатан и Стивен Коулы, в этой системе есть значительная доля произвольности и одни и те же проекты могут оцениваться очень по-разному в зависимости от состава комитета []. Известно также, что критерии, используемые членами экспертных комиссий, значительно разнятся в зависимости от дисциплины и содержат весомую долю артистического произвола: так, проект, который одному кажется «впечатляющим», «захватывающим» и «оригинальным», другой расценивает как «непоследовательный» и «методологически слабый» [].

Для того чтобы упорядочить этот субъективный процесс, постепенно стали вводиться балльные системы оценивания, основанные на подсчете баллов, выставленных каждым членом комиссии, — иначе говоря, коллективное рейтингование. Однако за внешней объективностью этой арифметики суть осталась неизменной, ведь решение поставить галочку в компьютерной программе под оценкой 2,5, а не 4,0 остается абсолютно непрозрачным и не поддающимся анализу.

Квантификация вынесенных суждений, перекодирующая «супер!» в цифру 3, а «ничтожество» — в 1,5, ни в коей мере не отменяет фундаментальной субъективности суждения, а лишь скрывает ее за кажущейся объективностью цифры. Однако благодаря этой процедуре становится возможно произвести некоторые арифметические операции с оценками отдельных членов комиссии: вычислив «среднее арифметическое» этих суждений, можно определить «дисперсию» оценок и сфокусировать процесс принятия решения на суждениях, сильно отклоняющихся от этого среднего показателя. Если все участники поставили 2, то консенсус оказывается полным, а суждение окончательным по сравнению с каким-нибудь другим проектом, где средний показатель 4. При этом не имеет значения, если за одной и той же оценкой стоят суждения, вынесенные каждым в соответствии со своими особыми критериями. Итак, здесь по-прежнему действует модель дискуссии, имеющая целью убеждение и достижение компромисса (или по крайней мере большинства голосов) для отбора лучших проектов. А квантификация оценки на самом деле служит лишь упорядочиванию процесса обмена мнениями и более быстрому достижению коллективного решения.

С начала 1970-х годов библиометрию использовали финансирующие науку организации, такие как ННФ, чтобы выяснить, позволяет ли процесс коллегиального оценивания выявлять лучших исследователей.

Было показано, что в области химии более 80% грантов получают исследователи, на которых в предыдущие пять лет ссылались в среднем более 60 раз, и что публикации ученых с четырех лидирующих университетских факультетов, получающих бóльшую часть грантов, цитируются примерно 400 раз за тот же самый период. Эти результаты послужили ответом критикам процесса оценивания, утверждавшим, что он является по сути своей предвзятым []. С тех пор этой теме было посвящено множество библиометрических исследований как по отдельным факультетам или исследовательским группам, так и по целым университетам, в чем легко убедиться, пролистав подшивки таких журналов, как Scientometrics или Research Evaluation [].

На следующем уровне оцениваются отдельные исследователи. С распространением и принятием модели Берлинского университета в 1810 году в большинстве университетов, присваивающих степени магистра и кандидата наук, профессор должен также быть исследователем. Руководство университета (в централизованных системах это министерство, а в случае автономных учреждений — декан или завкафедрой) чаще всего обращается к внешним по отношению к данному факультету экспертам, прежде чем нанять новых преподавателей на постоянную должность (tenure) или повысить их в должности []. Эти эксперты, которые выбираются среди коллег, выносят общее суждение об оригинальности работ кандидата. После вступления кандидата в должность оценивание проводится реже и его характер сильно варьируется в зависимости от стран и институций.

Использование библиометрических данных для индивидуальной оценки исследователей стало вызывать возражения с самого зарождения библиометрии как метода, и Гарфилд мгновенно отреагировал на это беспокойство. Прибегнув к яркому образу, он предположил, что было бы абсурдно каждый год вручать Нобелевскую премию наиболее часто цитируемым авторам. Ведь если, по его словам, исходить из одного лишь показателя цитируемости научных работ, то следовало бы признать Лысенко одним из величайших исследователей 1950-х годов [].

Рекомендуем по этой теме:

По мнению Гарфилда, ссылки позволяют находить статьи и тех, кто их цитирует, тем самым помогая составить мнение о том или ином исследователе. Но подсчет ссылок не может заменить собой процесс оценки, при котором необходимо учитывать и другие переменные. Число полученных ссылок, в частности, зависит от характера статьи. Статья методологического характера, описывающая конкретную методику, цитируется гораздо дольше, чем обычный текст, представляющий новые результаты по тому или иному предмету. Точно так же обзорная статья, передающая актуальное состояние знаний в данной области, будет ожидаемо цитироваться в течение длительного времени, даже если она не содержит результатов какого-либо открытия.

Будучи горячим сторонником использования ИНЦ, Гарфилд утверждал, что анализ цитирования позволяет предсказать, кому будет присуждена Нобелевская премия []. Но это было явным преувеличением: хотя Thomson Reuters и делает регулярно такие предсказания, чтобы популяризировать использование ИНЦ, они все-таки нереалистичны, поскольку один анализ ссылок не позволяет учесть все разнообразие исследовательских областей, а также стратегии Нобелевских комитетов, которые заботятся о соблюдении баланса между дисциплинами от года к году. А главное, часто цитируемых авторов слишком много по сравнению с небольшим числом Нобелевских премий, присуждаемых ежегодно [].

Гарфилду как основателю Индекса научного цитирования было очевидно, что любой инструмент может быть использован не по назначению и необоснованно. «Научному сообществу надлежит предотвращать злоупотребления при использовании ИНЦ, обращая должное внимание на его корректное использование» []. Ту же позицию он занимает и в отношении журнального импакт-фактора, который был создан для помощи в отборе журналов библиотечными работниками, но который, как мы видим, в отсутствие критической рефлексии превратился в инструмент оценивания исследователей.

Рекомендуем по этой теме:

Несмотря на эти призывы к бдительности, библиометрия начала постепенно проникать в процесс оценивания исследователей уже с 1970-х годов. Как отмечает социальный психолог Джанет Бавелас, академический мир начиная с 1960-х годов настолько изменился, что стало невозможным, как прежде, назначать профессоров лишь по принципу включенности в персональные сети (old boy network) и основываясь на авторитете деканов или заведующих кафедрами []. И как раз в момент поиска системы оценки, которую можно было бы считать более демократической, объективной и менее произвольной, стал доступен Индекс научного цитирования. К тому же быстрый рост числа вузовских преподавателей и исследователей в течение этого периода (1965–1975) делал еще более сложным поиск и отбор кандидатур, которых стало слишком много, чтобы все могли знать их лично. Добавим к этому, что цифры с давних пор обладают аурой объективности []. Так были созданы все необходимые предпосылки к тому, чтобы цитирование стало использоваться как показатель качества.

В мае 1975 года в журнале Science была опубликована подробная статья о растущем использовании цитатного анализа для оценивания исследователей. В ней упоминалась профессор биохимии, которая оспаривала свое увольнение как несправедливое, утверждая на основании количества ссылок на ее статьи, что ее цитировали гораздо чаще, чем коллег-мужчин, которых тогда же повысили в должности []. На этом примере видно, что цитирование — это орудие, используемое не только руководителями институций, но и самими исследователями в тех случаях, когда им это выгодно. В связи с упрощением доступа к базам данных по цитированию, таким как Google Scholar, некоторые ученые стали указывать в резюме число ссылок на свои статьи, а также свой h-индекс, тогда как ценность этих показателей сомнительна и может привести к ошибочной оценке значимости кандидатур.

Источник postnauka.ru