Денис Соломатин – Искусственный интеллект от А до Б (страница 15)
Армейские психологические тесты включали в себя три вида обследования:
(А) Групповой экзамен альфа, который включал в себя восемь различных видов тестов, большинство из которых включали умение читать.
(Б) Групповой экзамен бета, который включал в себя семь различных видов тестов, ни один из которых не включал в себя способность читать или понимать разговорный язык, тесты, состоящие из картинок, рисунков и т. д., и даваемые в виде инструкций в пантомиме.
(В) Индивидуальные обследования двух видов:
(А) Те, которые включают использование родного языка, и
(Б) Те, которые не связаны с родным языком, состоят из сборных головоломок и т. д., инструкции даются жестами, «шкалой производительности».
Когда отряд явился на психологическое обследование, первым шагом было отделение грамотных от тех, кто неграмотен. Тем, кто говорил был грамотным, была дана экзамен альфа. Все остальные были отправлены в бета-версию. По окончании экзамена альфа все мужчины, набравшие низкие баллы, были отправлены в бета-версию. После того, как была проведена бета-версия, экзаменаторы попытались вызвать для индивидуальных обследований всех мужчин, набравших низкий балл в бета-версии. В спешке экзаменов было невозможно отозвать всех мужчин для индивидуальных экзаменов, которым следовало бы дать специальные экзамены, и некоторые мужчины были оценены по альфе, которые должны были быть оценены по бете, и наоборот, но большинство мужчин были правильно оценены грубыми методами, которые использовались. На каждом из экзаменов разброс баллов был настолько велик, что большинство мужчин имели возможность набрать баллы.
Большой вклад комитета, который первым разработал методы экзаменов в армии, и людей, которые впоследствии разработали дополнительные методы в армии, состоял в создании и стандартизации групповых экзаменов альфа и бета. Методы индивидуального обследования уже существовали, шкала Стэнфорда-Бине была развитием шкалы «умственного возраста» Бине, а тесты шкалы производительности были более или менее полностью разработаны другими исследователями. Задача обследования людей в больших группах была впервые успешно выполнена в армии. До первой мировой войны многие психологи насмехались над идеей обследования двухсот или трехсот человек одновременно, выдавая им буклеты с различными видами тестов, но обследования в больших группах стали повседневным делом. Групповые тесты впоследствии были опробованы в школах и на промышленных предприятиях с отличными результатами с точки зрения проведения тестов. Действительно, когда в октябре 1919 года в Университете штата Огайо проводился армейский экзамен по альфе, практически весь студенческий состав, числом 6000 человек, был проверен пятью экзаменаторами за восемь часов. В службе было установлено, что один экзаменатор может с легкостью управлять группой из 200 человек. Экзаменатор прочитал инструкции для альфы, и мужчины приказали стартовать и останавливаться в нужное время. Бета-тест был более сложным в проведении и проводился в небольших группах.
Статистические методы обработки результатов армейских испытаний, использованные в данном исследовании, довольно сложны, но их принципы легко понять. Прежде всего, надо откровенно признать, что в трех видах проводимых обследований были допущены незначительные ошибки. Мы не можем исправить тип тестов, которые использовались, но мы можем скорректировать метод их оценки. Большая часть трудностей с подсчетом баллов возникает из-за того, что использовались разные типы измерительных шкал. Во время войны различные шкалы были преобразованы в одну общую шкалу буквенных оценок (A, B, C+, C, C−, D и D−). Этот метод был грубым, и, хотя он отвечал целям армии того времени, его нельзя использовать ни в какой научной интерпретации результатов.
Экзамен альфа оценивался путем нахождения баллов по каждому из восьми тестов, сложения для получения общей суммы, а затем преобразования общей суммы в буквенную оценку. Бета была оценена аналогичным образом. Очевидно, что некоторые тесты в альфа-версии могут быть сложнее других, что некоторые тесты в бета-версии могут быть проще, чем любые другие тесты в альфа-версии, и что могут произойти изменения, которые невозможно было предсказать на момент проведения исследований. Осознав эти факты, армейские статистики разработали другой метод подсчета результатов, который устраняет все эти источники ошибок. Этот метод известен как комбинированная шкала, теоретическая шкала интеллекта от 0 до 25, в которую можно преобразовать альфа, бета и индивидуальные экзаменационные баллы, так что в итоге мы получим одно измерение вместо трех.
Психологические измерения включают в себя гораздо больше, чем создание тестов и проведение тестов. После того, как все результаты получены, у нас все еще есть проблема интерпретации результатов, и эта интерпретация в значительной степени является статистической проблемой. Нельзя не отдать должное сотрудникам психологического отдела Главного хирургического управления, которые продолжали службу еще долго после окончания войны, терпеливо изучая и анализируя результаты. Объединенная шкала в значительной степени была работой двух молодых психологов, Карла Р. Брауна и Марка А. Мэя, и их работа над этой проблемой… Это, без сомнения, величайший вклад, который был сделан до сих пор в статистические аспекты науки о ментальных измерениях.
Теория, лежащая в основе комбинированной шкалы, заключается в том, что каждый тест альфа и бета рассматривается как отдельная шкала измерения. Одна группа людей, включающая 1047 мужчин, родившихся в англоязычных странах, была обследована на альфу, повторно обследована на бете и, если возможно, снова обследована по шкале Стэнфорда-Бине. Эта группа из 1047 случаев составила основу, на основе которой был эмпирически разработан метод объединения отдельных тестов в комбинированную шкалу.
С этого момента, в ходе изучения протоколов армейских испытаний, мы должны рассматривать альфа и бета как две брошюры, содержащие в общей сложности пятнадцать различных шкал измерения интеллекта.
На протяжении всего этого исследования все измерения проводились в терминах средних значений и вариабельности относительно среднего значения. Интерпретируя средние значения, мы никогда не должны забывать, что они обозначают целое распределение. Беспечные мыслители склонны выбирать один или два ярких примера способностей из определенной группы, а затем твердо полагаться на убеждение, что они опровергли аргумент, основанный на общем распределении способностей. Шаги, которые должны быть предприняты для сохранения или увеличения нынешнего интеллектуального потенциала, должны, конечно, быть продиктованы наукой, а не политической целесообразностью.
Может быть полезно определить некоторые из наиболее эзотерических юридических терминов, которые используются: действовать целесообразно подразумевает психическое состояние, охватывающее намерение обманывать, манипулировать или обманывать; стандарт разумного человека относится к гипотетическому индивидууму, проявляющему среднюю осмотрительность, навыки и суждение в поведении; разумный человек выступает в качестве сравнительного стандарта для определения ответственности; нечто является диспозитивным, когда оно является решающим или окончательным и, например, разрешает спор или вопрос; когда вы приводите доводы по делу любой из сторон, говорят, что кто-то выступает в суде; что-то имеет существенность, если оно имеет отношение и имеет последствия для обсуждаемого вопроса. Она не обязательно должна быть «статистически значимой», чтобы быть существенной. В любом судебном постановлении суд может заявить: «упущенный факт является существенным, если существует значительная вероятность того, что разумный акционер сочтет его важным при принятии решения о том, как голосовать»;
Правило яркой линии является абсолютным критерием; в данном случае статистическая значимость не является таким правилом яркой линии при принятии решения о раскрытии доказательств инвесторам.
За последние 15 лет этот суд трижды признавал недействительными части системы вынесения приговоров. Призрак расовой дискриминации был признан, сославшись на исследования, предполагающие вынесение смертного приговора с расовой дискриминацией, а нестандартные законодательные акты на рассмотрении суда «чреваты дискриминацией». Подтверждением тому являются статистические данные, свидетельствующие о том, что негров казнят гораздо чаще, чем белых, в процентном отношении к их процентному соотношению к населению. Исследования показывают, что, хотя более высокий уровень казней среди негров отчасти объясняется более высоким уровнем преступности, существуют свидетельства расовой дискриминации. Например, к 1977 году в Джорджии было казнено 62 мужчины за изнасилование с тех пор, как федеральное правительство начало собирать статистику в 1930 году. Из этих мужчин 58 были чернокожими и 4 белыми. Три года спустя суд в деле Годфри признал один из статутных отягчающих обстоятельств штата неконституционным расплывчатым, поскольку он привел к «нестандартному и необоснованному вынесению смертных приговоров по неконтролируемому усмотрению в основном необученных присяжных.... Судья Маршалл, соглашаясь с решением, отметил, что позорные искажающие последствия расовой дискриминации и бедности по-прежнему болезненно проявляются при вынесении смертных приговоров.