Реферат: Выборочные исследования в эконометрике

--PAGE_BREAK--В социологических публикациях продолжается дискуссия по поводу «мягких» и «жестких» форм сбора данных, т.е. фактически о том, какого типа вопросы более целесообразно использовать — открытые или закрытые (см., например, статью директора Института социологии РАН В.А. Ядова [2]). Преимущество открытых вопросов состоит в том, что респондент может свободно высказать свое мнение так, как сочтет нужным. Их недостаток — в сложности сопоставления мнений различных респондентов. Для такого сопоставления и получения сводных характеристик организаторы опроса вынуждены сами шифровать ответы на открытые вопросы, применяя разработанную ими схему шифровки. Преимущество закрытых вопросов в том и состоит, что такую шифровку проводит сам респондент. Однако при этом организаторы опроса уподобляются древнегреческому мифическому персонажу Прокрусту. Как известно, Прокруст приглашал путников заночевать у него. Укладывал их на кровать. Если путник был маленького роста, он вытягивал его ноги так, чтобы они доставали до конца кровати. Если же путник оказывался высоким и ноги его торчали — он обрубал их так, чтобы достигнуть стандарта: «рост» путника должен равняться длине кровати. Так и организаторы опроса, применяя закрытые вопросы, заставляют респондента «вытягивать» или «обрубать» свое мнение, чтобы выразить его с помощью приведенных в формулировке вопроса возможных ответов.
Ясно, что для обработки данных по группам и сравнения групп между собой нужны формализованные данные, и фактически речь может идти лишь о том, кто — респондент или маркетолог (социолог, психолог и др.) — будет шифровать ответы. В проекте «Потребители растворимого кофе» практически для всех вопросов варианты ответов можно перечислить заранее, т.е. можно широко использовать закрытые вопросы. В отличие от опросов с вопросами типа: «Одобряете ли Вы идущие в России реформы?», в которых естественно просить респондента расшифровать, что он понимает под «реформами» (открытый вопрос). Поэтому в используемой в описываемом проекте анкете использовались в основном закрытые и полузакрытые вопросы. Как показали результаты обработки, этот подход оказался правильным — лишь в небольшом числе анкет оказались вписаны свои варианты ответов. Вместе с тем демонстрировалось уважение к мнению респондента, не выдвигалось требование обязательного выбора из заданного множества ответов — респондент мог добавить свое, но редко пользовался этой возможностью (не более чем в 5% случаев).
В последнем вопросе анкеты респонденту предлагалось стать постоянным участником опросов о качестве товаров народного потребления. Ряд респондентов откликнулся на это предложение, в результате стало возможным развертывание постоянной сети «экспертов по качеству», подобной аналогичным в США.
Обоснование объема выборки и проведение опроса. Математико-статистические вероятностные модели выборочных маркетинговых и социологических исследований часто опираются на предположение о том, что выборку можно рассматривать как «случайную выборки из конечной совокупности» (см. терминологическое приложение). Типа той, когда из списков избирателей с помощью датчика случайных чисел отбирается необходимое число номеров для формирования жюри присяжных заседателей. В рассматриваемом проекте нельзя обеспечить формирование подобной выборки — не существует реестра потребителей растворимого кофе. Однако в этом и нет необходимости. Поскольку гипергеометрическое распределение хорошо приближается биномиальным, если объем выборки по крайней мере в 10 раз меньше объема всей совокупности (в рассматриваемом случае это так), то правомерно использование биномиальной модели, согласно которой мнение респондента (ответы на вопросы анкеты) рассматривается как случайный вектор, а все такие вектора независимы между собой. Другими словами, можно использовать модель простой случайной выборки. Таким образом, позиция в давней дискуссии в среде специалистов, изучающих поведение человека (маркетологов, социологов, психологов, политологов и др.) о том, есть ли случайность в поведении отдельно взятого человека или же случайность проявляется лишь в отборе выборки из генеральной совокупности, практически не влияет на алгоритмы обработки данных.
В биномиальной модели выборки оценивание характеристик происходит тем точнее, чем объем выборки больше. Часто спрашивают: «Какой объем выборки нужен?» В математической статистике есть методы определения необходимого объема выборки. Они основаны на разных подходах. Либо на задании необходимой точности оценивания параметров. Либо на явной формулировке альтернативных гипотез, между которыми необходимо сделать выбор. Либо на учете погрешностей измерений (методы статистики интервальных данных, см. ниже). Ни один из этих подходов нельзя применить в рассматриваемом случае.
Биномиальная модель выборки. Она применяется для описания ответов на закрытые вопросы, имеющие две подсказки, например, «да» и «нет». Конечно, пары подсказок могут быть иными. Например, «согласен» и «не согласен». Или при опросе потребителей кондитерских товаров первая подсказка может иметь такой вид: «Больше люблю „Марс“, чем „Сникерс“. А вторая тогда такова: „Больше люблю “Сникерс», чем «Марс».
Пусть объем выборки равен n. Тогда ответы опрашиваемых можно представить как X1, X2 ,…,Xn, где Xi= 1, если i-й респондент выбрал первую подсказку, и Xi= 0, если i-й респондент выбрал вторую подсказку, i=1,2,…,n. В вероятностной модели предполагается, что случайные величины X1, X2 ,…,Xnнезависимы и одинаково распределены. Поскольку эти случайные величины принимают два значения, то ситуация описывается одним параметром р — долей выбирающих первую подсказку во всей генеральной совокупности. Тогда
Р(Xi= 1) = р, Р(Xi= 0)= 1-р, i=1,2,…,n.
Пусть m= X1 + X2 +…+Xn. Оценкой вероятности р является частота р*=m/n. При этом математическое ожидание М(р*) и дисперсия D(p*) имеют вид
М(р*) = р, D(p*)= p(1-p)/n.
По Закону Больших Чисел (ЗБЧ) теории вероятностей (в данном случае — про теореме Бернулли) частота р* сходится (т.е. безгранично приближается) к вероятностир при росте объема выборки. Это и означает, что оценивание проводится тем точнее, чем больше объем выборки. Точность оценивания можно указать. Займемся этим.
По теореме Муавра-Лапласа теории вероятностей
<shape id="_x0000_i1027" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image003.wmz» o:><img width=«203» height=«48» src=«dopb235223.zip» v:shapes="_x0000_i1027">
где <shape id="_x0000_i1028" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image005.wmz» o:><img width=«37» height=«21» src=«dopb235224.zip» v:shapes="_x0000_i1028"> — функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1,
<shape id="_x0000_i1029" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image007.wmz» o:><img width=«148» height=«51» src=«dopb235225.zip» v:shapes="_x0000_i1029">
где <shape id="_x0000_i1030" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image009.wmz» o:><img width=«15» height=«15» src=«dopb235226.zip» v:shapes="_x0000_i1030">= 3,1415925…-отношение длины окружности к ее диаметру, e= 2,718281828… — основание натуральных логарифмов. График плотности стандартного нормального распределения
<shape id="_x0000_i1031" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image011.wmz» o:><img width=«112» height=«49» src=«dopb235227.zip» v:shapes="_x0000_i1031">
очень точно изображен на германской денежной банкноте в 10 немецких марок. Эта банкнота посвящена великому немецкому математику Карлу Гауссу (1777-1855), среди основных работ которого есть относящиеся к нормальному распределению. В настоящее время нет необходимости вычислять функцию стандартного нормального распределения и ее плотность по приведенным выше формулам, поскольку давно составлены подробные таблицы (см., например, [3]), а распространенные программные продукты содержат алгоритмы нахождения этих функций.
С помощью теоремы Муавра-Лапласа могут быть построены доверительные интервалы для неизвестной эконометрику вероятности. Сначала заметим, что из этой теоремы непосредственно следует, что
<shape id="_x0000_i1032" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image013.wmz» o:><img width=«292» height=«48» src=«dopb235228.zip» v:shapes="_x0000_i1032">
Поскольку функция стандартного нормального распределения симметрична относительно 0, т.е. <shape id="_x0000_i1033" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image015.wmz» o:><img width=«119» height=«21» src=«dopb235229.zip» v:shapes="_x0000_i1033"> то <shape id="_x0000_i1034" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image017.wmz» o:><img width=«175» height=«21» src=«dopb235230.zip» v:shapes="_x0000_i1034">
Зададим доверительную вероятность <shape id="_x0000_i1035" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image019.wmz» o:><img width=«13» height=«17» src=«dopb235231.zip» v:shapes="_x0000_i1035">. Пусть <shape id="_x0000_i1036" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image021.wmz» o:><img width=«37» height=«21» src=«dopb235232.zip» v:shapes="_x0000_i1036">удовлетворяет условию
<shape id="_x0000_i1037" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image023.wmz» o:><img width=«171» height=«21» src=«dopb235233.zip» v:shapes="_x0000_i1037">
т.е.
<shape id="_x0000_i1038" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image025.wmz» o:><img width=«124» height=«41» src=«dopb235234.zip» v:shapes="_x0000_i1038">
Из последнего предельного соотношения следует, что
<shape id="_x0000_i1039" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image027.wmz» o:><img width=«391» height=«49» src=«dopb235235.zip» v:shapes="_x0000_i1039">
<shape id="_x0000_s1027" type="#_x0000_t75" o:allowincell=«f»><imagedata src=«50130.files/image029.wmz» o:><img width=«428» height=«49» src=«dopb235236.zip» v:shapes="_x0000_s1027">
К сожалению, это соотношение нельзя непосредственно использовать для доверительного оценивания, поскольку верхняя и нижняя границы зависят от неизвестной вероятности. Однако с помощью метода наследования сходимости [4, п.2.4] можно доказать, что
Следовательно, нижняя доверительная граница имеет вид
<shape id="_x0000_i1042" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image031.wmz» o:><img width=«216» height=«49» src=«dopb235237.zip» v:shapes="_x0000_i1042">
в то время как верхняя доверительная граница такова:
<shape id="_x0000_i1043" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image033.wmz» o:><img width=«209» height=«49» src=«dopb235238.zip» v:shapes="_x0000_i1043">
Наиболее распространенным (в прикладных исследованиях) значением доверительной вероятности является <shape id="_x0000_i1044" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image035.wmz» o:><img width=«61» height=«21» src=«dopb235239.zip» v:shapes="_x0000_i1044"> Иногда употребляют термин «95% доверительный интервал». Тогда <shape id="_x0000_i1045" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image037.wmz» o:><img width=«81» height=«21» src=«dopb235240.zip» v:shapes="_x0000_i1045"> 
Пример. Пусть n=500, m=200. Тогда p* =0,40. Найдем доверительный интервал для <shape id="_x0000_i1046" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image039.wmz» o:><img width=«64» height=«21» src=«dopb235241.zip» v:shapes="_x0000_i1046">
<shape id="_x0000_i1047" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image041.wmz» o:><img width=«537» height=«48» src=«dopb235242.zip» v:shapes="_x0000_i1047">
Таким образом, хотя в достаточно большой выборке 40% респондентов говорят «да», можно утверждать лишь, что во всей генеральной совокупности таких от 35,7% до 44,3% — крайние значения отличаются на 8,6%.
Замечание. С достаточной для практики точностью можно заменить 1,96 на 2.
Удобные для использования в практической работе маркетолога и социолога таблицы точности оценивания разработаны во ВЦИОМ (Всероссийском центре по изучению общественного мнения). Приведем здесь несколько модифицированный вариант одной из них.
Табл.5. Допустимая величина ошибки выборки (в процентах)
В условиях рассмотренного выше примера надо взять вторую снизу строку. Объема выборки 500 нет в таблице, но есть объемы 400 и 600, которым соответствуют ошибки в 6% и 5% соответственно. Следовательно, в условиях примера целесообразно оценить ошибку как ((5+6)/2)% = 5,5%. Эта величина несколько больше, чем рассчитанная выше (4,3%). С чем связано это различие? Дело в том, что таблица ВЦИОМ связана не с доверительной вероятностью <shape id="_x0000_i1048" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image043.wmz» o:><img width=«61» height=«21» src=«dopb235243.zip» v:shapes="_x0000_i1048"> а с доверительной вероятностью <shape id="_x0000_i1049" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image045.wmz» o:><img width=«61» height=«21» src=«dopb235244.zip» v:shapes="_x0000_i1049"> которой соответствует множитель <shape id="_x0000_i1050" type="#_x0000_t75" o:ole="" fillcolor=«window»><imagedata src=«50130.files/image047.wmz» o:><img width=«85» height=«21» src=«dopb235245.zip» v:shapes="_x0000_i1050">Расчет ошибки по приведенным выше формулам дает 5,65%, что практически совпадает со значением, найденным по табл.5.
Минимальный из обычно используемых объемов выборки n в маркетинговых или социологических исследованиях — 100, максимальный — до 5000 (обычно в исследованиях, охватывающих ряд регионов страны, т.е. фактически разбивающихся на ряд отдельных исследований — как в ряде исследований ВЦИОМ). По данным Института социологии Российской академии наук [5], среднее число анкет в социологическом исследовании не превышает 700. Поскольку стоимость исследования растет по крайней мере как линейная функция объема выборки, а точность повышается как квадратный корень из этого объема, то верхняя граница объема выборки определяется обычно из экономических соображений. Объемы пилотных исследований (т.е. проводящихся впервые, предварительно или как первые в сериях подобных) обычно ниже, чем объемы исследований по обкатанной программе.
Нижняя граница определяется тем, что в минимальной по численности анализируемой подгруппе должно быть несколько десятков человек (не менее 30), поскольку по ответам попавших в эту подгруппу необходимо сделать обоснованные заключения о предпочтениях соответствующей подгруппы в совокупности всех потребителей растворимого кофе. Учитывая деление опрашиваемых на продавцов и покупателей, на мужчин и женщин, на четыре градации по возрасту и восемь — по роду занятий, наличие 5 — 6 подсказок во многих вопросах, приходим к выводу о том, что в рассматриваемом проекте объем выборки должен быть не менее 400 — 500. Вместе с тем существенное превышение этого объема нецелесообразно, поскольку исследование является пилотным.
Поэтому объем выборки был выбран равным 500. Анализ полученных результатов (см. ниже) позволяет утверждать, что в соответствии с целями исследования выборку следует считать репрезентативной.
Организация опроса. Интервьерами работали молодые люди – студенты первого курса экономико-математического факультета Московского государственного института электроники и математики (технического университета) и лицея No.1140, проходившие обучение по экономике, всего 40 человек, имеющих специальную подготовку по изучению рынка и проведению маркетинговых опросов потребителей и продавцов (в объеме 8 часов). Опрос продавцов проводился на рынках г. Москвы, действующих в Лужниках, у Киевского вокзала и в других местах. Опрос покупателей проводился на рынках, в магазинах, на улицах около киосков и ларьков, а также в домашней и служебной обстановке.
Большое внимание уделялось качеству заполнения анкет. Интервьюеры были разбиты на шесть бригад, бригадиры персонально отвечали за качество заполнения анкет. Второй уровень контроля осуществляла специально созданная «группа организации опроса», третий происходил при вводе информации в базу данных. Каждая анкета заверена подписями интервьюера и бригадира, на ней указано место и время интервьюирования. Поэтому необходимо признать высокую достоверность собранных анкет.
Обработка данных. В соответствии с целью исследования основной метод первичной обработки данных — построение частотных таблиц для ответов на отдельные вопросы. Кроме того, проводилось сравнение различных групп потребителей и продавцов, выделенных по социально-демографическим данным, с помощью критериев проверки однородности выборок (см. ниже). При более углубленном анализе применялись различные методы статистики объектов нечисловой природы (более 90 % маркетинговых и социологических данных имеют нечисловую природу [6]). Использовались средства графического представления данных.
Итоги опроса. Итак, по заданию одной из торговых фирм были изучены предпочтения покупателей и мелкооптовых продавцов растворимого кофе. Совместно с представителями заказчика был составлен опросный лист (анкета типа социологической) из 16 основных вопросов и 4 дополнительных, посвященных социально-демографической информации. Опрос проводился в форме интервью с 500 покупателями и продавцами кофе. Места опроса — рынки, лотки, киоски, продуктовые и специализированные магазины. Другими словами, были охвачены все виды мест продаж кофе. Интервью проводили более 40 специально подготовленных (примерно по 8-часовой программе) студентов, разбитых на 7 бригад. После тщательной проверки бригадирами и группой обработки информация была введена в специально созданную базу данных. Затем проводилась разнообразная статистическая обработка, строились таблицы и диаграммы, проверялись статистические гипотезы и т.д. Заключительный этап — осмысление и интерпретация данных, подготовка итогового отчета и предложений для заказчиков.
Технология организации и проведения маркетинговых опросов лишь незначительно отличается от технологии социологических опросов, многократно описанной в литературе. Так, мы предпочли использовать полуоткрытые вопросы, в которых для опрашиваемого дан перечень подсказок, а при желании он может высказать свое мнение в свободной форме. Не уложившихся в подсказки оказалось около 5 %, их мнения были внесены в базу данных и анализировались дополнительно. Для повышения надежности опроса о наиболее важных с точки зрения маркетинга моментах спрашивалось в нескольких вопросах. Были вопросы — ловушки, с помощью которых контролировалась «осмысленность» заполнения анкеты. Например, в вопросе: «Что Вы цените в кофе: вкус, аромат, крепость, наличие пенки...» ловушкой является включение «крепости» — ясно, что крепость зависит не от кофе самого по себе, а от его количества в чашке. В ловушку никто из 500 не попался — никто не отметил «крепость». Этот факт свидетельствует о надежности выводов проведенного опроса. Мы считали нецелесообразным задавать вопрос об уровне доходов (поскольку в большинстве случаев отвечают «средний», что невозможно связать с определенной величиной). Вместо такого вопроса мы спрашивали: «Как часто Вы покупаете кофе: по мере надобности или по возможности?». Поскольку кофе не является дефицитным товаром, первый ответ свидетельствовал о наличии достаточных денежных средств, второй — об их ограниченности (потребитель не всегда имел возможность позволить себе купить банку растворимого кофе).
Стоимость подобных исследований — 5-10 долларов США на одного обследованного. При этом трудоемкость (и стоимость) начальной стадии — подготовки анкеты и интервьюеров, пробный опрос и др. — 30 % от стоимости исследования, стоимость непосредственно опроса — тоже 30 %, ввод информации в компьютер и проведение расчетов, построение таблиц и графиков — 20 %, интерпретация результатов, подготовка итогового отчета и предложений для заказчиков — 20 %. Таким образом, стоимость собственно опроса в два с лишним раза меньше стоимости остальных стадий исследования. И в выполнении работы участвуют различные специалисты. На первой стадии – в основном нужны высококвалифицированные аналитики. На второй – многочисленные интервьюеры, в роли которых могут выступать студенты и школьники, прошедшие конкретный курс обучения в 8-10 часов. На третьей – работа с компьютером (надо уметь строить и обсчитывать электронные таблицы или базы данных, использовать статистические пакеты, составлять и печатать таблицы и диаграммы и т.п.). На четвертой – опять в основном нужны высококвалифицированные аналитики.
    продолжение
--PAGE_BREAK--
еще рефераты
Еще работы по экономическому моделированию