436 KÖZLEMÉNYEK групп самодеятельных женщин проявляется стремление к меньшему числу детей, чем это имеет место у не работающих женщин. В заключительной части своей статьи автор останавливается на проекте проведения в октябре 1960 года во всех больницах страны обселдования путем опроса рождающих, или, соответственно, абортирующих женщин. IN D U C E D A B O R T IO N S B E T W E E N 1957 1959 Summary Referring to the paper written on the 1957 data, published in numbers 2 3 of 1958 of the quarterly, the paper deals with the changes arisen compared to the first full year of the unlimited abortion system. As indicated by the data in Table 1. the number of induced abortions increased significantly in 1959 (from 123 000 in 1957 to 152 000) and surpassed the number of livehirths (151 000). The increased number of pregnancies (practically the number of all obstetrical events) as well as the sales data of preservatives indicate that the up-todate forms of contraception have not been fully utilized yet. The composition of abortive women by age shows that the frequency of abortion has undergone the greatest increase among the younger age groups. (Table 2.) The distribution of abortive women by family status (Tables 3., 4.) has not undergone any essential change, 90 per cent of them being married. The frequency of abortions among married women is manifold that of unmarried ones. (Table 5.) By the age group frequency of 1959 we can presume that the number of abortions of a woman likely to be expected up to her age of 50 is 2,07, for a married women this rate being 2,62. (Table 6.) The rate of repeated (second and further) abortions shows a slight increase, the average order of abortions having increased from 1,83 in 1957 to 1,97 in 1959. (Table 7.) This increase has set in, in spite of the age of abortive women having sunk, as a result of the order of abortions having gone up in all age groups and in families of all size. (Tables 8., 9.) Repeated pregnancies (the increase of pregnancy order) result, to a growing extent, in repeated abortions. (Table 10.) The ratio of childless women and of those with one child has somewhat increased (11 per cent resp. 28 per cent) ; abortive women with two and three or more children account for further 30 per cent each. (Table 12.) Hence the general number of children of abortive women, especially of dependant women, has decreased in spite of this among abortive women the number of children of earners was much lower even in 1959 than that of dependants. Partly it is the result of their younger age composition but also independently from this, the endeavour of working women to have a number of children lower than dependant women can be witnessed separately in each age group. (Table 13.) In conclusion the paper refers to the scheme of data collection to be carried out by interviewing the childbearing and the abortive women in all the hospitals of the country in the course of October 1960. M INTAVÉTELI A D A TO K V IS Z O N Y S Z Á M A IN A K M E G B ÍZH A TÓ S Á GI H A T Á R A I DR. BENE LAJOS TEKSE KÁLM ÁN A statisztikai elemzések gyakorlatában igen fontos szerepet játszanak a viszonyszámok, m int a statisztikai megvilágítás eszközei. H a bizonyos, kiindulásul szolgáló adatokat m intavétel útján kaptunk, akkor ezek valószínűségi változók (véletlen ingadozásokkal), következésképpen ilyen adatok hán y a dosai, azaz a most tárgyalt viszonyszámok maguk is valószínűségi változók lesznek. Ilyen, m atem atikai m intából származó viszonyszám ok helyes használatához szükség van ezek megbízhatósági (hiba-) határainak ism eretére, ennek előfeltételét pedig a standard hiba m egállapítása képezi.
KÖZLEMÉNYEK 437 Viszonyszámok standard hibáinak m egállapítása általában (m int látni fogjuk) terjedelm es számolási m unkát igényel és ez a m intavételi adatok felhasználásra alkalmas közlésének elhúzódását eredményezné. Bizonyos, viszonylag egyszerűbb esetekben (alternatív valószínűségi változók esetén) azonban lehetőség nyílik a standard hibák közvetlen és egyszerű m eghatározására. Viszonyszámok standard hibái alternatív valószínűségi változók esetén a gyakorlatban igen nagy szerepet játszanak (pl. a népszámlálások alkalm ával a teljes anyagból készített képviseleti m inták előzetes feldolgozásánál) és bár e speciális eset vizsgálata igen egyszerű és szemléletes eredményekre vezet, a m atem atikai statisztikai kézikönyvek nem térnek ki e kérdések részletezésére és különösen nem adnak a felhasználáshoz szükséges táblázatokat vagy nomogrammokat. T ekintettel az ilyen irányú gyakorlati igényekre, célszerűnek m u tatk o zo tt e problém ák vizsgálata. I. Viszonyszámok standard hibái Viszonyszámok standard hibáinak m eghatározása nem jelent nehézséget, ha a viszonyítás a teljes mintasokasághoz (ill. k ivetített adatoknál a teljes alapsokasághoz), népszámlálásnál teh át az össznépességhez történik. H a pl. a különböző foglalkozásúak, életkorúak, családi állapotúak stb. szám ának az össznépességben elfoglalt arányáról van szó, akkor az egyszerű véletlen kiválasztás ú tján adódó p viszonyszám (q = 1 p) standard h ibáját az n elemn, számú m intasokasagban (itt n adott szám), / = kivalasztasi arany m ellett egyszerűen az ism ert N képlet adja, ahol P, Q az alapsokaságbeli arányok, m elyeket közelítésképpen a m intabeli p, q arányokkal helyettesíthetünk.1 Népszámlálási adatokat- azonban sok esetben nem az össznépességhez, hanem résztömeghez viszonyítunk. Ilyenek a különböző korúak aránya a férfi vagy a női népességben, különböző foglalkozási viszonyúak aránya a mezőgazdaságban vagy iparban, keresők és eltartottak egymáshoz m ért aránya stb. Ezekben az esetekben a helyzet bonyolultabb : a viszonyszámot kifejező törtnek mind a számlálója, mind a nevezője megfelelő h ib ah atárokkal terhelt valószínűségi változó. H a x az egyik (viszonyított) ismérvvel, y a másik (viszonyítási alapul szolgáló) ism érrvvel rendelkező egyedek szám a a m intában, akkor feltéve, hogy szokás szám ítani : hányados standard hibájának négyzetét a következő képletből [1] [2] 1 A megbízhatósági határok ennek alapján a képlettel számíthatók, ahol a /-szeres standard hibának megfelelő valószínűséget (/)] nagy m inta esetén a normális eloszlás alapján állapíthatjuk meg. Pontosabb eljárás érdekében ha en n ek a korrekciónak észrevehető hatása van a megbízhatósági határok mindkét irányában még -nel m egnövelhetők. Ez a korrekció a tényleges megoszlásnak a normálgörbe folytonos megoszlásával való helyettesítéséből folyik. [Lásd pl. (1)]
438 KÖZLEMÉNYEK ahol x és y a két ismérv várható értéke-, Vx és Vy ezek variációs együtthatója (relatív szórása), q pedig a két ismérv összetartozó elem párjainak korrelációs együtthatója.2 (1). A korrelációs együttható nagyban befolyásolja a viszonyszám standard hibáját, nevezetesen : ha ismérveink függetlenek (q = 0), akkor a két ismérv variációs együtthatója a szórások összeadási szabálya szerint összeadódik, míg pozitív korreláció csökkenti, negatív korreláció pedig növeli a hányados standard hibájának így m egállapított értékét. Viszonyszámok standard hibáinak m eghatározása, m int azt (2)-ből is látjuk, általában körülményes számolási m unkát igényel. Különösen a (2)-ben szereplő q korrelációs együttható okoz nehézséget, hiszen e mennyiséget m inden ismérvre külön-külön kell kiszám ítani. A lternatív valószínűségi változók esetén azonban a standard hibák közvetlenül, csekély számolással meghatározhatók. Ehhez először a korrelációs egy ü tth ató t határozzuk meg, alternatív valószínűségi változók összegeinek hányadosára vonatkozóan. íg y a továbbiakban ugyanabba a m intasokaságba tartozó egyedek különböző ismérvei között fennálló korrelációt vizsgálunk. Népszámlálásnál igen sok esetben a megfigyelt ism érveket alternatív ism érvek -nek lehet tekinteni, amikor tudvalevőleg 1 jelzi, hogy a kiválasztott egyed rendelkezik az illető ismérvvel, 0 pedig azt, hogy nem rendelkezik ezzel. Ilyen módon a két ismérv (xt és yt) egyénenkénti kapcsolatánál négyféle eset lehetséges : 1) Az illető személy m indkét ism érvvel rendelkezik : xt = 1, y4 = 1 2) Az illető személy csak az egyik (a viszonyított) ismérvvel rendelkezik : = 1, yt = 0 3) Az illető személy csak a viszonyítási alapul szolgáló ismérvvel rendelkezik : xt = 0, yt = 1 4) Az illető személy egyik ismérvvel sem rendelkezik: xt = 0, z/4 = 0. A két ismérv előfordulásának gyakorisága az n elemszámú m intában : n n x = ^ x,, y = y( és az ismérvek relatív gyakorisága : Jelöljük továbbá az 1) alatti eset (m indkét ismérv előfordulása ugyanazon személynél) relatív gyakoriságát p^-nal. Ilymódon az 1) 4) alatt jelzett esetek előfordulási gyakoriságára következők adódnak : 1. tábla! Megjegyezzük, hogy e képlet közelítő jellegű.
KÖZLEMÉNYEK 439 A lternatív ismérvnél ugyanis x = px és y = py továbbá npx = x, és npy = y (lásd 1. áb rát az oldal alján). A fentiek segítségével a [3] korrelációs együttható a következőképpen fejezhető ki : [4] mivel alternatív ism érvekre : Ennek felhasználásával a viszonyszám standard hibájának négyzete, q«ugyancsak alternatív ismérvre. leven, Py és végül Feltéve, hogy Vx és Vy végesek és у Ф 0, az eloszlása, Cramer egy lemmájából folyólag (2), nagy m intaelemszám és kis kiválasztási arány m iatt közelítőleg normális eloszlás. E zért az cc arány megbízhatósági határai lesznek, ahol t a normális eloszlás alapján szám ított, v álasztott valószínűségi szintnek megfelelő érték. A népességi statisztikai gyakorlatban rendszerint ennek az á lta lános esetnek különböző speciális esetei fordulnak elő, azaz olyan viszonyszámok használatosak, am e lyek a fentiek különleges esetei. Ezeket az alábbiakban egyenként vesszük szemügyre.
440 KÖZLEM É N Y EK II. Megoszlási viszonyszámok A demográfiai gyakorlatban legtöbbször megoszlási viszonyszámok fordulnak elő, résztömegnek egy őt m agába foglaló nagyobb tömeghez való viszonyítása útján. Az ilyen viszonyszám oknál (lásd az előző ábrát) Ezzel vagy jelentéktelen átalakítás után a korrelációs együttható következő szimm etrikus előállítását kapjuk (pozitív gyököt figyelembevéve) : E nnek alapján a standard hiba négyzete megoszlási viszonyszám esetén : [ó] a viszonyítandó x és у értékekkel kifejezve : [7] E kifejezés x <, у m iatt sohasem negatív. Megjegyzendő, hogy megoszlási viszonyszámok esetén ugyanerre az eredményre más úton is eljuthatunk. A mintabeli viszonyszám ugyanis y = x + z feltételezett elemszámú mintából vettnek tekinthető (у < n), amely hipergeometrikus eloszlású valószínűségi változó. E feltételből p' standard hibájának négyzetére könnyen adódik a [7] kifejezés (lásd (1) pp. 45.) III. Koordinációs viszony számok E fogalomkörbe egymást kizáró ismérvekkel rendelkező részsokaságok összehasonlítása tartozik, e két részsokaságnak egymáshoz való viszonyítása útján, mint pl. a férfi-nő arány, a keresők és eltartottak, a szocialista és m agánszektorba tartozók aránya stb. A korrelációs együttható m egállapításánál e viszonyszámok kétféle fa jtá já t kell m egkülönböztetnünk : 1. Azokat a koordinációs viszonyszám okat, melyek nem a teljes népességből, hanem annak egy részéből számítandók. (Pl. mezőgazdasági, ipari, bizonyos koron felüli stb. népességből szám ított férfi-nő arány.) 2. Olyan egymást kizáró ismérvek arányát, melyek együtt az össznépességet képviselik. Az 1. a latti esetben pzy = 0 és [8]
KÖZLEMÉNYEK 441 A 2. alatti csoportba az össznépességből szám ított férfi nő, kereső eltarto tt stb. arány tartozik. Ilyen esetekben A korrelációs együttható [8] alapján felhasználásával : Természetes, hogy e két ismérv között negatív korreláció áll fent, m ert az egyik ismérv növekedése a m ásiknak ugyanakkora csökkenését eredményezi. (Feladatunkban : amilyen m értékben az egyik ismérv m intabeli értéke eltér, n az alapsokasagbeli érték --s z e re s é tő l, ugyanannyival el kell térnie a m ásiknak ellenkező irányban.) A fenti két esetre [8] és [9] alatt k apott értékeket [2] alatti képletbe behelyettesítve cr2-re az alábbi kifejezést kapjuk, mégpedig csak első pillanatra meglepő módon az egym ást kizáró ismérvek két fa jtá já ra azonos alakban : [9 ] [ 10] A megoszlási viszonyszámokra [7] alatt k apott kifejezéstől az utóbb k apott képletünk az tag előjelében különbözik, ezzel jelezve, hogy utóbbi esetben tágabb megbízhatósági hibahatárokkal kell számolni. * A képletek használatát és a k apott hibahatárok nagyságrendjét, valam int ennek alakulását az alábbiakban néhány számpéldán szem léltetjük. A hibahatáro k at az összehasonlíthatóság érdekében nem a standard hiba X hanem ennek arányához való viszonyításából folyó V/ \ relatív hiba útján U \u> fejezzük ki. Utóbbiak a fenti [7], ill. [10] képletből egyszerűen az szorzó elhagyásával szám íthatók. Legyen (m int az 1960. évi népszámlálásnál készített képviseleti m inta esetén is) n 100 000 és / = 0,01. Megoszlási viszonyszámok esetére példaképpen bem u tato tt számítási eredmények a következők (a [7] form ula alapján) : 2 9 D em o g ráfia
442 KÖZLEMÉNYEK I. Megoszlási viszonyszámok relatív standard hibái
KÖZLEMÉNYEK 443 Összehasonlításul a viszonyszám relatív hibájának m értéke az össznépességhez való viszonyítás esetén ([1] form ula alapján) : A korrelációs együtt- ará- ható tehát nagy nyoknál igen jelentős és javítja a m intavételi arány pontosságát, kis arányoknál azonban szerepe csekély. A relatív hibák egyébként am int az a I. ábrán is látható jelentékeny részben a hányadost képező szám adatok abszolút nagyságrendjétől függenek. A megbízhatósági h atárokat 95%-os valószínűségi szinten a fenti relatív hibák t = 1,96-szorosa (kereken kétszerese) fejezi ki. Koordinációs viszonyszámok esetén a m intavételi hiba a következőképpen alakul : II. Egymást kizáró ismérvek arányszámainak relatív standard hibái A II. ábráról is könnyen leolvasható, hogy az x y arány m intavételi hibáia kiváltképpen a 0,5, ill. 1-hez közelálló arányok esetén té r el lényegesen az össznépességhez viszonyított arányok hibájától. IRODALOM 1. Cochran, W. G. : Sampling Techniques. New York, London, 1953. John W iley. 330. p. 2. Cramer, H. : Mathematical Methods of Statistics. 1946. Princeton University Press. 366. p. 2 9 *
444 KÖZLEMÉNYEK ДОВЕРИТЕЛЬНЫЕ ГРАНИЦЫ ОТНОСИТЕЛЬНЫХ ВЕЛИЧИН ВЗЯТЫХ ИЗ МАТЕМАТИЧЕСКОЙ ВЫБОРКИ Резюме Определение доверительных границ относительных величин вычисленных из данных, полученных при математической выборке, не причиняет особых трудностей, если сравнение производится относительно полной выборочной совокупности. Однако в практике статистики во многих случаях необходимо сравнивать выборочные данные с некоторой частью выборочной совокупности. В таком случае величину соотношения получаем, как частное двух случайных величин. Соотношения такого рода играют важную роль в практике статистических анализов, как средств статистического освещения, поэтому для их использования необходимо иметь доверительные интервалы случайных величин, а для этого нужно знать их стандартную ошибку. Если обозначим через х число индивидов выборки, обладающих одним признаком, через у число индивидов выборки, обладающих другим признаком, служащ им основой для сравнения, тогда, предполагая, что х у = 0, формула [2] даст квадрат стандартной ошибки частного, где Vx и у коэффициенты изменчивости а о корреляционный коэффициент соответствующих пар элементов двух признаков. Предполагаем, что т.2 тт2, ^ Vх, и Vу конечные, тогда при больших выборках распределение приблизительно нормальное распределение, и доверительные границы частх ного будут где t нормальная девиация, соответств5гющая выбранному доверительному уровню. В простейших случаях, если у фиксированный (например, у объем выборки), тогда формула [1] дает стандартную ошибку частичного сс = р, где q = 1 р, и / пропорция отбора выборки. Однако определение стандартной ошибки частного нуж дается в большой вычислительной работе, что затрудняет использование величин соотношений. В некоторых,. сравнительно простых случаях (например, для альтернативных случайных величин, которые возникают при обработке данных выборки, подготовленной предварительной обработкой материала общегосударственной переписи населения) открывается возможность простого определения стандартных ошибок. В литературе, вообще не уделялось должного внимания изложению этих вопросов, поэтому целесообразно подробнее остановиться, на них При переписи населения, в случае наличия альтернативных признаков при связывании индивидов, возможны четыре случая : выбранный индивид обладает обоими признаками, только одним признаком, не одним не обладает. Эти случаи соответствуют следующим числовым значениям : *<=1, Ui = 1 ; аг = 1, iji = 0 ; х, = 0, у, = 1 ; х( = 0, у, = 0. Обозначаем через п объем выборки, через рх частоту первого случая и введем следующие обозначения
KÖZLEMÉNYEK 445 Частоту появлений случаев 1) 4) содержит последний столбец таблицы I. Тогда вследствие х = рх и 7/ = р корреляционный коэффициент [3] для альтернативных признаков принимает вид [4], а из этого для квадрата х стандартной ошибки частного получаем выражение [5]. В практике демографии чаще всего получают распределение величин соотношений путем сравнения частной совокупности с некоторой совокупностью, содержащей частную. В этом случае у > х и рх у = рх, а из этого для квадрата стандартной ошибки распределения величины соотношения получаем [7]. Надо отметить, что тот же самый результат пол у чаем, если предполагаем, что величина соотношения взята из выборки, предположенный объем который равен у. Д л я координационных соотношений, которые возникают при сравнении частных совокупностей, обладающих взаимоисключающими признаками (например, соотношение : мужчины-женщины и др.) имеет место Рху = 0. Итак коррелационный коэффициент этих переменных равен 1, или, если сумма этих двух частных совокупностей не заполняет всю совокупность, равен [8]. Таким образом, для квадрата стандартной ошибки координационных соотношений получается выражение [10], которое не зависит от того как вычислены координационные соотношения : из полной выборочной совокупности (Сумма числителя и знаменателя ровна и) или из её части. Использование формул и размер полученных доверительных границ показаны на нескольких числовых примерах. Доверительные границы представлены при помощи коэффициентов изменчивости. Таблица 2 содержит коэффициенты изменчивости распределений величин соотношений при разных знаменателях, а таблица 4 коэффициенты изменчивости координационных соотношений, вычисленных из выборки размера п = 100 000. Данные таблицы изображены на рисунках. CONFIDENCE LIMITS OF RATIOS DERIVED FROM SAMPLING SURVEY DATA Summary The determination of the error-limits of ratios concerning statistical samples meets no diffuculties, if the ratio in question refers to the total population. In statistical practice however it is often necessary to relate to a part of the population only. In such cases the ratios are generated as the quotient of two random variables. Ratios of such character as tools of statistical interpretation are of great importance in the practice of statistical analysis. Their use definitely requires the determination of their confidence-limits, which necessitates the knowledge of their standard errors. If in the sample number of elements fulfilling the first criterion (to be related to the second criterion) is equal to x and the number of elements fulfilling the second criterion is y, then supposing that у 4= 0 the mean square deviation of the quotient x is given by (2), Vx and Vy denoting the coefficients of variation of the respective criteria and g the correlation coefficient of the pair of elements of the two criteria. Supposing that V2X and are finite, and in case of a sufficiently large samplex size, is approximately normally distributed, with confidence limits
446 KÖZLEMÉNYEK where t is the normal deviate corresponding to the chosen probability level. For the simplest case, when y is fixed (e. g. y equals the sample-size), the standard x error of = p is given by (1), where q = 1 p and / is the sampling rate. ' In general however the determination of the standard error of the quotient requires wearisome computations, which raises difficulties in applying these ratios. But in retain relatively simple cases (alternative random variables, occuring for instance in representative sampling, in connection with the preparation of a census (it is possible to determine the standard errors in an easy way. These problems are in general not considered in the literature, so their closer investigation seemed to be reasonable. If at a census two alternative criteria are kept under observation, then there are four possible results (of X/, yf) according to whether the sample-element chosen fulfills both criteria, one or the other, or neither of them. To these possibilities there correspond the following pairs of values : x, 1, у,- = 1 ; х,- = 1, у,- = 0 ; х,- = 0, у,- = 1 ; х,- = О, ( = 0. Denoting by п the sample-size, by p,jx the frequency of case 1. and with the notations the frequency of the occurence of cases 1 4. is contained in the last column of table 1. In this case as x = px and у = py the correlation coefficient [3] takes for alternative criteria the form [4], from which we obtain for the mean-square-deviation of the ratio expression [5]. In most of the cases of demographical practice, distribution rates occur by comparing one part of the population to the total population. In such cases у > x and pxy = = px from which for the mean-squaredeviation of the ratio [7] follows. (We wish to remark that in case of distributional ratios the same result is obtained by regarding the ratio as a quotient from a sample of size ij.) In case of coordinational rates, i. e. when part-populations, having mutually exclusive criteria, are compared (e. g. rates of male- and female individuals, etc.) pxy = 0 and thus the correlation coefficient of these variables equals 1, or if the union of the two part-populations is not equal to the total population [8]. Thus we obtain for the meansquare-deviation expression [10], independently from the circumstance whether the coordinational ratios are based on the total population (i. e. the sum of the numerator and denominator equals n) or on a part of it. The use of the formulae, the order of magnitude of the obtained error-limits and their values are illustrated on some examples and the error limits are represented by the relative error Table 2 contains the relative errors of the ratios based on denumerators of different sizes and Table 4 the same of coordinational ratios computed of samples, where n = 100 000. The data of the tables are given on the figures.