Bizonytalan Genotipizálás

Hasonló dokumentumok
Correlation & Linear Regression in SPSS

Cluster Analysis. Potyó László

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Correlation & Linear Regression in SPSS

Supplementary Figure 1

Supplementary materials to: Whole-mount single molecule FISH method for zebrafish embryo

Supporting Information

Construction of a cube given with its centre and a sideline

Phenotype. Genotype. It is like any other experiment! What is a bioinformatics experiment? Remember the Goal. Infectious Disease Paradigm

Using the CW-Net in a user defined IP network

Mapping Sequencing Reads to a Reference Genome

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Statistical Dependence

Supplementary Table 1. Cystometric parameters in sham-operated wild type and Trpv4 -/- rats during saline infusion and

Klaszterezés, 2. rész

Contact us Toll free (800) fax (800)

Statistical Inference

STUDENT LOGBOOK. 1 week general practice course for the 6 th year medical students SEMMELWEIS EGYETEM. Name of the student:

SOLiD Technology. library preparation & Sequencing Chemistry (sequencing by ligation!) Imaging and analysis. Application specific sample preparation

A rosszindulatú daganatos halálozás változása 1975 és 2001 között Magyarországon

Széchenyi István Egyetem

Flowering time. Col C24 Cvi C24xCol C24xCvi ColxCvi

FAMILY STRUCTURES THROUGH THE LIFE CYCLE

(c) 2004 F. Estrada & A. Jepson & D. Fleet Canny Edges Tutorial: Oct. 4, '03 Canny Edges Tutorial References: ffl imagetutorial.m ffl cannytutorial.m

Rezgésdiagnosztika. Diagnosztika

Proxer 7 Manager szoftver felhasználói leírás

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Genome 373: Hidden Markov Models I. Doug Fowler

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Hypothesis Testing. Petra Petrovics.

Nagy áteresztő képességű SNP mérések hasznosítása. Dr. Szalai Csaba

INDEXSTRUKTÚRÁK III.

16F628A megszakítás kezelése

Trinucleotide Repeat Diseases: CRISPR Cas9 PacBio no PCR Sequencing MFMER slide-1

Descriptive Statistics

Computer Architecture

Bevezetés a kvantum-informatikába és kommunikációba 2015/2016 tavasz

Expression analysis of PIN genes in root tips and nodules of Lotus japonicus

Választási modellek 3

Create & validate a signature

Angol Középfokú Nyelvvizsgázók Bibliája: Nyelvtani összefoglalás, 30 kidolgozott szóbeli tétel, esszé és minta levelek + rendhagyó igék jelentéssel

Csima Judit április 9.

A modern e-learning lehetőségei a tűzoltók oktatásának fejlesztésében. Dicse Jenő üzletfejlesztési igazgató

On The Number Of Slim Semimodular Lattices

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Regression

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

Lecture 11: Genetic Algorithms

7 th Iron Smelting Symposium 2010, Holland

General information for the participants of the GTG Budapest, 2017 meeting

discosnp demo - Peterlongo Pierre 1 DISCOSNP++: Live demo

Performance Modeling of Intelligent Car Parking Systems

SAJTÓKÖZLEMÉNY Budapest július 13.

University of Bristol - Explore Bristol Research

Tudományos Ismeretterjesztő Társulat

First experiences with Gd fuel assemblies in. Tamás Parkó, Botond Beliczai AER Symposium

SQL/PSM kurzorok rész

HALLGATÓI KÉRDŐÍV ÉS TESZT ÉRTÉKELÉSE

PIACI HIRDETMÉNY / MARKET NOTICE

Modular Optimization of Hemicellulose-utilizing Pathway in. Corynebacterium glutamicum for Consolidated Bioprocessing of

EN United in diversity EN A8-0206/419. Amendment

TestLine - Angol teszt Minta feladatsor

Can/be able to. Using Can in Present, Past, and Future. A Can jelen, múlt és jövő idejű használata

Ültetési és öntözési javaslatok. Planting and watering instructions

KN-CP50. MANUAL (p. 2) Digital compass. ANLEITUNG (s. 4) Digitaler Kompass. GEBRUIKSAANWIJZING (p. 10) Digitaal kompas

Kvantum-informatika és kommunikáció 2015/2016 ősz. A kvantuminformatika jelölésrendszere szeptember 11.

PETER PAZMANY CATHOLIC UNIVERSITY Consortium members SEMMELWEIS UNIVERSITY, DIALOG CAMPUS PUBLISHER

NYOMÁSOS ÖNTÉS KÖZBEN ÉBREDŐ NYOMÁSVISZONYOK MÉRÉTECHNOLÓGIAI TERVEZÉSE DEVELOPMENT OF CAVITY PRESSURE MEASUREMENT FOR HIGH PRESURE DIE CASTING

Formula Sound árlista

Forensic SNP Genotyping using Nanopore MinION Sequencing

1. Gyakorlat: Telepítés: Windows Server 2008 R2 Enterprise, Core, Windows 7

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

A teszt a következő diával indul! The test begins with the next slide!

Eladni könnyedén? Oracle Sales Cloud. Horváth Tünde Principal Sales Consultant március 23.

Gottsegen National Institute of Cardiology. Prof. A. JÁNOSI

4 vana, vanb, vanc1, vanc2

Utolsó frissítés / Last update: február Szerkesztő / Editor: Csatlós Árpádné

Seven Verses. from the Bhagavad Gita. by Swami Shyam. in Hungarian. magyarul

Utasítások. Üzembe helyezés

2. Local communities involved in landscape architecture in Óbuda

Márkaépítés a YouTube-on

Néhány folyóiratkereső rendszer felsorolása és példa segítségével vázlatos bemutatása Sasvári Péter

ANGOL NYELVI SZINTFELMÉRŐ 2012 A CSOPORT. to into after of about on for in at from

CLUSTALW Multiple Sequence Alignment

DI-, TETRA- ÉS HEXAPLOID TRITICUM FAJOK GENOMJAINAK ELEMZÉSE ÉS AZOK ÖSSZEHASONLÍTÁSA FLUORESZCENS IN SITU HIBRIDIZÁCIÓVAL

Regional Expert Meeting Livestock based Geographical Indication chains as an entry point to maintain agro-biodiversity

9el[hW][e\L;BI IjWdZWhZi

Utolsó frissítés / Last update: Szeptember / September Szerkesztő / Editor: Csatlós Árpádné

ELEKTRONIKAI ALAPISMERETEK ANGOL NYELVEN

Ellenőrző lista. 2. Hálózati útvonal beállítások, kapcsolatok, névfeloldások ellenőrzése: WebEC és BKPR URL-k kliensről történő ellenőrzése.

A cell-based screening system for RNA Polymerase I inhibitors

FÖLDRAJZ ANGOL NYELVEN

A jövedelem alakulásának vizsgálata az észak-alföldi régióban az évi adatok alapján

Tutorial 1 The Central Dogma of molecular biology

Supporting Information

Cashback 2015 Deposit Promotion teljes szabályzat

(NGB_TA024_1) MÉRÉSI JEGYZŐKÖNYV

A évi fizikai Nobel-díj

István Micsinai Csaba Molnár: Analysing Parliamentary Data in Hungarian

Az Open Data jogi háttere. Dr. Telek Eszter

A controlling és az értékelemzés összekapcsolása, különös tekintettel a felsőoktatási és a gyakorlati alkalmazhatóságra

Átírás:

Bizonytalan Genotipizálás Felkészülés A mérés során bizonytalan genotipizálási adatok osztályozását fogjuk vizsgálni. A mérésre fel kell készülni. A szükséges ismeretek megtalálhatók azt útmutató második felében, valamint a Neurális Hálózatok (Altrichter-Horváth-Pataki-Strausz-Valyon) c. könyv 94-110-adik és 401-407-edik oldalán (MLP és PCA). Valamint segít a felkészülésben, ha megismerkednek a Matlab használatával, szintaxisával. Mindenképpen nyissa meg az adat fájlt Excel-ben, hogy láthassa felépítését, valamint tartalmának jellegét! A mérésre házi feladattal kell készülni, és a mérés elején a kiadott melléklet alapján teszünk fel ellenörzı kérdéseket egy beugró ZH keretében (10 perc). A mérés háttere: A genotipizálási mérés során egyszerre sok egyed DNS-én tudjuk megvizsgálni az egyes helyeken levı allélokat. Elıször a begyőjtött mintákból kivonjuk a DNS-t, majd a számunkra érdekes területekrıl (A single nucleotide polymorphism -SNP-k azaz az egynukleotidos polimorfizmusok 150 bázispárnyi környezetérıl) másolatokat szaporítunk polimeráz láncreakcióval (PCR). A vad és mutáns allélokhoz tartozó DNS láncokat különbözı színő fluoreszcens festékkel festjük meg. Ezután a mintákat egy olyan sziliciumlapra helyezzük, amelyen a komplementer DNS láncok helyezkednek el. A szaporított minták ezekhez kötıdve bizonyos hullámhosszok alatt fluoreszkálnak. Ekkor készítünk a két színcsatorna alatt egy-egy felvételt, majd a késıbbiekben részletezett képfeldolgozási eljárással megfigyeljük az egyes pontok fényességét, valamint a pontok további jellemzıit is rögzítjük. Ezután az egy SNP-hez tartozó mintákat összegyőjtjük, és egy diagrammon ábrázoljuk. A diagramm X tengelye a minta színaránya. Ha a pont teljesen kék, akkor jobbra, ha teljesen zöld akkor pedig balra kerül. Az Y tengely pedig a pontok összegzett intenzitása. -1-

A mintapontok naív klaszterezése adja meg a genotípust, de ez nem felel meg teljesen a valós genotípusnak, a mérés megbízhatatlansága miatt. Egy jelentısen drágább módszerrel történı validáció során pontosan megállapíthatjuk az egyedek genotípusát. A validációt felhasználva szeretnénk megállapítani hogy milyen paraméterek mellett valószínő hogy a mérés hibás genotípust fog az egyedhez hozzárendelni. A megoldások minıségét az ROC (receiver operating characteristics) görbével tudjuk szemléletesen ábrázolni. A görbe a megoldás érzékenységét veti össze a specifikusságával. Ellenırzı kérdések: Mi az a PCA? Milyen tengelyek szerepelnek az ROC görbén? Mire használjuk a mérés kezdeti fázisában a PCR-t? Milyen jellegü zavart okozhatnak a rendkívül zajos paraméterek egy MLP tanításában ha kevés tanító pontunk van és nagy az adatdimenzió? Házi Feladat: Készítsen Matlab környezethez egy függvényt amely képes kiszámítani egy ROC görbe alatti területet! A mérés menete: A mérés során a Matlab neural network és statistics toolbox-ait (errıl a mérésvezetı rövid ismertetést ad igény szerint a mérés elején) fogjuk használni. Érdemes már otthon is, ha van lehetısége rá, megismerkedni a neural network toolbox-al. Az adatmátrix egy sora egy adott bemeneti minta. Az elıkészített adatok letölthetık a tárgy honlapjáról a BIR_1meres_data.csv állományból -2-

(http://www.mit.bme.hu/oktatas/targyak/vimim306/feladat), a megértést segíti a segédletben adott paramétermagyarázat. Töltse le, és ismerkedjen meg az adatokkal! A mérés során jegyzıkönyvet kell készíteni. A jegyzıkönyv lényegre törı, világos kell legyen. Minden feladnál tartalmaznia kell a feladat megfogalmazását, a megoldás menetének fıbb részleteit, az eredményeket és az eredmények értékelését. 1. feladat A. Importálja az adat fájlt, és válassza külön a késıbbi bemeneti és célváltozákat a segédletben megadott információk alapján! A célváltozó legyen a Clustering_error_bool, míg a bemeneti változók legyenek a tıle jobbra levı oszlopok értékei. A matlab/file menu/import paranccsal lehet betolteni (next next finish). Ügyeljen arra, hogy a Matlab importálásnál szétválasztja a csv fájlt numerikus és szöveges részekre! B. Vizsgálja meg PCA-val a bemeneti adatok legnagyobb sajátértékeit! Figyelje meg hogy mennyi sajátvektorral tudja a jól (>99%) kifeszíteni a mintahalmaz varianciáját! Használja a princomp() függvényt! Használja a help princomp parancsot, ha elakad az adatok értelmezésében! [COEFF,SCORE,latent] = princomp(x) C. Dimenzióredukció: transzformálja az az adatait az 1-5 legnagyobb variancát megırzı sajátvektorok terébe, valamint a 3 legjobb és két véletlenszerően választott sajátvektor terébe! 2. feladat A. Vizsgálja meg meg a két kitüntetett sajátvektor definiálta biplotban a változókat és az adatokat a három legjobb sajátvektor terében! (természetesen azért csak három mert ennél több dimenziót nehézkes lenne vizualizálni) Lát-e valamilyen szeparációt a pontok között? Ha igen, készítsen róla képernyımentést. biplot(coeffs(:,1:3),'scores',score(:,1:3)) 3. feladat A. Tanítson egy bináris kimenető osztályozó perceptront (az nntool eszközzel) az ismert validáció alapján (Clustering_error_bool) a legjobb PCA származtatott értékeket felhasználva! Értékelje a kapott hálózat eredményét! Ne felejtse transzponálni az adatait, hogy a bemeneti minták oszlopokban helyezkedjenek el. -3-

B. Tanítson egy egy rejtett rétegő, maximálisan bemenetek száma neuronnal rendelkezı MLP-t a hiba predikciójára az ismert validáció (klaszterezési hiba), valamint az elızıekben kiválasztott paraméterek alapján. Ez lesz a visszautasítási modellje, amelyet tovább kell vizsgálnia. Készítsen MLP-t a teljes bemeneti adathalmazzal, valamint az 1-5 legjobb származtattot PCA paraméterrel és a 3 legjobb és 2 véletlenszerően választott paraméterrel is! 4. feladat A. Vizsgálja az elızı feladatban elkészített modellek specifikusságának és érzékenységének alakulását egy elutasítási küszöb paraméter segítségével! Ábrázolja az ROC görbét a roc és a plotroc függvények segítségével! [tpr,fpr,thresholds] = roc(targets,outputs) B. Számolja ki a görbe alatti területeket és értékelje az egyes modellek teljesítményét a házi feladatként elkészített ROC görbe alatti területet kiszámoló függvénye segítségével! 5. feladat Válassza ki a szerinte legjobban teljesítı modellt (választását indokolja) és számítsa ki a hibamodell költségét az alábbi költségmátrix alapján, valamint rajzoljon fel súlyozott hasznossági görbét is a mátrix alapján! Ehhez írjon egy függvényt amely az alábbi módon súlyozza a hibát: -4-

Költségmátrix: Taqman/RawRead AA (0) AG (1) GG (-1) Eldobási költség AA 0 1 2 (Sum-SumAA)/Sum = 0.394 AG 1 0 1 (Sum-SumAG)/Sum=0.658 GG 2 1 0 (Sum-SumGG)/Sum =0.9343 A mátrix 3x3 as része azt adja meg, hogy milyen költséget rendelünk ahhoz, hogy egy genotípust hibásan adunk meg. Látható, hogy egy klasztert tévedni 1-be kerül, míg két klaszterrel arébb sorolni a mintát jóval drágább (AA helyett GG). A mátrix utólsó oszlopa pedig az eldobás költségét adja meg, amely értelemszerően alacsonyabb, mint a hibás válasz adása, és ára attól függ, hogy hány darab olyan mintánk volt az egész mérésben. Értelemszerően a ritkább halmazba tartozó mérés eldobása drágább. 6. feladat (Bónusz feladat) Vizsgálja meg az Asztma es a genotipus (Taqman) korrelaciojat! -5-

1. Introduction to genotyping. The distinct stages of the genotyping measurement are followed by complex post processing. First we apply digital image processing algorithms to the raw image information to produce real parameter values, which are then clustered to produce the nominal results of the measurement. The genomic SNP Core Facility laboratory at the Department of Genetics Celland Immunobiology of the Semmelweis University also has to face the same problems as mentioned before. Beside commercial measurements the laboratory investigates the genetic backgrounds of various diseases such as asthma and allergy. In the course of their work, the researchers want to explore the genetic causes of the diseases, therefore it is essential to define the SNPs associated with the illness. 2. Terminology 2.1. Genome The genome contains the entire hereditary information of living organisms, which in most cases is coded by DNA. The expression was created by merging the words gene and chromosome by Hans Winkler, botanics Professor of the University of Hamburg in 1920. DNA is a nucleic acid with the shape of a double spiral that is created by the connections of four nucleotide base pairs; adenine (abbreviated A), cytosine (C), guanine (G) and thymine (T). The spiral is held together by the complementary bases on each strand. Adenine and thymine and are connected by double hydrogen bonds, while cytosine and guanine are connected by triple hydrogen bonds. DNA strands in the genome are organized into chromosomes, and are present in the human body in the form of two homologous chromosomes, forming a chromosome pair. In human cells there are 23 pairs of chromosomes, each member of the pairs originates from one of the parents. The corresponding loci of the homologous chromosome pairs are called alleles, thus the human chromosomes are usually biallelic. The phenotype is any observable characteristic or trait of an organism; such as its morphology, biochemical or physical properties or behavior. 2.2. Genotype The genotype is the genetic trait that cannot be directly observed. It is the specific genetic sequence of a cell, and organism, or an individual, i.e. the specific allele make up of the individual. Genotyping is the process of determining the genotype of an individual by the use of biological assays. It provides measurement of the genetic variation between members of a species. 2.3. Single nucleotide polymorphisms Single nucleotide polymorphisms (SNP, pronounced snip ) are the most common type of genetic variation. A SNP is a single base pair mutation at a specific locus, usually -6-

consisting of two alleles (where the rare allele frequency is 1%). SNPs are often found to be the biomarkers of many human diseases and are becoming of particular interest in pharmacogenetics. A SNP is a DNA sequence variation occurring when a single nucleotide A, T, C, or G in the genome (or other shared sequence) differs between members of a species (or between paired chromosomes in an individual). For example, two sequenced DNA fragments from different individuals, AAGCCTA to AAGCTTA, contain a difference in a single nucleotide. In this case we say that there are two alleles : C and T. Almost all common SNPs have only two alleles. Within a population, SNPs can be assigned a minor allele frequency the lowest allele frequency at a locus that is observed in a particular population. This is simply the lesser of the two allele frequencies for single-nucleotide polymorphisms. There are variations between human populations, so a SNP allele that is common in one geographical or ethnic group may be much rarer in another. Variations in the DNA sequences of humans can affect how humans develop diseases and respond to pathogens, chemicals, drugs, vaccines, and other agents. SNPs are also thought to be key enablers in realizing the concept of personalized medicine. However, their greatest importance in biomedical research is for comparing regions of the genome between cohorts (such as with matched cohorts with and without a disease 2.4. Genotyping methods and the biochemistry of genotyping 2.4.1 Beckman Coulter s GenomeLab SNPstream Genotyping System The GenomeLab SNPstream Genotyping System utilizes a proprietary method called SNP Identification Technology for the detection of single nucleotide polymorphisms (SNPs). SNP Identification Technology is a non-radioactive, single-base primer extension method that can be performed in a variety of formats. It relies upon the ability of DNA polymerase to incorporate dye labeled terminators to distinguish genotypes. 2.4.2. Probe/Tag Technology The SNP Identification Technology method is informative because it provides direct determination of the variant nucleotides. SNP Identification Technology also provides significant research accuracy to genotyping because it incorporates after PCR a two-tiered detection utilizing base-specific extension by polymerase followed by hybridization-capture. This two-tiered detection step ensures accurate and highly discriminant analysis. The hybridization capture step utilizes a tag-probe approach. The SNP Identification Technology primer is a single strand DNA containing a template specific sequence appended to a 5 non-template specific sequence. Tag refers to the sequence attached to the SNP Identification Technology primer that is captured by specific probe bound to glass surface. The probe refers to a unique DNA sequence attached to the glass surface of every well in a 384 tag-array plate that specifically hybridizes to one tag. The probes bound covalently to the glass surface enable the interrogation of up to 12-plexed or 48-plexed nucleic acid reaction products. The SNP reaction product into which the tag -7-

has been incorporated will hybridize to the corresponding probe bound covalently to the glass surface. 2.4.3. SNP Assay SNP biochemistry for the GenomeLab SNPstream Genotyping System involves the following steps, as shown schematically after multiplex PCR amplification, amplicons containing the SNP of interest (step 1), unincorporated nucleotides and primers are removed enzymatically (step 2). In step 3, extension mix and a pool of tagged SNPware primers are added to the treated PCR. SNPware primers hybridize to specific amplicons in the multiplex reaction, one base 3' to the SNP sites. The tagged primers are extended in a two-dye system, by incorporation of a fluorescent labeled chain terminating acyclonucleotide. Two-color detection allows determination of the genotype by comparing signals from the two fluorescent dyes. SNP Identification technology for SNPStream The extended SNPware primers are then specifically hybridized to unique probes arrayed in each well. The arrayed probes capture the extended products (step 4) and allow for the detection of each SNP allele signal (step 5). Stringent washes remove free dyeterminators and DNA not hybridized to specific probes. 2.4.4. Control spots -8-

Two self-extending control oligonucleotides are included in each extension master mix and are extended with either the blue or green dye-labeled terminator during the primer extension thermal cycling. The array of capture oligonucleotides attached to the glass surface in each well of a 384-well plate includes three positive controls and one negative control. The XY control spot is a heterozygous control which has a mixture of two capture probes that allow hybridization of both blue and green control oligonucleotides. The XX control spot has a capture probe that allows hybridization of the blue control oligonucleotide. The YY control spot has a capture probe that allows hybridization of the green control oligonucleotide. Control spots and spot layout for 48plex plates 3. Image processing overview and image based quality parameters 3.1 Noise patterns Calculating the intensity is not merely enough to obtain reliable genotyping data from the scanned images, since many artifacts and errors can distort the scanned image, such as those shown below Noisy images Specs of dust on the plate Marks left by residual chemicals from the PCR reaction -9-

Banding caused by improper wiping of a plate before scanning (very rare but can be severe) The scanner is not centered above the well, so some spots may be partially missing as well as the measurements from the whole well being false. 3.2. Image Processing Overview -10-

First, we read the corresponding 16 bit raw images for each w ell: We normalize these images to 8 bits for better visibility by the operator, and because most OpenCV image processing functions only accept 8 bit images as inputs. We also slightly expand the image in all four directions, by a few pixels, to aid in the recognition and recovery of images where the scanner head isnt centered on the well. An optional median smoothing filter can be applied, this removes a great deal of unwanted noise w hile leaving the features of the image intact Grid template Next, we use a template matching algorithm for finding suitable candidate positions for our spot grid. The spot grid is a simple 48 or 12 spot grid, depending on the type of plate being analyzed. The difference betw een the grid and the input image in each pixel spot is then calc ulated, and the result stored in an image. -11-

The template matching results constitute a parameter space, of where the grid is most likely to be a match. Low values (darker colors) mean less squared difference from the grid template. Therefore we will select the low est local minima on the images as candidates for grid alignment. For each grid candidate position, we check for the control spots. Each w ell should have at least tw o control spots, the combined control spot and the specific c olor control spot. The grid position is chosen from the candidates based on the brightest control spots. Once the most likely grid position is determined, w e have to deal w ith the fact that the spots inside our grid might not be perfectly aligned to the grid, since the resolution of the image is quite low. So for each spot, another template matching algorithm is run on the direct vicinity of the spot, to determine the maximum likelihood of the spots exact position. Artifact noise is calculated by checking 8 pixels around a spot, and creating a noise gradient along these spots with linear interpolation. Artifact noise is subtracted from the images -12-

4. Data file format plate_id well_id sample_id Asthma Target variables TaqMan Rawread_HW_clustering Taqman_int Rawread_int Clustering_error_int Clustering_error_bool Shows which plate the sample originated from, 2 plates in total Shows which well the sample was in, wells are marked from a01 to p24 Identifier of the sample, eg which person the DNA came from Shows wether the patient had Asthma or not (1=true) Results of validation Our genotype calls (inaccurate, based on a greedy clustering method Same as previous, but in integer form (-1= AA, 0=AG, 1=GG) Clustering error abs(target variable- our result) Boolean clustering error Input variables totalnoiseb Total amount of noise in the blue channel, as calculated from the artifact supression snr_b Signal to noise ratio in blue channel totalnoiseg Total amount of noise in the green channel, as calculated from the artifact supression snr_g Signal to noise ratio in blue channel certainty Distance from cluster center certaintygradient Weighted distance from cluster center (lower intensity is punished more) intensity_b+g Total sum of the intensity of the blue and green spots intensity_b/b+g Ratio of blue to green channel brightness, where 1=all blue and = all green logavgb Average blue intensity across the spot. logintensityb Blue channel intensity sum logintensity varianceb Intensity variance over the spot (see processing flowchart) logcircularityb Metric of circulatiry, low values mean uniform circles, high values are more amorphous logbasenoiseb Base noise level for the spot logartifact corrected intensityb Artifact suppressed intensity rating, this value is used to calculate the clustering plots. logcorner1b logcorner2b logcorner3b logcorner4b logcorner5b logcorner6b logcorner7b logcorner8b logcenterb Intensity values on the 8 corners of the spot image, and the intensity of the images in the center point. Note: Be wary when -13-

using these parameters, as they do not represent too much useful information with relation to the genotype or the error of the sample. They can be regarded as quasi random variables. logavgg logintensityg logintensity varianceg logcircularityg logbasenoiseg logartifact corrected intensityg logcorner1g logcorner2g logcorner3g logcorner4g logcorner5 logcorner6g logcorner7g logcorner8g logcenterg Same as previous, but for the green channel. 6. Appendices: Plate number: 0000501603 Collected view for SNP RS7167 Each collected sample for this SNP is shown on the image below. Blue and green spots are placed next to each other while the bottom half of the image shows the version with artifact suppression. Unclustered plot: -14-

K-means clustering: Blue view for plate: Green view for plate: -15-

Plate number: 0000508403: Collected view: -16-

Unclustered plot: Simple K-means clustered plot: -17-

Blue view for plate: Green view for plate: 18

19