A KOPI Plágiumkeresı dinamikus skálázási kísérletei MTA SZTAKI. Department of Distributed Systems. Micsik András

Hasonló dokumentumok
KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

Mobil Peer-to-peer rendszerek

Segesdi Dániel. OpenNebula. Virtualizációs technológiák és alkalmazásaik BMEVIMIAV ősz

Department of Distributed Systems MTA SZTAKI DSD

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

Amazon Web Services. Géhberger Dániel Szolgáltatások és alkalmazások március 28.

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

World Wide DSD Web. Csoportmunka

Fine-Grained Network Time Synchronization using Reference Broadcast

Adatbázis rendszerek 7. előadás State of the art

Magic xpi 4.0 vadonatúj Architektúrája Gigaspaces alapokon

Felhő alapú hálózatok (VITMMA02) OpenStack Neutron Networking

Optimalizáció ESX-től View-ig. Pintér Kornél ügyfélszolgála3 mérnök

Utolsó módosítás:

Virtualizációs technológiák Linux alatt (teljesítményteszt)

Felhők teljesítményelemzése felhő alapokon

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Miért jó nekünk kutatóknak a felhő? Kacsuk Péter MTA SZTAKI

Szolgáltat. gfelügyeleti gyeleti rendszer fejlesztése. NETWORKSHOP 2010 Sándor Tamás

április 24. INFO Savaria április 24. INFO Savaria április 24. INFO Savaria

InfoVista újdonságok. Sándor Tamás. fımérnök. SCI-Network Távközlési és Hálózatintegrációs zrt. T.: F.:

Az MTA Cloud projekt MTA Cloud projektzáró június 28.

Operációs rendszerek III.

Az MTA Cloud használatának alapismeretei (tutorial) Lovas Róbert MTA SZTAKI

VIRTUALIZÁCIÓS TECHNOLÓGIÁK EUCALYPTUS CLOUD PLATFORM

Gyakorla( útmutató és demonstrációk a SZTAKI Felhő használatához

Hálózati szolgáltatások OpenStack környezetben

Processzusok (Processes), Szálak (Threads), Kommunikáció (IPC, Inter-Process Communication)

A felhőről általában. Kacsuk Péter MTA SZTAKI

Felhő alapú hálózatok Konténerek orkesztrálása Simon Csaba. Budapesti Műszaki és Gazdaságtudományi Egyetem

KOPI. Plágiumkeresés különböző nyelvek között MTA SZTAKI DSD. Pataki Máté. Department of Distributed Systems

Felhő rendszerek és felhő föderációk. Kacsuk Péter MTA SZTAKI

STANDARD DEVELOPMENT U.L. FACTORY SYSTEMS GROUP IT DEPARTMENT

Cloud Akkreditációs Szolgáltatás indítása CLAKK projekt. Kozlovszky Miklós, Németh Zsolt, Lovas Róbert 9. LPDS MTA SZTAKI Tudományos nap

EGI-InSPIRE. Café Grid március 24. Szeberényi Imre 3/25/ EGI-InSPIRE RI

AliROOT szimulációk GPU alapokon


GUSE BEMUTATÓ. Az MTA CLOUD felhasználói számára készült guse bemutató v2.0. MTA Cloud csapat

Élettartam teszteknél alkalmazott programstruktúra egy váltóvezérlő példáján keresztül

Párhuzamos és Grid rendszerek

Párhuzamos és Grid rendszerek

Beltéri autonóm négyrotoros helikopter szabályozó rendszerének kifejlesztése és hardware-in-the-loop tesztelése

Teljesítmény Mérés. Tóth Zsolt. Miskolci Egyetem. Tóth Zsolt (Miskolci Egyetem) Teljesítmény Mérés / 20

Processzusok (Processes), Szálak (Threads), Kommunikáció (IPC, Inter-Process Communication)

Felhő demonstráció Gergely Márk MTA SZTAKI

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

(kernel3d vizualizáció: kernel245_graph.mpg)

Nagyméretű webes projektek a felhőben

Autonóm jármű forgalomszimulátorba illesztése

A virtuális környezetet menedzselő program. Első lépésként egy új virtuális gépet hozzunk létre a Create a New Virtual Machine menüponttal.

SUSE Linux Enterprise High Availability. Kovács Lajos Vezető konzultáns

NIIF Központi Elosztott Szolgáltatói Platform

Új módszerek és eszközök infokommunikációs hálózatok forgalmának vizsgálatához

Felhőszámítástechnika (Cloud Computing) helye és szerepe az on-line világ folyamataiban. Dr. Élő Gábor Széchenyi István Egyetem ITOK 2013

Bevezetés a párhuzamos programozási koncepciókba

Szolgáltatási szint és performancia menedzsment a PerformanceVisor alkalmazással. HOUG konferencia, 2007 április 19.

Operációs rendszerek. 4. gyakorlat. BASH bevezetés, script írása, futtatása UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED

IBM felhő menedzsment

I.3 ELOSZTOTT FOLYAMATSZINTÉZIS BERTÓK BOTOND. Témavezetői beszámoló

Ezeket a kiemelkedı sebességő számítógépeket nevezzük szuperszámítógépeknek.

1. Gyakorlat: Telepítés: Windows Server 2008 R2 Enterprise, Core, Windows 7

1. Bevezető. 2. Sérülékenységek

Bitcoin és ami mögötte van... 1 / 17

Non-stop hozzáférés az üzleti információkhoz bárhol, bármikor és bármilyen eszközzel

SZIMULÁCIÓ ÉS MODELLEZÉS AZ ANSYS ALKALMAZÁSÁVAL

Programrendszerek tanúsítása szoftverminőség mérése

Rőczei Gábor Szeged, Networkshop

TECHNOLÓGIAI JÖVİKÉP. Felhınézetben. Tázló József mőszaki igazgató Cisco Systems Magyarország Cisco Systems, Inc. All rights reserved.

Tisztán kivehetı tendencia: kommunikációs hálózatok egyre bonyolultabbakká válnak Hálózat bonyolultsága

BMD Rendszerkövetelmények

Operációs rendszerek gyak.

Alkalmazás és megjelenítés virtualizáció

kodolosuli.hu: Interaktív, programozást tanító portál BALLA TAMÁS, DR. KIRÁLY SÁNDOR NETWORKSHOP 2017, SZEGED

Forgattyús mechanizmus modelljének. Adams. elkészítése, kinematikai vizsgálata,

MMK-Informatikai projekt ellenőr képzés 4

SZTAKI Felhő projekt. Ormos Pál MTA SZTAKI HBONE Workshop 2012

Utolsó módosítás:

Autóipari beágyazott rendszerek. Komponens és rendszer integráció

Hogyan lehet megakadályozni az üzleti modellezés és az IT implementáció szétválását? Oracle BPM Suite

Novell Nterprise Branch Office: a távoli iroda felügyeletének leegyszerűsítése

Alkalmazások teljesítmény problémáinak megszűntetése

Oracle Enterprise Manager 12c Cloud Control és 11g Grid Control összehasonlítás

Jelek és rendszerek Gyakorlat_02. A gyakorlat célja megismerkedni a MATLAB Simulink mőködésével, filozófiájával.

Autóipari szoftver-hardver Verifikáció, Validáció

Konszolidáció és költségcsökkentés a gyakorlatban. Az Országos Tisztifőorvosi Hivatal Oracle adatbázis konszolidációja

Mire jó az adatpumpa? Oracle Data Pump megoldás

Hálózati réteg. WSN topológia. Útvonalválasztás.

Félreértések elkerülése érdekében kérdezze meg rendszergazdáját, üzemeltetőjét!

Számítógép-rendszerek fontos jellemzői (Hardver és Szoftver):

Első lépések. File/New. A mentés helyét érdemes módosítani! Pl. Dokumentumok. Fájlnév: pl. Proba

DSD DSD. Egy országos méretű orvosi adatbázissal kapcsolatos informatikai kihívások. Kovács László Pataki Balázs Pataki Máté MTA SZTAKI DSD

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Szolgáltatás és Minőségfejlesztés a Corvinus Egyetemen Kiss György János Mogyorósi János

HAWK-3. Az OMSZ saját fejlesztésű időjárási megjelenítő rendszere

Dr. habil. Maróti György

A virtualizáció a modern vállalati informatikai infrastruktúra alapja

Hálózati rendszerek adminisztrációja JunOS OS alapokon

Fogalomtár Etikus hackelés tárgyban Azonosító: S2_Fogalomtar_v1 Silent Signal Kft. Web:

A hibrid DB cloud biztonsági eszköztára. Kóródi Ferenc Budapest,

Teljesítménymodellezés

Átírás:

Department of Distributed Systems A KOPI Plágiumkeresı dinamikus skálázási kísérletei Micsik András

Bevezetés DSD = vagyis: Elosztott Rendszerek Osztály szotar.sztaki.hu kopi.sztaki.hu lod.sztaki.hu radio.sztaki.hu szavazas.sztaki.hu kopi.sztaki.hu 2

Terjedıben a plagizálás 3

A KOPI Plágiumkeresı A kopi.sztaki.hu portál 2004-ben indult egynyelvő plágium keresési szolgáltatással (magyar és angol nyelveken) 2009: 10.000 regisztrált felhasználó 2011-ben a világon elsıként bemutattuk a fordítási plágiumkeresıt Ez képes detektálni, ha valaki például az angol Wikipedia-ból lefordított bekezdéseket használ fel Az új algoritmus számítási igénye nagyságrendekkel nagyobb, mint az egynyelvő plágiumkeresésé 2013: 25.000 regisztrált felhasználó 4

A KOPI Portál 5

Használat 1. 2. 3. 6

Eredmények 7

A plágiumkeresés folyamata A plágiumkeresés folyamata A felhasználó feltölti a dokumentumot A KOPI Motor új feladatot kér a Portáltól A KOPI Motor feldolgozza a dokumentumot Eközben teljes szöveges kéréseket ad ki a Keresımotornak A KOPI Motor összeállítja az eredményt és visszaküldi a Portálnak A felhasználó értesítést kap, hogy az eredmény elkészült. Az eredmény egy listát tartalmaz az esetlegesen másolt részekrıl és a plágium valószínőségérıl 2. Új dokumentum kérése KOPI Portál Feldolg. sor KOPI Motor Keresőmotor Dokumentum index 1. A felhasználó feltölti a dokumentumot 4. Eredménykészítés 3. Teljes szöveges keresések 8

A kísérletrıl A cél: stabil szolgáltatásminıség fenntartása Egy dokumentum ellenırzése igen változó, nagyban függ a mérettıl, tipikusan 10-50 perc Amikor túl sok dokumentum érkezik be, ez akár több napra is nıhet A kísérlet során Modellezzük a tipikus felhasználói tevékenységet Különféle skálázási módszereket mérünk heterogén felhı-szövetségekben 9

Skálázás 10

A skálázás módjai Vertical scaling Scaling up Horizontal scaling Scaling out 11

Skálázási lehetıségeink KOPI Portál Feldolg. sor KOPI motor NLP Eszközök MySQL KOPI motor NLP Eszközök MySQL 1-75 Aggregátor Aggregátor Keresımotor Keresımotor Keresımotor Keresımotor 1-7 Dokumentum index partíció Dokumentum index partíció Dokumentum index partíció Dokumentum index partíció 12

Kísérleti architektúra 13

BonFIRE: elosztott felhı tesztkörnyezet 14

A KOPFire kísérlet Mérések Skálázó algoritmus Skálázási mőveletek BonFIRE API parancsok 15

BonFIRE lehetıségek VM típusok (lite, small, large, stb. + egyedi) Adatblokkok OS vagy DATA, perzisztens, shared, stb. Több blokk is kapcsolható egy VM-hez Hálózat VM-ek elérhetık: SSH gateway, VPN Speciális lehetıségek: AutoBahn, Virtual Wall, háttérforgalom generálás, stb. Monitorozás Elasticity as a Service Értesítések (RabbitMQ) 16

A BonFIRE felhasználói portál 17

Monitorozás Egységes monitorozási lehetıség Zabbix-szal Fizikai gépek Virtuális gépek ECO metrics Saját mérések 18

BonFIRE API REST API Experiment descriptor: JSON vagy OCCI <compute xmlns="http://api.bonfireproject.eu/doc/schemas/occi"> <name>my-vm</name> <instance_type>lite</instance_type> <disk> <storage href="/locations/fr-inria/storages/165" /></disk> <nic> <network href="/locations/frinria/networks/47" /> </nic> <location href="/locations/fr-inria" /> </compute> Restfully (Ruby) experiment.computes.submit( :name => "VM#{experiment['id']}", :instancetype => "small", :disk => [{ :storage => inria.storages.find{ s s['name'] == SERVER_IMAGE_NAME}, :type => "OS" }], :location => inria ) CLI (parancssor) bfcompute create vm0' '/locations/de-hlrs/storages/2088' 23617 19

Yours Restfully... VM létrehozás vm = experiment.computes.submit(...) Szoftver futtatás vm.waitforstate( RUNNING ) vm.ssh do. Megfigyelés values = experiment.zabbix.metric('system.cpu.util[,system,a vg1]', :type => :numeric, :hosts => vm).values Leállítás vm.update(:status => STOPPED ) vm.delete 20

KOPFire rendszerelemek VM típusok (3 felhıben): (Experiment controller) KOPI Frontend KOPI Engine Fulltext Aggregator Fulltext Engine Adatpartíciók: Kis index: 5 x 2.5 GB blocks Nagy index: 11 x 7.2 GB blocks 3 felhıben közvetlenül 4. felhıbıl NFS-en keresztül 21

Mit mérjünk? Density 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0 200 400 600 800 cps Kell egy metrika a feldolgozási sebesség mérésére: cps (characters per second) Fontos még: Sorban várakozó fájlok és karakterek száma Feldolgozó egységek száma 22

Sokféle cps metrika t1 t2 A dokumentum a sorban A dokumentum feldolgozása t4 t3 cps feldolgozott karakterek / utolsó n perc = pillanatnyi feldolgozási sebesség pcps (processing cps) dokumentum mérete / (t3 t2) qcps (queue cps) dokumentum mérete / (t4 t1) = a felhasználó által érzékelt sebesség 23

Méretezés Mi a rendszerkomponensek optimális aránya? KOPI Engine VM process-ek Fulltext Cluster thread-ek 24

Teljesítménynövekedés 25

NFS a felhık között? 26

Skálázási lehetıségek Különbözı skálázási algoritmusokat próbáltunk ki A sorban várakozó dokumentumok száma alapján Kapzsi Takarékos Óvatos Feldolgozási sebesség alapján Stb. Tempomat: Adott sebességet közelítı 27

Skálázási módszerek greedy step number 0 1 2 3 4 5 6 queue size kopi engines number 0 1 2 3 4 5 6 queue size kopi engines 0 5 10 15 20 25 time 0 5 10 15 20 25 30 time speed thrifty number 0 1 2 3 4 5 6 queue size kopi engines 0 5 10 15 20 25 number 0 1 2 3 4 5 6 queue size kopi engines 0 10 20 30 40 50 60 70 time time 28

Hibatőrés A skálázás során idınként amúgy is rá kell nézni az infrastruktúrára......ilyenkor szoftver és hardver hibákat is ki lehet küszöbölni......mivel a komponensek már virtuális gépekben futnak 29

Szimuláció Pár órás tesztek nem elegendıek Hogyan lehetne több havi futáson vizsgálni a skálázódást? -> Szimuláció! Az alapadatok ismertek, pl. VM-ek indításához, leállításához szükséges idı Adott VM válaszidejének átlaga, eloszlása 30

Szimulációk értékelése Mit kell nézni egy hónapos futás esetén? Legrosszabb feldolgozási esetek Átlagos feldolgozási idı A feldolgozási idı szórása A becsült költségek 31

2012 januári forgalom szimulációja 180 160 140 120 100 80 60 worst speed avg speed speed sd cost (hours) 40 20 0 speed 100 speed 130 speed 80 fix 1 fix 2 greedy thrifty stepper Költségszámítás megkezdett órák alapján 32

2012 júniusi forgalom szimulációja 250 200 150 100 worst speed avg speed speed sd cost 50 0 speed 100 speed 130 speed 80 fix 1 fix 2 greedy thrifty stepper Költségszámítás megkezdett órák alapján 33

Két módszer összehasonlítása greedy 180 160 140 120 100 80 60 40 20 0 1 2 3 4 5 6 7 8 month worst speed avg speed cost stepper 200 180 160 140 120 100 80 60 40 20 0 1 2 3 4 5 6 7 8 month worst speed avg speed cost 34

Végsı összehasonlítás 200 180 160 140 120 worst speed 100 avg speed 80 cost 60 40 20 0 fix 1 fix 2 speed 80 speed 100 speed 130 stepper greedy thrifty A megjelenített értékek 8 hónap átlagai 35

Összefoglalás Terhelési problémák tesztelésére jó lehetıség egy cloud testbed A skálázás nem csak gyorsít, de más elınyökkel is jár, pl. hibatőrés A BonFIRE testbed Elérhetı lesz legalább 2014 ıszéig Nyílt hozzáférés 1 napon belül 36

www.bonfire-project.eu kopi.sztaki.hu Köszönöm a figyelmet! micsik@sztaki.hu 37