k () 1 / 23
Defnícó UBE = Unsolcted Bulk Emal (kéretlen és tömeges levél) legtöbbször: kéretlen levél ( unwanted emal ) Változata: k Chat spam és SPIM Emal spam klasszkus; általában ezt értjük alatta Fórum spam Hírcsoport spam On-lne játék spam Spamdexng stb. () 2 / 23
Néhány statsztka Spam/ham arányok k Spamtípusok Legnagyobb spamküldő országok () 3 / 23
szűrők osztályozása Szűrés típusa szernt származás alapú szűrés hálózat forgalom alapú szűrés tartalom alapú szűrés k Szűrés helye szernt routerek szntjén történő szűrés levelezőszerver szntjén történő szűrés felhasználó oldalon történő szűrés () 4 / 23
MontySpam-780577 (519x308x16M jpeg) k Monty Python Flyng Crcus: Spam (1970) Spam sketch; Spam song kb. 132-szer fordul elő benne a spam kfejezés MUD (MultUser Dungeon) típusú játékokból (szöveges akcójáték; szerepjáték + hack and slash + chat szobák) a MUD szerver vagy játékosok gépének túlterhelése sok szöveg elküldése által löncshúsnak (konzervhús) a ventllátorba dobása által erdményezett felfordulás (kellemetlen érzés/szag/stb.) eléggé elborult... :) () 5 / 23
jelentése löncshús/konzervhús Hormel Foods Corporaton, Austn, Mnnesota, USA (= Spam Town) a név megjelenése: 1937. júlus 5; előtte Hormel Spced Ham -nek hívták ugyanazt a konzervet ezt 1930-ban vezették be (a II. vlágháborúban terjedt el gazán) egy másk lehetséges eredet: Shoulder of Pork and Ham, Spced Pork And Ham vcces k (backronyms): Somethng Posng As Meat, Specal Purpose Army Meat k () 6 / 23
szerző: Gary Thuerk, DEC (Dgtal Equpment Corporaton) téma: a DEC-20 manframe (nagygép) megjelenése, meghívó a termékbemutatóra kb. 320 személy kapta meg (Arpanet hálózat) eredmény: nagy felháborodás ez s jócskán leterhelte a hálózatot (max. sávszélesség 56 Kbps) k () 7 / 23
k Mal-from: DEC-MARLBORO rcvd at 3-May-78 0955-PDT Date: 1 May 1978 1233-EDT From: THUERK at DEC-MARLBORO Subject: ADRIAN@SRI-KL DIGITAL WILL BE GIVING A PRODUCT PRESENTATION OF THE NEWEST MEMBERS OF THE DECSYSTEM-20 FAMILY; THE DECSYSTEM-2020, 2020T, 2060, AND 2060T. THE DECSYSTEM-20 FAMILY OF COMPUTERS HAS EVOLVED FROM THE TENEX OPERATING SYSTEM AND THE DECSYSTEM-10 <PDP-10> COMPUTER ARCHITECTURE. BOTH THE DECSYSTEM-2060T AND 2020T OFFER FULL ARPANET SUPPORT UNDER THE TOPS-20 OPERATING SYSTEM. THE DECSYSTEM-2060 IS AN UPWARD EXTENSION OF THE CURRENT DECSYSTEM 2040 AND 2050 FAMILY. THE DECSYSTEM-2020 IS A NEW LOW END MEMBER OF THE DECSYSTEM- 20 FAMILY AND FULLY SOFTWARE COMPATIBLE WITH ALL OF THE OTHER DECSYSTEM-20 MODELS. WE INVITE YOU TO COME SEE THE 2020 AND HEAR ABOUT THE DECSYSTEM-20 FAMILY AT THE TWO PRODUCT PRESENTATIONS WE WILL BE GIVING IN CALIFORNIA THIS MONTH. THE LOCATIONS WILL BE: TUESDAY, MAY 9, 1978-2 PM HYATT HOUSE (NEAR THE L.A. AIRPORT) LOS ANGELES, CA THURSDAY, MAY 11, 1978-2 PM DUNFEY'S ROYAL COACH () 7 / 23
SAN MATEO, CA (4 MILES SOUTH OF S.F. AIRPORT AT BAYSHORE, RT 101 AND RT 92) A 2020 WILL BE THERE FOR YOU TO VIEW. ALSO TERMINALS ON-LINE TO OTHER DECSYSTEM-20 SYSTEMS THROUGH THE ARPANET. IF YOU ARE UNABLE TO ATTEND, PLEASE FEEL FREE TO CONTACT THE NEAREST DEC OFFICE FOR MORE INFORMATION ABOUT THE EXCITING DECSYSTEM-20 FAMILY k () 8 / 23
Lánclevelek első: 1982. február küldd tovább és nagy szerencse ér[, ha nem küldöd, akkor szerencsétlenség] típusú levelek Jay-Jay s College Fund 1988 kunyeráló levél ; 1 dollár adakozás a tanulmányok befejezéséhez egy megadott számlaszámra/alapba k Jézus-spam 1994 Jesus s comng típusú vallásos vlágvége -levél Canter & Segel 1994 első kereskedelm célú spam zöldkártya sorsjáték (Green Card Lottery) nem volt kfejezetten kereskedelm célú, csak annak beharangozója... () 8 / 23
dokumentumok (levelek): D = {d1,..., dn } osztályok (címkék): C = {spam, ham} k Feladat feladat: b f : D C {T, F }, am legjobban megközelít az (smeretlen) f függvényt; f tanulás példák által adott: D = {(d, c ) d D, c C, = 1, 2,..., N } spamham (1200x287x16M jpeg) () 9 / 23
Kértékelés Kontngenca-táblázat. osztály Megjósolt hozzátartozás Valód hozzátartozás IGAZ HAMIS IP HN IGAZ HAMIS HP IN HP +HN Err = IP +HP +HN +IN IP +IN pontosság (accuracy): Acc = IP +HP +HN +IN precson: P = IP IP +HP IP recall: R = IP + HN P/R kegyenlítés pont (breakeven pont): P R F -mérték k hba (error): ROC-görbe, ROC-AUC stb. () 10 / 23
csak szövegek (képek más kategóra: OCR, stb.) meg kellene értenünk a szöveget (?) (szntaktka és szemantka nem szétválasztható) példák: PL1: John saw the man n the park wth the telescope. PL2: I saw the Statue of Lberty flyng over New York. PL3: Vstng aunts can be a nusance. PL4: James whle John had had had had had had had had had had had a better effect on the teacher. (James, whle John had had "had", had had "had had"; "had had" had had a better effect on the teacher.) PL5: Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo. ([Those] Buffalo buffalo [whom] Buffalo buffalo buffalo, buffalo Buffalo buffalo.) PL6: We saw her duck. k () 11 / 23
Kezdetleges spamszűrő k (Prmtve Language Analyss, PLA) működése: (a) smert spamküldők ellenőrzése; (b) adott szavak/kfejezések ellenőrzése a subject-ben és a szövegtestben, pl. Call now!, Free tral!, stb. előny: egyszerű mplementáln; hátrány: túl sok hams poztív... kézzel alkotott szabályok szernt szűrés Pl. [(try subj) (new subj)] [(free body) (vagra body)] spam (try body) (now body) ( pos (try) pos (now) 5) spam () 12 / 23
ha egy smeretlentől kapunk levelet, megkérjük, hogy azonosítsa magát Pl. Subject: Re: H There! Greetngs, You just sent an emal to my spam-free emal servce. Because ths s the frst tme you have sent to ths emal account, please confrm yourself so you ll be recognzed when you send to me n the future. It s easy. To prove your message comes from a human and not a computer, clck on the lnk below: http://[some Web Lnk] Attached s your orgnal message that s n my pendng folder, watng for your quck authentcaton. k () 13 / 23
hálózat védelem korlátozza az ugyanazon hálózatról érkező adatok (levelek) mennységét le tudja terheln a spam küldőjét, mvel mndg vsszaküld nek, hogy küldje újra k azonos spamszűrőt használó felhasználók között automatkus együttműködés ha valak új spamet kap, megosztja a többvel az abból nyert nformácót () 14 / 23
tartalom alapú, a felhasználó oldalon szövegkategorzáláson (Text Categorzaton, TC) alapuló szűrés egyszerűsített feladat: csak 2 osztály van (spam, ham) szükséges egy reprezentácó + egy tanuló algortmus 2 lépés: feature-ök kválasztása + tanulás A bag-of-words reprezentácós modell vektortér-modell; dmenzók = szavak (termek, feature-ök) száma Pl.: szavak = {musc, sport, scence} d = (3, 0, 1) sport k scence musc () 15 / 23
normalzálás: kd k = 1 d = d /kd k dokumentumok összehasonlítása lneárs modellekben: sm(d 1, d 2 ) = cos(d 1, d 2 ) = d 10 d 2 k [szótövesítés (stemmng) bzonyos esetekben hasznosnak bzonyul] () 16 / 23
Feature-kválasztás sokféle lehetőség, megközelítés legöbbet használt módszerek: szűrők; pl. DFT, DIA, IG, MI, χ 2,... legegyszerűbb módszer: DFT (Document Frequency Thresholdng) termek növekvő sorrendbe való rendezése a dokumentumokban való megjelenés szám szernt vágjuk a lsta két végét k [sokszor használjuk: stop-szavak kszűrése] Tanulás egy gyors és jó tanuló algortmus legtöbbet használt: nav Bayes, knn, SVM, LLSF,... () 17 / 23
felépítése Korpusz (tanulás adatok) Tokenzáló Új emal k Preprocesszor Feature ök kválasztása Teszt (döntés / szűrés) Tanulás () 18 / 23
poszteror valószínűségek kszámítása Bayes-képlet: p(d c ) p(c ) p(c d ) = p (d ) vagy p(d c ) p(c ) p(c d ) = PK =1 p (d c ) p (c ) navtás : feltételezzük, hogy a szavak függetlenek egymástól (a kategórákra nézve): k p(d c ) = W Y j j =1 p(c d ) p(c ) p(tj c )freq(d,t ) W Y p(tj c )freq(d,t ) j j =1 ahonnan () 19 / 23
c (d ) = argmax log p (c ) + {1,2,...,K } W X log p (tj c )freq(d,t ) j j =1 becslések: k c p(c ) = ; N freq (c, tj ) p(tj c ) = Pn j =1 freq (c, tj ) sok esetben, az adatok rtkasága matt p (tj c ) = 0 probléma: megoldás: smítás W X freq (c, tj ) + aj, a =a freq (c, t1,2,...,n ) + a j =1 j freq (c, tj ) + 1 pl (tj c ) = freq (c, t1,2,...,n ) + W p(tj c ) = () 20 / 23
Példa P (spam d ) madam 0.99 promoton 0.99 republc 0.99 shortest 0.047225013 mandatory 0.047225013 standardzaton 0.07347802 sorry 0.08221981 supported 0.09019077 people s 0.09019077 enter 0.9075001 qualty 0.8921298 organzaton 0.12454646 nvestment 0.8568143 very 0.14758544 valuable 0.82347786 k () 21 / 23
Támadások tokenzálás támadás (tokenzaton attack) összezavarás (obfuscaton) k gyenge statsztka támadás (weak statstcal attack) erős statsztka támadás (strong statstcal attack) () 22 / 23
Köszönöm a fgyelmet! k () 23 / 23