}w!"#$%&'()+,-./012345<ya

Hasonló dokumentumok
Statisztikai alap (2006) - main

Statisztikai alap kia.hu (2006)

Using the CW-Net in a user defined IP network

discosnp demo - Peterlongo Pierre 1 DISCOSNP++: Live demo

USER MANUAL Guest user

Statisztikai alap kia.hu (2005)

Mapping Sequencing Reads to a Reference Genome

Az Országos Széchényi Könyvtár

Statisztikai alap kia.hu (2009) - main

Cluster Analysis. Potyó László

Statisztikai alap (2009) - main

Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások

On The Number Of Slim Semimodular Lattices

Mangalica: The VM-MOE Treaty. Olmos és Tóth Kft. Monte Nevado

Minden az adatról. Csima Judit február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41

EN United in diversity EN A8-0206/419. Amendment

FAMILY STRUCTURES THROUGH THE LIFE CYCLE

Sorted on Best Lap time. Supermotorad Open Tour MCR , Vyskov (CZ) S2 +MX. 0,000 Km. Qualifying :15

Trinucleotide Repeat Diseases: CRISPR Cas9 PacBio no PCR Sequencing MFMER slide-1

Correlation & Linear Regression in SPSS


ELEKTRONIKAI ALAPISMERETEK ANGOL NYELVEN

Affinium LED string lp w6300 P10

Create & validate a signature

Performance Modeling of Intelligent Car Parking Systems

Információ-visszakeresı módszerek egységes keretrendszere és alkalmazásai. Kiezer Tamás

Out-Look. Display. Analog Bar. Testing Mode. Main Parameter. Battery Indicator. Second Parameter. Testing Frequency

Excel vagy Given-When-Then? Vagy mindkettő?

KIEGÉSZÍTŽ FELADATOK. Készlet Bud. Kap. Pápa Sopr. Veszp. Kecsk Pécs Szomb Igény

i1400 Image Processing Guide A-61623_zh-tw

BKI13ATEX0030/1 EK-Típus Vizsgálati Tanúsítvány/ EC-Type Examination Certificate 1. kiegészítés / Amendment 1 MSZ EN :2014

Riak. Pronounced REE-ahk. Elosztott adattároló eszköz. Molnár Péter

Supplementary materials to: Whole-mount single molecule FISH method for zebrafish embryo

ELEKTRONIKAI ALAPISMERETEK ANGOL NYELVEN

Statisztikai alap (2008) - main

NÉMETH MÁRTON Networkshop 2014 Pécs. Discovery alapú katalógus szoftvereszközök tudományos könyvtári környezetben

AZ ERDÕ NÖVEKEDÉSÉNEK VIZSGÁLATA TÉRINFORMATIKAI ÉS FOTOGRAMMETRIAI MÓDSZEREKKEL KARSZTOS MINTATERÜLETEN

A modern e-learning lehetőségei a tűzoltók oktatásának fejlesztésében. Dicse Jenő üzletfejlesztési igazgató

FÖLDRAJZ ANGOL NYELVEN

Website review acci.hu

Utolsó módosítás:

Website review mozogjotthon.com

Széchenyi István Egyetem

Best Practices for TrusBest Practices for Trusted Digital Repositories in HOPE. ted Digital Repositories in HOPE.

Eladni könnyedén? Oracle Sales Cloud. Horváth Tünde Principal Sales Consultant március 23.

ELEKTRONIKAI ALAPISMERETEK ANGOL NYELVEN

Gottsegen National Institute of Cardiology. Prof. A. JÁNOSI

Bird species status and trends reporting format for the period (Annex 2)

Road construction works

Csatlakozás a BME eduroam hálózatához Setting up the BUTE eduroam network

PUBLIKÁCIÓS ÉS ALKOTÁSI TEVÉKENYSÉG ÉRTÉKELÉSE, IDÉZETTSÉG Oktatói, kutatói munkakörök betöltéséhez, magasabb fokozatba történı kinevezéshez.

EEA, Eionet and Country visits. Bernt Röndell - SES

Dr. Sasvári Péter Egyetemi docens

Információs Rendszerek Szakirány

Áprilisban 14%-kal nőtt a szálláshelyek vendégforgalma Kereskedelmi szálláshelyek forgalma, április

Nemzeti szintű egészségbiztosítási adatvagyon big data elemzési lehetőségei

1. A TERMÉK ÉS A VÁLLALKOZÁS AZONOSÍTÁSA

DANS és Narcis. Burmeister Erzsébet. HUNOR találkozó, Budapest március 13.

Publikációs lista. Gódor Győző július 14. Cikk szerkesztett könyvben Külföldön megjelent idegen nyelvű folyóiratcikk...

Construction of a cube given with its centre and a sideline

Adatbázis-kezelés ODBC driverrel

Effect of the different parameters to the surface roughness in freeform surface milling

Kezdőlap > Termékek > Szabályozó rendszerek > EASYLAB és TCU-LON-II szabályozó rendszer LABCONTROL > Érzékelő rendszerek > Típus DS-TRD-01

Teljes publikációs lista. Dr. Csiha Csilla egyetemi docens

Phenotype. Genotype. It is like any other experiment! What is a bioinformatics experiment? Remember the Goal. Infectious Disease Paradigm

Supporting Information

9el[hW][e\L;BI IjWdZWhZi

Földtani térképek kartografálásának segítése térinformatikai módszerekkel

A logaritmikus legkisebb négyzetek módszerének karakterizációi

Job search services. Info. Buyer. Description. Publish date 3/2/2013 4:12 AM. Version 1. Url

Társasjáték az Instant Tanulókártya csomagokhoz

Költségcsökkentés a Production Imaging and Capture alkalmazással

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

XSLT XML. DEIM Forum 2013 B2-1 XML XML XML XML XSLT XSLT XSLT XML XSLT XSLT

SZET GYAK1: Követelmények ellenőrzése


Baranyáné Dr. Ganzler Katalin Osztályvezető

Social services. Info. Buyer. Version changes Contract award. Description. Version 3. Publish date 11/13/2013 4:25 AM

Precision meets Motion..Termékportfólió. Statikus- és meghajtott szerszámtartók CNC esztergagépekhez Static and driven tool systems for CNC-lathes

Publish date 2/9/2013 4:11 AM. Change date 2/9/2013 4:11 AM

Health services. Info. Buyer. Description. Publish date 1/24/2014 4:28 AM. Version 1. Url

KÖZPONTI STATISZTIKAI HIVATAL HUNGARIAN CENTRAL STATISTICAL OFFICE A KÖZOKTATÁS TERÜLETI ADATAI REGIONAL DATA OF EDUCATION

Engineering services. Info. Buyer. Version changes Contract award. Description. Version 3. Publish date 10/22/2013 4:26 AM

Képrekonstrukció 2. előadás

FATERMÉSI FOK MEGHATÁROZÁSA AZ EGÉSZÁLLOMÁNY ÁTLAGNÖVEDÉKE ALAPJÁN

First experiences with Gd fuel assemblies in. Tamás Parkó, Botond Beliczai AER Symposium

Oracle Big Data koncepció. Stadler Gellért Vezető tanácsadó Oracle ConsulKng HTE 2015 Konferencia

Mikroszkopikus közlekedési szimulátor fejlesztése és validálása (Development and validating an urban traffic microsimulation)

Text Insight Discovery: From NLP to NLG

Piackutatás, marketingelemzés, szegmentálás, megcélzás, pozicionálás

Publish date 1/7/2012 4:09 AM. Change date 1/7/2012 4:09 AM

Technical Report Series on Corpus Building

Statisztikai alap (2007) - main

Széchenyi István Egyetem Diplomamunka: A marketing lehetőségei a közúti közlekedésbiztonság javításában

: High Performance Diesel System Treatment

MIT IS MONDOTT? HOGY IS HÍVJÁK? ELIGAZODÁS A KÁRTEVŐK VILÁGÁBAN

Judas 1 1 Judas 6. Judas

Analitikai megoldások IBM Power és FlashSystem alapokon. Mosolygó Ferenc - Avnet

Hálózati és Szolgáltatási Architektúrák

Klaszterezés, 2. rész

Átírás:

Flexible Similarity Search of Seman c Vectors Using Fulltext Search Engines Michal Růžička, Vít Novotný, Petr Sojka; Jan Pomikálek, Radim Řehůřek Masaryk University, Faculty of Informa cs, Brno, Czech Republic mruzicka@mail.muni.cz, witiko@mail.muni.cz, sojka@fi.muni.cz; RaRe Technologies honza@rare-technologies.com, radim@rare-technologies.com https://mir.fi.muni.cz/ }w!"#$%&'()+,-./012345<ya https://rare-technologies.com/ Illustra ons by Jiří Franek.

Outline 1 Seman c Indexing and Searching 2 String Encoding of Seman c Vectors 3 Results

Outline 1 Seman c Indexing and Searching 2 String Encoding of Seman c Vectors 3 Results

Seman c Indexing Input Document document as a file (e-mail,, ),, DataReader (e.g. pdf2text) document as plain text Tokenizer (e.g. tokenizer) document as a segment list document as a token list Segment2Vec Seman cmodeler (e.g. T I, LSI, deep learning, doc2vec) segments in all documents Segmenter (e.g. paragraph / logical part [table, formula] segmenter) document as a list of points represen ng segments Index of Vectors

Seman c Searching query document as a file Query Document Indexing Pipeline with Nuggets query as seman c vectors doc doc nugget nugget nugget doc Document Nuggets Query Nuggets Similarity Search seman c vectors, Candidate Nuggets 3 1 Results as Sorted Nuggets 2 Ranker 3 1 Results as Sorted Documents 2

Re-Ranking Techniques 1 Fast: find candidate nuggets via Elas csearch. 2 Slow but precise: re-rank candidate nuggets with exact similarity metric. Cosine similarity. Euclidean similarity.

Re-Ranking Techniques 1 Fast: find candidate nuggets via Elas csearch. 2 Slow but precise: re-rank candidate nuggets with exact similarity metric. Cosine similarity. Euclidean similarity.

Outline 1 Seman c Indexing and Searching 2 String Encoding of Seman c Vectors 3 Results

String Encoding of Seman c Vectors Encoding of seman c vectors to strings (feature tokens): Seman c vector of three dimensions: [.,.,. ]

String Encoding of Seman c Vectors Encoding of seman c vectors to strings (feature tokens): Seman c vector of three dimensions: [.,.,. ] Rounding to two decimal places, string encoded: [.,.,. ]

String Encoding of Seman c Vectors Encoding of seman c vectors to strings (feature tokens): Seman c vector of three dimensions: [.,.,. ] Rounding to two decimal places, string encoded: [ 0.,.,. ]

String Encoding of Seman c Vectors Encoding of seman c vectors to strings (feature tokens): Seman c vector of three dimensions: [.,.,. ] Rounding to two decimal places, string encoded: [ 0., 1.,. ]

String Encoding of Seman c Vectors Encoding of seman c vectors to strings (feature tokens): Seman c vector of three dimensions: [.,.,. ] Rounding to two decimal places, string encoded: [ 0., 1., 2. ]

String Encoding of Seman c Vectors Encoding of seman c vectors to strings (feature tokens): Seman c vector of three dimensions: [.,.,. ] Rounding to two decimal places, string encoded: [ 0P2., 1., 2. ]

String Encoding of Seman c Vectors Encoding of seman c vectors to strings (feature tokens): Seman c vector of three dimensions: [.,.,. ] Rounding to two decimal places, string encoded: [ 0P2., 1P2., 2. ]

String Encoding of Seman c Vectors Encoding of seman c vectors to strings (feature tokens): Seman c vector of three dimensions: [.,.,. ] Rounding to two decimal places, string encoded: [ 0P2., 1P2., 2P2. ]

String Encoding of Seman c Vectors Encoding of seman c vectors to strings (feature tokens): Seman c vector of three dimensions: [.,.,. ] Rounding to two decimal places, string encoded: [ 0P2i0d12, 1P2., 2P2. ]

String Encoding of Seman c Vectors Encoding of seman c vectors to strings (feature tokens): Seman c vector of three dimensions: [.,.,. ] Rounding to two decimal places, string encoded: [ 0P2i0d12, 1P2ineg0d13, 2P2. ]

String Encoding of Seman c Vectors Encoding of seman c vectors to strings (feature tokens): Seman c vector of three dimensions: [.,.,. ] Rounding to two decimal places, string encoded: [ 0P2i0d12, 1P2ineg0d13, 2P2i0d07 ]

String Encoding of Seman c Vectors Encoding of seman c vectors to strings (feature tokens): Seman c vector of three dimensions: [.,.,. ] Rounding to two decimal places, string encoded: [ 0P2i0d12, 1P2ineg0d13, 2P2i0d07 ] Feature tokens: 0P2i0d12 1P2ineg0d13 2P2i0d07

High-Pass Filtering Speed Op miza on High-pass filtering: w = [0.12, 0.13, 0.065] trim Fixed threshold, for example 0.1: Keep only 0.12, 0.13 from w, as 0.065 < 0.1. best Fixed number of the best values is used, for example only the best one: Keep only 0.13 from w, as 0.13 is the highest absolute value in w.

High-Pass Filtering Speed Op miza on High-pass filtering: w = [0.12, 0.13, 0.065] trim Fixed threshold, for example 0.1: Keep only 0.12, 0.13 from w, as 0.065 < 0.1. best Fixed number of the best values is used, for example only the best one: Keep only 0.13 from w, as 0.13 is the highest absolute value in w. Speed op miza on of the search for candidate nuggets without significant impact on the quality.

Outline 1 Seman c Indexing and Searching 2 String Encoding of Seman c Vectors 3 Results

Datasets en-wiki The English Wikipedia dataset. LSA with 400 dimensions doc2vec with 400 dimensions. wiki-2014+gigaword-5 Pre-trained word vectors from Wikipedia and English Gigaword Fi h Edi on. GloVe with 50, 100, 200, and 300 dimensions. common-crawl Pre-trained word vectors from the Common Crawl project. GloVe with 300 dimensions. twi er Pre-trained word vectors from the Twi er social network. GloVe with 25, 50, 100, and 200 dimensions. texmex Image descriptors provided by the TEXMEX project. SIFT descriptors of images with 128 dimensions.

Comparison of Results Precision@10 0.8 0.6 0.4 0.2 # of best features used all 90 40 17 6 100 200 300 400 500 600 Page size English Wikipedia Cosine Similarity Precision@10 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 # of best features used all 90 40 17 6 100 200 300 400 500 600 Page size TEXMEX SIFT Descriptors Cosine Similarity Precision@10 0.6 0.5 0.4 0.3 0.2 0.1 0.0 # of best features used all 90 40 17 6 100 200 300 400 500 600 Page size TEXMEX SIFT Descriptors Euclidean Similarity

Comparison of Results 0.8 Precision@10 0.6 0.4 0.2 # of best features used all 90 40 17 6 100 200 300 400 500 600 Page size English Wikipedia Cosine Similarity

Comparison of Results 0.7 0.6 Precision@10 0.5 0.4 0.3 0.2 0.1 0.0 # of best features used all 90 40 17 6 100 200 300 400 500 600 Page size TEXMEX SIFT Descriptors Cosine Similarity

Comparison of Results 0.6 0.5 Precision@10 0.4 0.3 0.2 0.1 0.0 # of best features used all 90 40 17 6 100 200 300 400 500 600 Page size TEXMEX SIFT Descriptors Euclidean Similarity

Comparison of Results Precision@10 0.8 0.6 0.4 0.2 # of best features used all 90 40 17 6 100 200 300 400 500 600 Page size English Wikipedia Cosine Similarity Precision@10 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 # of best features used all 90 40 17 6 100 200 300 400 500 600 Page size TEXMEX SIFT Descriptors Cosine Similarity Precision@10 0.6 0.5 0.4 0.3 0.2 0.1 0.0 # of best features used all 90 40 17 6 100 200 300 400 500 600 Page size TEXMEX SIFT Descriptors Euclidean Similarity

Summary Flexible Different input data formats / tokenizers / segmenters / seman c models / re-ranking methods / fulltext search engines / Similarity Search Cosine / euclidean / similarity. of Seman c Vectors LSI / deep learning / doc2vec / using Fulltext Search Engines Sphinx, Lucene, Elas csearch, Solr,

Ques ons?

Illustra ons by Jiří Franek. RŮŽIČKA, Michal, Vít NOVOTNÝ, Petr SOJKA, Jan POMIKÁLEK and Radim ŘEHŮŘEK. Flexible Similarity Search of Seman c Vectors Using Fulltext Search Engines. In CEUR Workshop Proceedings, Vol. 1923. Vienna, Austria: Neuveden, 2017. p. 1 12, 12 pp. ISSN 1613-0073. https://usc-isi-i2.github.io/iswc17workshop/accepted-papers/hssues_2017_ paper_2.pdf RYGL, Jan, Jan POMIKÁLEK, Radim ŘEHŮŘEK, Michal RŮŽIČKA, Vít NOVOTNÝ and Petr SOJKA. Seman c Vector Encoding and Similarity Search Using Fulltext Search Engines. In Proceedings of the 2nd Workshop on Representa on Learning for NLP. Vancouver, Canada: Associa on for Computa onal Linguis cs, 2017. p. 81 90, 179 pp. ISBN 978-1-945626-62-3. DOI: https://doi.org/10.18653/v1/w17-2611 RYGL, Jan, Petr SOJKA, Michal RŮŽIČKA and Radim ŘEHŮŘEK. ScaleText: The Design of a Scalable, Adaptable and User-Friendly Document System for Similarity Searches : Digging for Nuggets of Wisdom in Text. In Aleš Horák, Pavel Rychlý, Adam Rambousek. Proceedings of the Tenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2016. Brno: Tribun EU, 2016. p. 79 87, 9 pp. ISBN 978-80-263-1095-2. https://nlp.fi.muni.cz/raslan/2016/paper08-rygl_sojka_etal.pdf