Blocking-Verfahren

Draisbach, Uwe

doi:10.1007/978-3-8348-8289-9_3

Uwe Draisbach²

966 Accesses

Zusammenfassung

In Kapitel 2.3 wurde die Notwendigkeit der Reduzierung des Suchraums bei der Duplikaterkennung bereits angesprochen. Die Datensätze sind daher in Partitionen zu zerlegen und der Vergleich ist auf diese Partitionen beschränkt. Durch die Partitionierung sinkt der Recall, da Duplikate in unterschiedliche Partitionen fallen können und somit nicht mehr als Duplikate erkannt werden. Gleichzeitig steigt jedoch die Effizienz, da viele unnötige Vergleiche von Nicht-Duplikaten entfallen. Wie die Zerlegung in Partitionen erfolgt, ist abhängig von der Partitionierungsstrategie, die einen großen Einfluss auf das Ergebnis der Duplikaterkennung hat. In diesem Kapitel wird das Blocking vorgestellt. Kapitel 4 beschreibt anschließend die Sorted-Neighborhood-Methode.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 69.99; Price excludes VAT (USA)

Softcover Book: USD 69.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Author information

Authors and Affiliations

Potsdam, Deutschland
Uwe Draisbach

Authors

Uwe Draisbach
View author publications
You can also search for this author in PubMed Google Scholar

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Draisbach, U. (2012). Blocking-Verfahren. In: Partitionierung zur effizienten Duplikaterkennung in relationalen Daten. Vieweg+Teubner Verlag. https://doi.org/10.1007/978-3-8348-8289-9_3

Download citation

DOI: https://doi.org/10.1007/978-3-8348-8289-9_3
Publisher Name: Vieweg+Teubner Verlag
Print ISBN: 978-3-8348-1772-3
Online ISBN: 978-3-8348-8289-9
eBook Packages: Computer Science and Engineering (German Language)

Publish with us

Policies and ethics