Zusammenfassung
In Kapitel 2.3 wurde die Notwendigkeit der Reduzierung des Suchraums bei der Duplikaterkennung bereits angesprochen. Die Datensätze sind daher in Partitionen zu zerlegen und der Vergleich ist auf diese Partitionen beschränkt. Durch die Partitionierung sinkt der Recall, da Duplikate in unterschiedliche Partitionen fallen können und somit nicht mehr als Duplikate erkannt werden. Gleichzeitig steigt jedoch die Effizienz, da viele unnötige Vergleiche von Nicht-Duplikaten entfallen. Wie die Zerlegung in Partitionen erfolgt, ist abhängig von der Partitionierungsstrategie, die einen großen Einfluss auf das Ergebnis der Duplikaterkennung hat. In diesem Kapitel wird das Blocking vorgestellt. Kapitel 4 beschreibt anschließend die Sorted-Neighborhood-Methode.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Author information
Authors and Affiliations
Rights and permissions
Copyright information
© 2012 Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden
About this chapter
Cite this chapter
Draisbach, U. (2012). Blocking-Verfahren. In: Partitionierung zur effizienten Duplikaterkennung in relationalen Daten. Vieweg+Teubner Verlag. https://doi.org/10.1007/978-3-8348-8289-9_3
Download citation
DOI: https://doi.org/10.1007/978-3-8348-8289-9_3
Publisher Name: Vieweg+Teubner Verlag
Print ISBN: 978-3-8348-1772-3
Online ISBN: 978-3-8348-8289-9
eBook Packages: Computer Science and Engineering (German Language)