Important Announcement
PubHTML5 Scheduled Server Maintenance on (GMT) Sunday, June 26th, 2:00 am - 8:00 am.
PubHTML5 site will be inoperative during the times indicated!

Home Explore unstructured-data-analytics-paper

unstructured-data-analytics-paper

Published by l841039, 2017-03-03 06:32:44

Description: unstructured-data-analytics-paper

Search

Read the Text Version

Juni 2012Einführung in Big Data:Die Analyse unstrukturierter DatenEin Schnellkurs zum IT-Umfeld für Big Data und neuen TechnikenWarum sind Big Data und die Analyse unstrukturierter Daten derzeit in aller Munde?Sollten Sie sich ebenfalls Gedanken darüber machen? Diese Schnelleinführung in BigData beschäftigt sich damit, warum dieser Trend wichtig ist, welche Auswirkungener auf die IT hat, welche neuen Techniken für die Analyse unstrukturierter Daten zurVerfügung stehen und wie Intel Sie unterstützen kann.Warum sind Big Data so wichtigDie Menge der Daten wächst explosionsartig. Von den Anfängen der Unstrukturierte Daten haben eine heterogene und variable Beschaffen-Zivilisation bis 2003 produzierte die Menschheit 5 Exabyte an Infor- heit und liegen in unterschiedlichsten Formaten vor, etwa als Text, Doku-mationen. Heute benötigen wir hierfür gerade einmal zwei Tage!1 Bis mente, Bilder oder Videos. Und unstrukturierte Daten wachsen schneller2012 wird das digitale Universum auf 2,72 Zettabyte (ZB) anwachsen als strukturierte Daten. Einer IDC-Studie3 aus dem Jahr 2011 zufolge sollund seine Größe anschließend jedes zweite Jahr verdoppeln, um 2015 ihr Anteil an allen im nächsten Jahrzehnt produzierten Daten 90 Prozentbei 8 ZB anzulangen. Zum Vergleich: Diese Datenmenge entspricht dem ausmachen. Die Analyse unstrukturierter Daten, eine neue und weitge-Umfang von 18 Millionen US-Kongressbibliotheken.2 Milliarden vernetz- hend ungenutzte Informationsquelle, kann wichtige Zusammenhängeter Geräte – von PCs und Smartphones bis hin zu Sensorgeräten wie aufzeigen, die bislang nur schwer oder gar nicht zu ermitteln waren.RFID-Lesern und Verkehrsüberwachungskameras – produzieren eine Flutkomplex strukturierter und unstrukturierter Daten. Die Big-Data-Analyse ist eine auf technische Lösungen gestützte Strategie, mit der sich Einblicke – mit einem höheren Grad an Detailreich-Der Begriff „Big Data“ bezeichnet riesige Datensätze, die insbeson- tum, Tiefe und Präzision – in das Verhalten von Kunden, Partnern unddere durch drei Hauptkriterien charakterisiert sind: Ihre Menge ist (um Unternehmen und letztendlich Wettbewerbsvorteile erzielen lassen.Größenordnungen) umfangreicher, ihre Verschiedenheit und Komplexität Da Organisationen den ständig fließenden Datenstrom in Echtzeitgrößer und die Geschwindigkeit, mit der sie generiert werden, schneller verarbeiten, können sie schneller zeitkritische Entscheidungen treffen,als alles, was Ihr Unternehmen bislang gesehen hat. In Anlehnung an die neue Trends beobachten, prompt Kurskorrekturen durchführen und neueenglische Bezeichnung dieser drei Hauptkriterien spricht man bisweilen Geschäftschancen wahrnehmen.auch von den drei V (Volume, Variety, Velocity) der Big Data. Wir machen morgen möglich.™

Die Auswirkungen von Big Data auf die ITBig Data haben einen bahnbrechenden Charakter, der IT-Organisationen • Datenspeicher, der für das Erfassen und Speichern von Terabyte –sowohl große Chancen bietet, sie aber auch vor Herausforderungen oder sogar Petabyte – an Daten mittels intelligenter Funktionenstellt. Damit ein Unternehmen das Potenzial voll nutzen kann, erfordert ausreichend effizient und kosteneffektiv ist, um den Daten-Footprintdie Big-Data-Analyse einen neuen Ansatz bei der Erfassung, Speiche- zu reduzieren (etwa durch Datenkompression, automatisches Data-rung und Analyse von Daten. Tiering und Datendeduplizierung)Die drei V zeigen auf, worum es bei Big Data geht, bezeichnen aber auch • Netzwerkinfrastruktur, die große Datensätze schnell importieren unddie für die IT dringlichsten Themen: an verschiedenen Knoten zur weiteren Verarbeitung replizieren kann• „Volume“ (Menge): Das gewaltige Ausmaß und Wachstum unstruktu- • Sicherheitsfunktionen, die hochgradig verteilte Infrastrukturen und rierter Daten lässt sich mit herkömmlichem Datenspeicher und bislang Daten schützen genutzten Analysemethoden nicht bändigen. • Die entsprechenden Kompetenzen, um durch den Einsatz von sta-• „Variety“ (Verschiedenheit): Big Data werden aus neuen Quellen tistischen Methoden, Algorithmen, Datamining und Visualisierungen bezogen, die in der Vergangenheit nicht zur Informationsgewinnung Chancen aufzuzeigen angezapft wurden. Traditionelle Datenverwaltungsprozesse sind nicht auf den heterogenen und variablen Charakter von Big Data ausgelegt, Die Rolle des Datenwissenschaftlers gewinnt an die in unterschiedlichsten Formaten vorliegen, wie E-Mails, soziale Bedeutung Medien, Videos, Bilder, Blogs und Sensordaten, aber auch als „Schat- tendaten“, etwa durch den Zugriff auf Journale und Protokolle von Eine der größten Herausforderungen im Bereich der Big-Data-Analyse ist Internetsuchen. die Suche nach kompetenten Mitarbeitern. Erfolgreiche Initiativen rund um Big-Data-Analysen erfordern eine enge Zusammenarbeit zwischen• „Velocity“ (Geschwindigkeit): Die Daten werden in Echtzeit gene- der IT, geschäftlichen Anwendern und „Datenwissenschaftlern“, um die riert, wobei die Nachfrage nach nützlichen Informationen je nach für die Lösung betrieblicher Aufgabenstellungen richtigen Analyseme- Bedarf befriedigt wird. thoden zu ermitteln und zu implementieren. Die Datenwissenschaft ist ein neues Feld, und Datenwissenschaftler bilden eine Art neue Be-Das Zusammenspiel der drei Hauptkriterien bedingt ein viertes V: „Value“, rufsgruppe, die besondere Fähigkeiten benötigt. Datenwissenschaftleralso den Nutzen. Damit ein Unternehmen Big Data nutzbringend einsetzen befassen sich mit der Modellierung komplexer geschäftlicher Aufgaben-kann, muss es sich parallel mit den drei primären V (Volume, Variety und stellungen, ermöglichen betriebliche Einblicke und zeigen neue ChancenVelocity) beschäftigen. Partielle Aufmerksamkeit führt nicht zum Erfolg. auf. Es herrscht eine hohe Nachfrage nach Fachleuten, die in der Lage sind, aus dem gewaltigen Fluss an digitalen Informationen, die in Organi-Herausforderungen an die Infrastruktur sationen hineinströmen, sinnvolle Schlüsse zu ziehen.Neue Techniken, wie Hadoop* und MapReduce, sind speziell auf diedrei V der Big Data ausgerichtet. Sie stellen ebenfalls erhebliche An-forderungen an die Infrastruktur, die für die verteilte Verarbeitung vonAnalysen unstrukturierter Daten geeignet sein muss. Zu den Anforde-rungen zählen unter anderen:• Infrastruktur, die für die umfangreichen, verteilten und datenintensi- ven Prozesse, welche die Aufgabenstellung über Serverknotencluster verteilen, konzipiert ist

Neue Technik für Big-Data-AnalysenNeue technische Lösungen werden entwickelt, um Analysen unstruktu- Da immer mehr Unternehmen den Nutzen und die Vorteile erkennen, dierierter Daten bei überschaubaren Kosten durchführbar zu machen. Der sich mit Big Data erzielen lassen, gewinnt Hadoop an Popularität. Apacheneue Ansatz setzt bei der Verwaltung und Analyse der Daten auf eine hat seine erste vollständige Produktionsversion von Apache Hadoopveränderte Methode, die sich das Potenzial eines verteilten Netzes von 1.0 im Januar 2012 veröffentlicht. Weitere Informationen zur Implemen-Rechenressourcen zunutze macht. Die neue Methode verwendet eine tierung von Hadoop finden Sie im Intel® Cloud-Builders-Leitfaden zumeinfach skalierbare Shared-Nothing-Architektur, verteilte Verarbeitungs- Design und Aufbau von Clouds auf Intel® Plattformen: Apache* Hadoop*.frameworks und nicht relationale sowie parallele relationale Datenban-ken. Das Gesamtumfeld von HadoopDie Shared-Nothing-Architektur ist statusfrei: Die Knoten teilen keinen Kommerzielle Versionen von Hadoop erleben ebenfalls einen Aufwärts-Arbeits- oder Datenspeicher. Ermöglicht wird sie durch das Zusammen- trend. Das Hadoop-„Ökosystem“ umfasst ein komplexes Umfeld auswirken fortschrittlicher Hardware, Datenverwaltung und Techniken für Anbietern und Lösungen, zu denen sowohl etablierte Größen wie auchAnalyseanwendungen. einige Neulinge zählen. Zahlreiche Anbieter bringen eigene Hadoop- Distributionen auf den Markt und kombinieren hierfür das Grundpaket• Hardware-Architektur: Cluster aus gängigen Servern – zum Beispiel mit anderen Hadoop-Projekten, wie Hive*, Pig* und Chukwa*. Einige mit Intel® Xeon® Prozessoren – liefern die für die hochgradig parallele dieser Distributionen lassen sich mit Data-Warehouses, Datenbanken Verarbeitung in einem verteilten Netz benötigte Rechenleistung und und anderen Datenverwaltungsprodukten integrieren und gestatten Geschwindigkeit. dadurch der Analyse-Engine die Abfrage von Daten aus mehreren Quellen.• Architektur von Analyseanwendungen: Neue Datenverarbeitungs- Hadoop-Infrastruktur: Big Data – systeme bringen das Rechnernetz zum Funktionieren, indem sie die Datenspeicher und Vernetzung Daten verwalten und an einzelne Knoten weiterleiten, vernetzte Server anweisen, parallel zu arbeiten, einzelne Resultate sammeln und Hadoop-Cluster werden durch deutliche Verbesserungen bei Rechen- anschließend zusammenfügen, um daraus sinnvolle Gesamtergebnisse und Datenspeicherressourcen im Mainstream-Segment ermöglicht und abzuleiten. Die Daten lassen sich an ihrem aktuellen Ort schneller und durch 10-Gigabit-Ethernet(10GbE)-Lösungen ergänzt. Die größere effizienter verarbeiten, als wenn sie zuerst zu einem zentralen System Bandbreite, die mit 10GbE einhergeht, ist für den Import und die Repli- transportiert würden. zierung der großen Datensätze zwischen Servern von entscheidender Bedeutung. Intel® Ethernet-10-Gigabit-Converged-Network-Adapter• Datenarchitektur: Angesichts der Verschiedenartigkeit und Komp- bieten durchsatzstarke Verbindungen und Intel® SATA-Solid-State- lexität unstrukturierter Daten findet bei Datenbanken ein Wandel vom Laufwerke sind leistungsstarke, durchsatzstarke Speichermedien relationalen zum nicht relationalen Modell statt. Im Unterschied zur für Rohdaten. Um die Effizienz zu verbessern, muss Datenspeicher geordneten Welt relationaler Datenbanken, die strukturiert, norma- Unterstützung für moderne Funktionen – wie Kompression, Verschlüs- lisiert und dicht besetzt sind, sind nicht relationale Datenbanken selung, automatisches Data-Tierung, Datendeduplizierung, Erasure- skalierbar, netzwerkorientiert, teilweise strukturiert und dünn besetzt. Coding und Thin-Provisioning – bieten, die heute von Intel® Xeon® NoSQL-Datenbanklösungen benötigen keine festgelegten Tabellen- E5-Prozessoren unterstützt werden. schemata, vermeiden Join-Operationen und skalieren horizontal.Verteilte Frameworks: Apache* Hadoop* gewinnt an Big Data und die CloudBedeutung Als Folge des Cloud-Computing haben Organisationen heute Zugang zu umfangreichen Netzen aus Standardrechnern – sowohl innerhalbApache* Hadoop entwickelt sich zum neuen Ansatz der Wahl für die ihrer aus vernetzten Servern bestehenden Rechenzentren wie auchAnalyse unstrukturierter Daten. Hadoop ist ein Open-Source-Framework, über Public-Cloud-Infrastrukturdienste, etwa Amazon* Web Services.das ein einfaches Programmiermodell einsetzt, um die verteilte Verar- Im Zeitalter von Big Data bietet die Cloud ein potenzielles Selbstbedie-beitung umfangreicher Datensätze auf Computer-Clustern zu ermög- nungsmodell für Datenanalysen. Sowohl Cloud-Computing wie auchlichen. Das gesamte Lösungspaket umfasst gebräuchliche Utilitys, ein Big-Data-Analysen sind Erweiterungen von Virtualisierungstechnikenverteiltes Dateisystem, Analyse- und Datenspeicherplattformen sowie und Grid-Computing-Modellen. Sie machen die Cloud zu einer agileneine Anwendungsschicht für die Verwaltung der verteilten Verarbeitung, Datenplattform, die Unternehmen zu deutlich geringeren Kosten als her-der parallelen Berechnungen, der Arbeitsabläufe und des Konfigurations- kömmliche Datenplattformen unterstützt. Hadoop entwickelt sich rasantmanagements. Hadoop zeichnet sich nicht nur durch eine hohe Verfüg- zum De-facto-Framework für Big Data in der Cloud.barkeit aus, sondern bietet im Vergleich zu herkömmlichen Ansätzenmehr Kosteneffizienz beim Umgang mit umfangreichen unstrukturiertenDatensätzen sowie massive Skalierbarkeit und Geschwindigkeit.

Wie kann Intel helfen Weitere Informationsquellen von IntelIntel, das die zugrundeliegende Technik für Ihre Rechenzentrums- Das Intel® IT-Center stellt überschaubare, prägnante und wertneutraleinfrastruktur – also Server, Netzwerktechnik, Datenbanken und Data- Informationen bereit, die sich mit jeder der Möglichkeiten befassen, wieWarehouses – herstellt, kann Sie auf Ihrem Weg zu erfolgreichen Big- Intel IT-Fachleute bei der Implementierung strategischer Projekte, wieData-Analysen in mehrfacher Hinsicht unterstützen: der Big-Data-Analyse, unterstützen kann. Planungsleitfäden, Umfragen unter Berufskollegen, Kundenreferenzen aus der Praxis, Anbieter-Spot-• Intel bietet optimierte Technik, die für Big-Data-Analysen konzipiert lights und Live-Events zu Big-Data-Analysen finden Sie hier: intel.com/ ist. bigdata.• Intel hilft Ihnen, Ihre neuen Projekte zu Big-Data-Analysen schneller voranzubringen.• Intel beschäftigt sich mit Lösungen für die Herausforderungen von morgen.1 Eric Schmidt, CEO von Google, zur Datenexplosion. I-Global Intelligence for the CIO (4. August 2010). www.i-cio.com/features/august-2010/eric-schmidt-exabytes-of-data2 „Big Data Infographic and Gartner 2012 Top 10 Strategic Tech Trends.“ Business Analytics 3.0 (Blog) (11. November 2011). practicalanalytics.wordpress.com/2011/11/11/ big-data-infographic-and-gartner-2012-top-10-strategic-tech-trends/3 „Extracting Value from Chaos.“ IDC IView, EMC Corporation (Juni 2011). www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdfInformieren Sie Ihre KollegenDieses Dokument dient nur zu Informationszwecken. DIESES DOKUMENT WIRD UNVERBINDLICH, OHNE JEGLICHE GEWÄHRLEISTUNG, EINSCHLIESSLICH DERGEWÄHRLEISTUNG SEINER EIGNUNG FÜR DEN HANDEL, DER NICHTVERLETZUNG VON RECHTEN DRITTER, DER EIGNUNG FÜR EINEN BESTIMMTEN ZWECKODER JEGLICHER GEWÄHRLEISTUNG, DIE SICH ANDERWEITIG AUS EINEM ANGEBOT, EINER SPEZIFIKATION ODER EINEM BEISPIEL BZW. EINEMPROBEEXEMPLAR ERGEBEN KÖNNTE, ZUR VERFÜGUNG GESTELLT. Intel lehnt jegliche Haftung, einschließlich der Haftung für die Verletzung vonEigentumsrechten in Verbindung mit dem Gebrauch der Informationen ab. Durch dieses Dokument werden weder ausdrücklich noch konkludent oder auf andereWeise irgendwelche Rechte auf geistiges Eigentum gewährt.Copyright © 2012 Intel Corporation. Alle Rechte vorbehalten.Intel, das Intel-Logo, „Intel – Wir machen morgen möglich“, das „Intel – Wir machen morgen möglich“-Logo und Xeon sind Marken der Intel Corporation in den USAund anderen Ländern.* Andere Marken oder Produktnamen sind Eigentum der jeweiligen Inhaber.0612/RF/ME/PDF-DE 327439-001 Wir machen morgen möglich.™


Like this book? You can publish your book online for free in a few minutes!
Create your own flipbook