Suchen
 Michael Matzer ♥ BigData-Insider

Michael Matzer

Ich arbeitet als Journalist, Übersetzer, Rezensent und Buchautor und lebt in der Nähe von Stuttgart. Seine Themen sind u.a. IT-Security, Big Data, Unternehmenssoftware, E-Commerce und HPC.

Artikel des Autors

Ab sofort steht das E-Book „IoT-Echtzeitanalyse“ kostenlos zum Download bereit.
E-Book von BigData-Insider

IoT-Echtzeitanalyse

Das Sensor-gestützte Lieferketten-Management, die vorausschauende Wartung einer Windkraftanlage, der Arbeitsschutz von Mitarbeitern oder die KFZ-Versicherung eines vernetzten Autofahrers – sie alle haben eines gemeinsam: Ihre Daten werden in Echtzeit erfasst und einer zeitnahen Auswertung unterworfen. Das Internet der Dinge (Internet of Things, IoT) ist einer der größten Wachstumsbereiche der Industrie weltweit.

Weiterlesen
IBMs neuer CEO Arvind Krishna eröffnete den IBM Data & AI Summit 2020.
Nachbericht IBM Data & AI Summit 2020

IBM liefert erweiterte KI-Fähigkeiten für Chatbots und Debattier-Software

Auf dem Online-Event „IBM Data & AI Summit 2020“ stellte Big Blues neuer CEO Arvind Krishna u. a. Erweiterungen für die KI-Technologien „Watson Assistant“ und „Project Debater“ vor. Während Watson Assistant als Framework die Erstellung von Chatbots für Banken, Callcenter und andere Funktionen erlaubt, nutzt Project Debater Sprachverarbeitungsmethoden, um virtuelle Debatten zu ermöglichen.

Weiterlesen
Wie funktioniert der Random-Forest-Algorithmus? Antworten gibt der 12. Teil unserer Grundlagenreihe.
Grundlagen Statistik & Algorithmen, Teil 12

Der Random-Forest-Klassikator als Entscheidungshilfe

Der Random-Forest-Algorithmus ist ein sogenanntes beaufsichtigtes Klassifikationsverfahren, das aus mehreren unkorrelierten Entscheidungsbäumen besteht, die eine Klassifizierung oder Vorhersage liefern. Weil sich die Entscheidungsbäume parallel verarbeiten lassen, kann der Algorithmus – bei entsprechend paralleler Ausführung – sehr schnell ausgeführt werden. Die Skalierung ist also leicht zu berechnen. Random Forests können auch der Regressionsanalyse dienen.

Weiterlesen
60.000 angemeldete Teilnehmer aus über 100 Ländern besuchten den von Databricks organisierten Spark+AI Summit 2020.
Nachbericht Spark+AI Summit 2020

Databricks erweitert Machine Learning Framework

Der von Databricks veranstaltete Spark+AI Summit startete kürzlich mit 60.000 angemeldeten Teilnehmern aus über 100 Ländern, die sich über die neuesten Trends und Entwicklungen aus der Welt der KI und des ML innerhalb der Apache Spark Community informierten. Databricks, der Erfinder und Betreuer von Apache Spark, hat sein 2018 vorgestelltes ML-Framework MLflow erweitert und der Open Source Community übergeben. Auf der neuen Version 3.0 von Spark bauen die neuen oder erweiterten Plattformkomponenten Delta Lake, Delta Engine und Redash auf.

Weiterlesen
COVID-19 gelangt höchstwahrscheinlich über das Protein ACE2 in menschliche Lungenzellen. Dieser Prozess – Endozytose genannt – wird reguliert durch AAK1 (ein anderes Protein). Baricitinib hemmt AAK1 und könnte möglicherweise so auch das Eindringen von COVID-19 in die Lungenzellen verhindern.
Künstliche Intelligenz gegen COVID-19

So helfen KI-Modelle und Algorithmen im Kampf gegen das Corona-Virus

Machine Learning ist ein bedeutendes Instrument im Kampf gegen die Corona-Pandemie. Wenn Bürger, Behörden und Unternehmen diese Gelegenheit nutzen, um Daten zu sammeln, vorhandenes Wissen zu vereinen und ihre Fachkenntnisse zusammenzubringen, können viele Leben gerettet werden – sowohl heute als auch in der Zukunft. Wie vielfältig die Einsatzgebiete von Machine Learning in diesem Rahmen sind, soll diese Übersicht zeigen, die von Data Revenue erstellt wurde.

Weiterlesen
Messpunkte und deren Abstand von einer nach der Methode der kleinsten Quadrate bestimmten Funktion. Hier wurde eine logistische Funktion als Modellkurve gewählt.
Grundlagen Statistik & Algorithmen, Teil 11

Methoden der Linearen Regressionsanalyse

Regressionsanalysen dienen dazu, Prognosen zu erstellen und Abhängigkeiten in Beziehungen aufzudecken. Will ein Smartphone-Hersteller herausfinden, mit welchem Preis er in welchem Kundenkreis welchen Umsatz erzielen kann, so kennt er nur eine Variable – den Preis – aber nicht die anderen Variablen. Heute gibt es eine große Zahl solcher Verfahren, denn sie werden für zahlreiche Zwecke benötigt, etwa in der Epidemiologie.

Weiterlesen
Operationalisierung von Advanced Analytics bedeutet die Überführung und Anwendung der aus dem Data Lab gewonnenen Erkenntnisse in die operativen Prozesse.
Evolution

Der Übergang von Business Intelligence zu Advanced Analytics

Wenn einem BI-Nutzer Reports und Dashboards nicht mehr reichen, wird es Zeit für Prognose-Tools, die in den Disziplinen Advanced Analytics (AA) und Data Science zu finden sind. Doch AA-Modelle sind nur von begrenztem Wert, wenn man sie nicht in die Prozesse integriert. Wie der Übergang von BI zu AA gelingen kann, zeigt ein Webinar von BARC-Experte Timm Grosser.

Weiterlesen
Sport-Analytik erlaubt zeitnahe Auwertungen von Spielen, Sportlern und Statistiken für die Zuschauer, aber auch für Vereine und Trainer und Verbände.
Big-Data-Analysen im Sport

Die Sportwelt profitiert von intelligenter Analytik

Die drei Analytik-Anbieter SAS, Exasol und Amazon Web Services haben den Sport als Wachstumsmarkt entdeckt. Zudem sind Organisationen wie die Deutsche Bundesliga auf Innovationen bei ihren Zuschauerangeboten angewiesen, um konkurrenzfähig zu bleiben. Mit den Lösungen der drei Anbieter reicht das Angebot von der einfachen Sportgrafik bis hin zu KI-basierten Angaben und Vorhersagen, die in Echtzeit angezeigt werden.

Weiterlesen
Neo4j 4.0 antwortet auf komplizierte Herausforderungen in der Entwicklung moderner Applikationen wie etwa unbegrenzte Skalierbarkeit, intelligenter Kontext von Daten und robuste Datensicherheit für Unternehmen.
Neo4j v.4.0

Graph-Datenbank Neo4j wird noch skalierbarer

Neo4j, ein marktführender Anbieter von Graph-Datenbanktools, hat die Version 4.0 seiner Plattform verfügbar gemacht. Zu den Neuerungen gehören unbegrenzte Skalierbarkeit, mandantenfähige Multi-Datenbank-Nutzung, die Integration von Apache Kafka und die besonders für Unternehmen wichtige feingranulare Steuerung von Datensicherheit und Datenschutz.

Weiterlesen
Bestmögliche Gerade durch die „Punktwolke“ einer Messung
Grundlagen Statistik & Algorithmen, Teil 10

Mit einfacher Regressionsanalyse Mittelwerte in Prognosen ermitteln

Regressionsanalysen dienen dazu, Prognosen zu erstellen und Abhängigkeiten in Beziehungen aufzudecken. Will ein Smartphone-Hersteller herausfinden, mit welchem Preis in welchem Kundenkreis er welchen Umsatz erzielen kann, so kennt er nur eine Variable – den Preis – aber nicht die anderen Variablen. Um 1760 erfunden, gibt es heute eine große Zahl solcher Verfahren. Dieser Beitrag beginnt mit dem einfachsten, der Einfachen Linearen Regression (ELR).

Weiterlesen
Von den rund 65.000 Besuchern der AWS re:invent in Las Vegas konnten rund 11.000 den Keynotes in der Halle A direkt lauschen.
Nachbericht AWS re:invent Las Vegas

AWS baut Redshift und SageMaker aus

Amazon Web Services (AWS) hat kürzlich auf seiner Kundenkonferenz AWS re:Invent den 65.000 Besuchern zahlreiche neue Services für Datenbanken und Analysefunktionen vorgestellt. Sie sollen Kunden besonders dabei unterstützen, große Datenmengen zu verarbeiten. Neuerungen in der KI-Entwicklungsumgebung Amazon SageMaker decken die gesamte Prozesskette bis hin zur Überwachung der KI-Modelle ab.

Weiterlesen
Ab sofort steht das E-Book „Graph-Datenbanken“ für registrierte Leser von BigData-Insider kostenlos zum Download bereit.
E-Book von BigData-Insider

Graph-Datenbanken

Aus dem täglichen Umgang mit dem Internet ist die Nutzung von verknüpften Daten nicht mehr wegzudenken. Seien es Freundschaftskreise auf Facebook und LinkedIn, Taxi-Anforderungen auf Uber oder Empfehlungen auf Amazon und Ebay – immer tritt im Hintergrund eine Datenbank in Aktion, die verwandte Daten sucht und miteinander in Beziehung setzt. Dabei handelt es sich in den meisten Fällen um eine Graph-Datenbank.

Weiterlesen
Künstliche Intelligenz muss transparent arbeiten. Nur wenn die Ergebnisse nachvollziehbar sind, sind sie vertrauenswürdig.
Trusted AI

So wird Künstliche Intelligenz vertrauenswürdig

Mit der Ausbreitung von KI-Anwendungen stellen sich Schöpfern wie Benutzern zwei zentrale Fragen: Was befindet sich in der Black Box, die den Algorithmus und das Deep-Learning-Modell verbirgt? Und zweitens: Wie lässt sich sicherstellen, dass kein Unbefugter diese Software für seine Zwecke manipuliert hat? Manche KI-Hersteller und -Berater haben darauf bereits eine Antwort.

Weiterlesen
Ab sofort steht das E-Book „Industrie 4.0 wird erwachsen“ kostenlos zum Download bereit.
E-Book von BigData-Insider

Industrie 4.0 wird erwachsen

Die Wirtschaftsstrategie „Industrie 4.0“ ist seit 2013 ein ausgearbeitetes Konzept und inzwischen durch eine Referenzarchitektur zu einem global vertretbaren und übertragbaren Konzept geworden. Der Begriff „Smart Factory“ ist von zentraler Bedeutung, denn in dieser Betriebsstätte sollen Werkstücke und Maschinen bzw. Roboter einander erkennen und miteinander interagieren, um eine Wertschöpfungskette zu bilden.

Weiterlesen
Deutsche Unternehmen haben das Potenzial von guter Planung erkannt, kämpfen aber mit Hindernissen – oder sind einfach mit dem Bestehenden zufrieden.
Benchmark-Studie

„The State of Connected Planning“ enthüllt große deutsche Defizite

Die international und jährlich durchgeführte Benchmark-Studie „The State of Connected Planning“ hat für Deutschland herausgefunden, dass für 82 Prozent der Befragten die Planung für das Kostenmanagement „von entscheidender Bedeutung ist“ und nach Ansicht von 89 Prozent, dass eine bessere Planungstechnologie die Geschäftsergebnisse verbessere. Doch die deutschen Planungsexperten stehen auch vor erheblichen Hindernissen, ihre Pläne umzusetzen.

Weiterlesen
Gierige Algorithmen bestimmen z. B. die Mindestmenge an Münzen für das jeweils nötige Wechselgeld. Im Bild sind die Schritte abgebildet, die ein Mensch gehen würde, um einen gierigen Algorithmus zu imitieren, der 36 Cents herausgibt, indem er Münzen mit den Werten {1, 5, 10, 20} verwendet. Die Münze mit dem höchsten Wert, der unter dem geschuldeten Betrag liegt, ist das „lokale Optimum“.
Grundlagen Statistik & Algorithmen, Teil 9

Der Greedy-Algorithmus

Greedy-Algorithmen, oder gierige Algorithmen, bilden eine spezielle Klasse von Optimierungsalgorithmen, die in der Informatik auftreten. Sie zeichnen sich dadurch aus, dass sie schrittweise den Folgezustand auswählen, der zum Zeitpunkt der Wahl den größten Gewinn bzw. das beste Ergebnis (berechnet durch eine Bewertungsfunktion) verspricht z. B. Gradientenverfahren, so etwa die Berechnung von Wechselgeld oder des kürzesten Wegs. Greedy-Algorithmen sind oft schnell, lösen viele Probleme aber nicht optimal.

Weiterlesen
Cassandra Enterprise umfasst zahlreiche Leistungsmerkmale, die für Unternehmensnutzer wichtig sind.
NoSQL

NoSQL-Datenbanken im Vergleich

NoSQL-Datenbanken wurden aus der Notwendigkeit heraus entwickelt, große, unterschiedliche Mengen von Dimensionen wie Raum, Zeit und Lokation auf möglichst effiziente Weise zu speichern und zu verarbeiten. Mittlerweile sind sie die unabdingbare Alternative zu relationalen SQL-basierten Datenbanken. Doch nicht jede NoSQL-Datenbank eignet sich für jeden Zweck. Tatsächlich sind die meisten sogar recht spezialisiert.

Weiterlesen
Messpunkte und deren Abstand von einer nach der Methode der kleinsten Quadrate bestimmten Funktion. Hier wurde eine logistische Funktion als Modellkurve gewählt.
Grundlagen Statistik & Algorithmen, Teil 11

Methoden der Linearen Regressionsanalyse

Regressionsanalysen dienen dazu, Prognosen zu erstellen und Abhängigkeiten in Beziehungen aufzudecken. Will ein Smartphone-Hersteller herausfinden, mit welchem Preis er in welchem Kundenkreis welchen Umsatz erzielen kann, so kennt er nur eine Variable – den Preis – aber nicht die anderen Variablen. Heute gibt es eine große Zahl solcher Verfahren, denn sie werden für zahlreiche Zwecke benötigt, etwa in der Epidemiologie.

Weiterlesen
COVID-19 gelangt höchstwahrscheinlich über das Protein ACE2 in menschliche Lungenzellen. Dieser Prozess – Endozytose genannt – wird reguliert durch AAK1 (ein anderes Protein). Baricitinib hemmt AAK1 und könnte möglicherweise so auch das Eindringen von COVID-19 in die Lungenzellen verhindern.
Künstliche Intelligenz gegen COVID-19

So helfen KI-Modelle und Algorithmen im Kampf gegen das Corona-Virus

Machine Learning ist ein bedeutendes Instrument im Kampf gegen die Corona-Pandemie. Wenn Bürger, Behörden und Unternehmen diese Gelegenheit nutzen, um Daten zu sammeln, vorhandenes Wissen zu vereinen und ihre Fachkenntnisse zusammenzubringen, können viele Leben gerettet werden – sowohl heute als auch in der Zukunft. Wie vielfältig die Einsatzgebiete von Machine Learning in diesem Rahmen sind, soll diese Übersicht zeigen, die von Data Revenue erstellt wurde.

Weiterlesen
Kernel-Maschinen werden verwendet, um nichtlinear trennbare Funktionen zu berechnen, um so eine linear trennbare Funktion höherer Ordnung zu erhalten.
Grundlagen Statistik & Algorithmen, Teil 5

Optimale Clusteranalyse und Segmentierung mit dem k-Means-Algorithmus

Der k-Means-Algorithmus ist ein Rechenverfahren, das sich für die Gruppierung von Objekten, die sogenannte Clusteranalyse, einsetzen lässt. Dank der effizienten Berechnung der Clusterzentren und dem geringen Speicherbedarf eignet sich der Algorithmus sehr gut für die Analyse großer Datenmengen, wie sie im Big-Data-Umfeld üblich sind, so etwa in der Bildverarbeitung und in der Kundensegmentierung.

Weiterlesen
Gierige Algorithmen bestimmen z. B. die Mindestmenge an Münzen für das jeweils nötige Wechselgeld. Im Bild sind die Schritte abgebildet, die ein Mensch gehen würde, um einen gierigen Algorithmus zu imitieren, der 36 Cents herausgibt, indem er Münzen mit den Werten {1, 5, 10, 20} verwendet. Die Münze mit dem höchsten Wert, der unter dem geschuldeten Betrag liegt, ist das „lokale Optimum“.
Grundlagen Statistik & Algorithmen, Teil 9

Der Greedy-Algorithmus

Greedy-Algorithmen, oder gierige Algorithmen, bilden eine spezielle Klasse von Optimierungsalgorithmen, die in der Informatik auftreten. Sie zeichnen sich dadurch aus, dass sie schrittweise den Folgezustand auswählen, der zum Zeitpunkt der Wahl den größten Gewinn bzw. das beste Ergebnis (berechnet durch eine Bewertungsfunktion) verspricht z. B. Gradientenverfahren, so etwa die Berechnung von Wechselgeld oder des kürzesten Wegs. Greedy-Algorithmen sind oft schnell, lösen viele Probleme aber nicht optimal.

Weiterlesen
IBMs neuer CEO Arvind Krishna eröffnete den IBM Data & AI Summit 2020.
Nachbericht IBM Data & AI Summit 2020

IBM liefert erweiterte KI-Fähigkeiten für Chatbots und Debattier-Software

Auf dem Online-Event „IBM Data & AI Summit 2020“ stellte Big Blues neuer CEO Arvind Krishna u. a. Erweiterungen für die KI-Technologien „Watson Assistant“ und „Project Debater“ vor. Während Watson Assistant als Framework die Erstellung von Chatbots für Banken, Callcenter und andere Funktionen erlaubt, nutzt Project Debater Sprachverarbeitungsmethoden, um virtuelle Debatten zu ermöglichen.

Weiterlesen
Bestmögliche Gerade durch die „Punktwolke“ einer Messung
Grundlagen Statistik & Algorithmen, Teil 10

Mit einfacher Regressionsanalyse Mittelwerte in Prognosen ermitteln

Regressionsanalysen dienen dazu, Prognosen zu erstellen und Abhängigkeiten in Beziehungen aufzudecken. Will ein Smartphone-Hersteller herausfinden, mit welchem Preis in welchem Kundenkreis er welchen Umsatz erzielen kann, so kennt er nur eine Variable – den Preis – aber nicht die anderen Variablen. Um 1760 erfunden, gibt es heute eine große Zahl solcher Verfahren. Dieser Beitrag beginnt mit dem einfachsten, der Einfachen Linearen Regression (ELR).

Weiterlesen
Wie funktioniert der Random-Forest-Algorithmus? Antworten gibt der 12. Teil unserer Grundlagenreihe.
Grundlagen Statistik & Algorithmen, Teil 12

Der Random-Forest-Klassikator als Entscheidungshilfe

Der Random-Forest-Algorithmus ist ein sogenanntes beaufsichtigtes Klassifikationsverfahren, das aus mehreren unkorrelierten Entscheidungsbäumen besteht, die eine Klassifizierung oder Vorhersage liefern. Weil sich die Entscheidungsbäume parallel verarbeiten lassen, kann der Algorithmus – bei entsprechend paralleler Ausführung – sehr schnell ausgeführt werden. Die Skalierung ist also leicht zu berechnen. Random Forests können auch der Regressionsanalyse dienen.

Weiterlesen
60.000 angemeldete Teilnehmer aus über 100 Ländern besuchten den von Databricks organisierten Spark+AI Summit 2020.
Nachbericht Spark+AI Summit 2020

Databricks erweitert Machine Learning Framework

Der von Databricks veranstaltete Spark+AI Summit startete kürzlich mit 60.000 angemeldeten Teilnehmern aus über 100 Ländern, die sich über die neuesten Trends und Entwicklungen aus der Welt der KI und des ML innerhalb der Apache Spark Community informierten. Databricks, der Erfinder und Betreuer von Apache Spark, hat sein 2018 vorgestelltes ML-Framework MLflow erweitert und der Open Source Community übergeben. Auf der neuen Version 3.0 von Spark bauen die neuen oder erweiterten Plattformkomponenten Delta Lake, Delta Engine und Redash auf.

Weiterlesen
Data Preparation kostet Zeit, ist aber unerlässlich. Geeignete Tools können den Prozess beschleunigen und vereinfachen.
Data Preparation

Datenaufbereitung ist ein unterschätzter Prozess

Der Prozess der Datenaufbereitung umfasst die Reinigung, Formung und Mischung von Daten, damit sie für analytische und andere Aufgaben in optimaler Qualität bereitstehen. Nur mit erstklassigen Daten lassen sich beispielsweise Lösungen für Machine Learning und Künstliche Intelligenz effizient, sicher und zuverlässig versorgen.

Weiterlesen
Operationalisierung von Advanced Analytics bedeutet die Überführung und Anwendung der aus dem Data Lab gewonnenen Erkenntnisse in die operativen Prozesse.
Evolution

Der Übergang von Business Intelligence zu Advanced Analytics

Wenn einem BI-Nutzer Reports und Dashboards nicht mehr reichen, wird es Zeit für Prognose-Tools, die in den Disziplinen Advanced Analytics (AA) und Data Science zu finden sind. Doch AA-Modelle sind nur von begrenztem Wert, wenn man sie nicht in die Prozesse integriert. Wie der Übergang von BI zu AA gelingen kann, zeigt ein Webinar von BARC-Experte Timm Grosser.

Weiterlesen
Ereigniszeitanalyse mit zensierten Daten für die Vertriebsabteilung: die Überlebensfunktion für Vertriebstechniker (durchgezogene Linie) und für Vertreter (gestrichelte Linie) in einem Kaplan-Meier-Schätzer. Vertriebstechniker sind ihrer Stelle wesentlich stärker und länger treu als Vertreter. Der blaue und rötliche Hintergrund deckt sich mit der jeweiligen Kurve.
Grundlagen Statistik & Algorithmen, Teil 6

Die Ereigniszeitanalyse – wenn Anfang und Ende die Erfolgsrate bestimmen

Die Ereigniszeitanalyse bzw. Survival Analysis umfasst eine Reihe von Werkzeugen der Statistik, mit denen die Zeit bis zum Eintritt eines bestimmten Ereignisses zwischen Gruppen verglichen wird. Auf diese Weise will man die Wirkung von prognostischen Faktoren, einer medizinischen Behandlung oder von schädlichen Einflüssen abschätzen. Bei dem Ereignis kann es sich um etwas so Endgültiges wie den Tod handeln, aber auch um den Verlust einer Arbeitsstelle, eine Scheidung oder einen Beginn, etwa um eine Geburt oder einen Heilungseintritt.

Weiterlesen