Michael Matzer ♥ BigData-Insider

Michael Matzer

Michael Matzer ist ein erfahrener IT-Fachjournalist, Buchautor und Übersetzer mit über 30 Jahren Expertise in der IT-Branche. Seine Schwerpunkte liegen in den Bereichen IT-Security, Cloud Computing, Big Data, Unternehmenssoftware, E-Commerce und High-Performance Computing (HPC). Als Inhaber des Redaktionsbüros Matzer erstellt er fundierte Fachartikel, Rezensionen und Übersetzungen für renommierte Medien und Fachpublikationen.

Mit einem akademischen Hintergrund in Germanistik und Anglistik an der Universität Stuttgart startete Michael Matzer seine journalistische Laufbahn in den 1990er Jahren. Er war unter anderem Redakteur bei Fachverlagen wie dem Franzis-Verlag und Vogel-Verlag, bevor er sich als freier Autor etablierte. Seine Publikationen umfassen Bücher, darunter Werke ein Werk über die Linux-Nutzung für den Mittelstand.

Seine tiefgehenden Analysen und verständlichen Erklärungen machen komplexe IT-Themen für Fachleute und Entscheider gleichermaßen zugänglich. Dank seiner langjährigen Erfahrung in der IT-Redaktion und Unternehmenskommunikation verfügt er über ein ausgeprägtes Expertenwissen, das er gezielt in hochwertigen Fachbeiträgen und Branchenanalysen einsetzt.

Mit seiner umfassenden Fachkompetenz und analytischen Herangehensweise zählt Michael Matzer zu den anerkannten Experten in der IT-Fachberichterstattung.

Artikel des Autors

Constantin Gonzalez, Solution Architect bei AWS Deutschland (Bild: blende11_Fotografen)

Die KI-Strategie, die Amazon Web Services (AWS) verfolgt, wird von den Prinzipien Demokratisierung, Sicherheit und Verantwortung bestimmt. Im Gespräch mit Constantin Gonzalez, Principal Solutions Architect bei AWS Deutschland, wird deutlich, dass AWS Tools und Methoden einsetzt, um ethische Richtlinien umzusetzen.

Taylor Brown, COO und Mitgründer von Fivetran (Bild: Fivetran)

Fivetran hat kürzlich seine Version für Hybrid Deployment vorgestellt. Mit Hybrid Deployment können Unternehmen Datenpipelines in ihrer eigenen Umgebung sicher über die Fivetran-Plattform betreiben und eine einzige Kontrollebene für die Verwaltung aller Datenquellen bereitstellen. BigData-Insider sprach darüber mit Taylor Brown, COO und Mitgründer von Fivetran.

Der Hype Cycle der Gartner Group für Künstliche Intelligenz 2024 allgemein. (Bild: Gartner Group)

In ihrem jüngsten Report über den Hype Cycle von Künstlicher Intelligenz (KI) sehen die Analysten der Gartner Group noch viele weitere KI-Disziplinen. Während sich der Hype um Generative KI (GenAI) aufgrund enttäuschter Erwartungen abschwächt, erhalten andere transformative Disziplinen und Formen von KI und Machine Learning eine höhere Priorität.

Das Publikum lauschte auf der Anwenderkonferenz Teradata Possible 2024 mehreren Diskussionen auf der Bühne. (Bild: Teradata)

Neue Funktionen in ClearScape Analytics sollen die Produktivität von Data Scientists fördern und Unternehmen bei der schnellen Amortisierung von KI/ML-Investitionen unterstützen. In diese Suite werden auch quelloffene Tools wie KNIME integriert und Apache Spark angekoppelt.

So funktioniert Retrieval Augmented Generation (RAG) im Zusammenspiel mit einer Graph-Datenbank. (Bild: Neo4J)

Der Nutzungsbereich großer Sprachmodelle (LLM) und Basismodelle (Functional Models) wird durch den Einsatz von Retrieval Augmented Generation (RAG) erheblich erweitert. Graph-Datenbanken können mit ihrer spezifischen Technologie GraphRAG die Genauigkeit erheblich steigern. BigData-Insider sprach mit Michael Hunger, Head of Product Innovation & Developer Product Strategy beim Graph-Datenbankanbieter Neo4j.

Zu den vorhandenen HeatWave-Funktionen kommt nun Generative KI mit einer Chat-Funktion hinzu. (Bild: Oracle)

Oracle hat für die KI-Plattform HeatWave eine Erweiterung für Generative KI verfügbar gemacht. HeatWave GenAI ist insofern bemerkenswert, als es das LLM in der Datenbank selbst ausführt. Zudem findet die Verarbeitung von Vektor-Daten, wie sie etwa für RAG (Retrieval Augmented Generation) benötigt wird, ebenfalls in der Datenbank statt. Diese Technik soll HeatWave GenAI performanter und sicherer als Lösungen von Mitbewerbern machen.

„Large scale Alignment for Chatbots “ (LAB) heißt die Methode, mit der sich mithilfe synthetischer Daten validierte Modelle erzeugen lassen. In InstructLab lassen sich damit hochwertige, quelloffene Modelle viel schneller als bisher erzeugen. (Bild: Red Hat)

Red Hat Enterprise Linux AI (RHEL AI) ist eine quelloffene Plattform für Large Language Models (LLMs) von IBM, die Granite-Modelle, Tools von InstructLab sowie einen Entwicklungsansatz der Community vereint. Gleichzeitig kündigte Red Hat Erweiterungen für die Software OpenShift zur Ausführung von LLMs in RHEL-Clustern an: Red Hat OpenShift AI, die hybride Plattform für Maschinelles Lernen (MLOps).

Ali Ghodsi, CEO von Databricks (Bild: Databricks)

Das Unternehmen Databricks hat auf seiner Hausmesse in San Francisco die „Databricks Intelligence Platform“ vorgestellt. Sie umfasst die bekannte Data-Lakehouse-Architektur, Machine Learning mit MLFlow sowie Mosaic AI, ein Framework für Generative KI. Wichtig für Kunden: Der Unity Catalog wird nicht nur kompatibel zu Apache Iceberg, sondern auch open source.

Überblick über das Produktportfolio IBMs im Bereich KI. Unten links ist das Feld rot eingefärbt, um anzuzeigen, dass dort die IBM-Tochter Red Hat ins Spiel kommt, um Hybrid-Cloud-Modelle zu ermöglichen. (Bild: IBM)

IBM hat kürzlich mit IBM Concert eine umfassende Verwaltungs- und Automationslösung für seine Watsonx-Produktfamilie vorgestellt. Mehrere Kunden verwenden Watsonx bereits erfolgreich. Big Blue detaillierte seine Pläne für erweiterte Beratungsdienstleistungen, zudem will es den Anbieter HashiCorp übernehmen.

Der Polaris Catalog dient als Drehscheibe für Metadaten. (Bild: Snowflake)

Snowflake hat auf seiner Anwenderkonferenz in San Francisco eine Reihe von Neuheiten angekündigt. Die Partnerschaft mit Nvidia bedeutet die Bereitstellung von Snowflake-Funktionsmodellen auf Nvidia-beschleunigten Plattformen und die Anreicherung von Apps um Nvidia-Microservices. Der neue Polaris-Datenkatalog soll für Governance und Datensicherheit sorgen, und mit Native Apps will Snowflake seinen Markt rasch ausweiten.

„Large scale Alignment for Chatbots “ (LAB) heißt die Methode, mit der sich mithilfe synthetischer Daten validierte Modelle erzeugen lassen. In InstructLab lassen sich damit hochwertige, quelloffene Modelle viel schneller als bisher erzeugen lassen. (Bild: Red Hat)

In einer Gesprächsrunde legten Red Hat und Intel vier Richtlinien für die Nutzung von Künstlicher Intelligenz dar. Die Runde war hochkarätig besetzt: Von Intel nahm Stephan Gillich, Intel Director AI in EMEA, teil, von Red-Hat-Seite eine Solution-Architektin und ein Vertriebsdirektor.

Verbesserungen an Einstein Copilot for Tableau umfassen die geführte Transformation von Daten sowie die Möglichkeit, dass KI automatisch eine Art „Datenwörterbuch“ – einen Datenkatalog – erstellt. (Bild: Salesforce)

Auf der Tableau Conference 2024 hat das Tochterunternehmen von Salesforce mehrere Erweiterungen seiner Datenplattform vorgestellt: Tableau Desktop Public, Einstein Copilot und neue Pulse-Funktionen. Mit Viz Extensions lassen sich durch Lösungen von Drittanbietern die Möglichkeiten der Visualisierung von Daten erweitern. Die Tableau Cloud wird durch die Integration mit Salesforce Hyperforce skalierbarer.

Snowflake hat mit „Arctic“ sein eigenes Large Language Model für Generative KI vorgestellt. Es ist quelloffen und soll sich besonders für „Enterprise Intelligence“ eignen. (Bild: Snowflake)

Snowflake hat mit „Arctic“ ein Large Language Model für Generative KI vorgestellt. Es ist quelloffen und soll sich besonders für „Enterprise Intelligence“ eignen. Es sei besonders effizient und leistungsfähig im Generieren von Programmcode und SQL-Abfragen.

Amazon macht für Generative KI mehrere Ressourcen verfügbar, darunter Amazon Bedrock. (Bild: Amazon)

Amazon Web Services (AWS) hat für seine KI-Plattform Amazon Bedrock neue Funktionalitäten vorgestellt und die Verfügbarkeit angekündigter Funktionalitäten vermeldet. So ist Guardrails für Bedrock ebenso verfügbar wie der Titan Image Generator. Neu ist beispielsweise, dass Kunden mit Amazon Bedrock Custom Model Import ihre eigenen angepassten KI-Modelle mitbringen und auf Bedrock ausführen, aber auch alle verfügbaren großen Sprachmodelle (LLMs) mit Amazon Bedrock Model Evaluation bewerten lassen können.

AIvalley bietet auf seiner Homepage bereits eine Übersicht von Kategorien an, in denen der Besucher einschlägige Tools finden, kann, beispielsweise zu Marketing, Suche oder Prompt Tools. (Bild: AIvalley / Matzer)

ChatGPT kennt inzwischen jeder, doch es ist nur ein Werkzeug, keine Anwendung, und der Nutzer sollte wissen, wie er mit dem Tool umgeht und was er zu erzielen hofft. Auf der Plattform AIvalley hingegen werden bereits zahlreiche einsatzbereite Lösungen und Tools angeboten.

Bryan Harris, Chief Technology Officer bei SAS, präsentierte zahlreiche KI-relevante Neuheiten auf der SAS-Viya-Plattform. (Bild: SAS)

Auf der SAS-Innovate-Konferenz hat SAS mehrere Neuheiten im Bereich KI (Künstliche Intelligenz) angekündigt. Im Vordergrund steht die praktische Verwendung von KI-Modellen als Werkzeuge für produktive Lösungen. So will SAS die Integration von Large Language Models (LLMs) zur Optimierung bestehender Prozesse vereinfachen. Mit SAS Model Cards stehen Blaupausen für KI-Modelle zum Abruf bereit, und der SAS Viya Copilot soll bei der Erzeugung von Code in drei Sprachen helfen.

Die Data Cloud liefert eine vollständige Sicht auf die Kundendaten in Salesforce Customer 360. (Bild: Salesforce)

Im jüngsten Release seiner Plattform hat der CRM-Spezialist Salesforce die Data Cloud mit zahlreichen neuen oder endlich verfügbaren Funktionen vorgestellt. Die Neuerungen zeigen, was heute von modernen Datenplattformen erwartet wird, um Produktinnovationen zu erleichtern.

Microsoft-President und Vice Chairman Brad Smith (l.) und Bundeskanzler Olaf Scholz. (Bild: Alex Schelbert)

Microsoft-President und Vice Chairman Brad Smith und Marianne Jannik, die CEO von Microsoft Deutschland, haben in Berlin eine Investition von 3,2 Milliarden Euro in Deutschland angekündigt. Die Investition zielt zum einen auf den Bau neuer umweltfreundlicher KI-Rechenzentren in Nordrhein-Westfalen, zum anderen auf den Aufbau von 1,2 Millionen ausgebildeten Menschen mit digitaler Kompetenz. Smith betonte die Bedeutung von Partnerschaften mit Unternehmen der deutschen Wirtschaft, insbesondere mit Start-ups im Open-Source-Sektor.

Patrick Heinen ist bei Salesforce Deutschland für ein Pre-Sales-Team von Experten verantwortlich. (Bild: Salesforce )

Salesforce will in diesem Monat mit dem Spring Release seiner Cloud-Lösungen, darunter die Data Cloud Platform, eine Erweiterung der Einstein-1-Plattform verfügbar machen: den KI-Assistenten Einstein Copilot. Zahlreiche weitere Neuerungen kommen den verschiedenen Apps zugute.

Simon Axon, Industry Consulting Director EMEA bei Teradata (Bild: Teradata)

Die Branche der europäischen Finanzdienstleister befindet sich im Umbruch. Die wichtigsten Treiber dafür sind der Einzug von generativer KI, die Digitalisierung und nicht zuletzt der Druck der Regulierungsbehörden. BigData-Insider über diese Themen mit Simon Axon, Industry Consulting Director EMEA bei Teradata.

Die Jahreskonferenz AWS re:Invent wurde von mehr als 50.000 Besuchern vor Ort sowie zahlreichen weiteren virtuellen Besuchern beehrt. (Bild: AWS)

Amazon Web Services (AWS) unterstützt seine Anwender im Big-Data- und Analyticsbereich mit erhöhter Leistungsfähigkeit, macht den „Amazon ElastiCache“-Dienst „Serverless“ verfügbar und erweitert die Skalierungs-Möglichkeiten mit „Amazon Aurora Limitless“. Neue Versionen des Chips für ML-Training und der ARM-basierten Graviton-CPU sind schneller und verbrauchen weniger Strom. Der Managed Service „Amazon Bedrock“ wird massiv ausgebaut, um Modelle sicherer und individueller angepasst machen zu können. Der neue KI-Assistent „Amazon Q“ ist für die Erstellung von Präsentationen in Amazon QuickSight erweitert worden.

Ein vereinfachtes Schema des Aufbaus der Architektur von LLM Mesh (Bild: Dataiku)

Dataiku, der französische Anbieter einer kollaborativen Data-Science- und KI-Plattform, hat seine LLM-Mesh-Erweiterung vorgestellt. Sie soll die wahlfreie Nutzung skalierbarer LLMs der generativen KI erlauben und durch Governance absichern. Als Partner unterstützen unter anderem Snowflake, Pinecone, AI21 sowie Nvida LLM Mesh. Maximilian Harms, Principal AI Transformation Advisory bei Dataiku, erläutert das neue Angebot.

Ab sofort steht das E-Book „Datenbank-Migration“ kostenlos zum Download bereit. (Bild: Vogel IT-Medien)

Viele Unternehmen wünschen sich derzeit eine zügige, kosteneffiziente Migration ihrer IT-Architektur, so auch ihrer Datenbank. Viele haben mehrere Datenbanksysteme, die unterschiedliche Aufgaben bewältigen und die konsolidiert werden können, um Lizenzgebühren zu sparen.

Im Dashboard von Watsonx.governance werden 60 Aufgaben angezeigt, wovon einige überfällig sind. Interessant ist auch die Risikobewertung ganz rechts. (Bild: IBM)

IBM hat im Sommer die KI- und Datenplattform watsonx verfügbar gemacht. Das KI-Entwicklungsstudio watsonx.ai ist ebenso erhältlich wie die Datenplattform watsonx.data. Das dritte Modul watsonx.governance ist für Anfang Dezember angekündigt und soll als SaaS in der IBM Cloud bereitgestellt werden.

Die neue Architektur des Data Lakehouses löst die alte Architektur des Data Warehouses ab. (Bild: Databricks )

Databricks Lakehouse baut auf Apache Spark als Data-Engineering- und Analyse-Plattform auf. Auf der Anwenderkonferenz DAIS 2023 (BigData-Insider berichtete) im Juni 2023 wurde die Version 3.4 mit zahlreichen Neuerungen vorgestellt. Im September wurde die Version 3.5 freigegeben. Die Zusammenarbeit zwischen Spark und Python wird zunehmend enger.

Constantin Gonzalez, Solution Architect bei AWS Deutschland (Bild: blende11_Fotografen)

Die KI-Strategie, die Amazon Web Services (AWS) verfolgt, wird von den Prinzipien Demokratisierung, Sicherheit und Verantwortung bestimmt. Im Gespräch mit Constantin Gonzalez, Principal Solutions Architect bei AWS Deutschland, wird deutlich, dass AWS Tools und Methoden einsetzt, um ethische Richtlinien umzusetzen.

Ab sofort steht das E-Book „Big Data Analytics in der Finanzbranche“ kostenlos zum Download bereit. (Bild: Vogel IT-Medien)

Die Finanzindustrie befindet sich derzeit in einem tief greifenden Umbruch und Big Data spielen dabei eine wichtige Rolle. Big Data sind per Definition sehr umfangreich, unvorhersagbar, heterogen und größtenteils unstrukturiert. Waren die meisten bankinternen Daten früher intern und aus strukturierten Transaktionen erzeugt worden, so ist heute eher das Gegenteil der Fall: Die meisten Daten kommen von außen, haben ein großes Volumen und treffen als Datenströme ein.

Der Einsatz von KI spart kleinen und mittleren Unternehmen Arbeitszeit ein, vor allem im Marketing. Das fand eine Umfrage von Constant Contact heraus. (Bild: DailyAI.com)

Kleine und mittlere Unternehmen (KMU) sind zwar an Künstlicher Intelligenz (KI) und Automation interessiert, verfügen aber über weniger Investitionskapital als Großunternehmen. KMU können sich aber durch KI und Automation wettbewerbsfähig machen, fand eine Umfrage der britischen Firma Constant Contact heraus.

Das Motto der Teradata-Konferenz lautete „Fuel the Future“. (Bild: © Josh Caius Photographer https://www.joshcaiusphotography.com/)

Der Datenbankspezialist Teradata hat auf seiner Kundenkonferenz „Teradata Possible 2023“ in London mit dem Tool „ask.ai“ Funktionen der generativen KI für seine Plattform VantageCloud Lake auf MS Azure vorgestellt.

Zwei richtig nette Milliardäre: Satya Nadella (links), Chairman und CEO von Microsoft, und Larry Ellison, Chairman und CTO von Oracle. (Bild: Microsoft)

Auf seiner Kundenkonferenz Oracle CloudWorld 2023 hat der Datenbankhersteller und Applikationsanbieter zahlreiche Neuerungen und Partnerschaften angekündigt. Zudem werden GenAI-Funktionen in zahlreiche Produkte integriert. Java und die Datenbank erfahren substanzielle Updates.

Cassandra Enterprise umfasst zahlreiche Leistungsmerkmale, die für Unternehmensnutzer wichtig sind. (Datastax)

NoSQL-Datenbanken wurden aus der Notwendigkeit heraus entwickelt, große, unterschiedliche Mengen von Dimensionen wie Raum, Zeit und Lokation auf möglichst effiziente Weise zu speichern und zu verarbeiten. Mittlerweile sind sie die unabdingbare Alternative zu relationalen SQL-basierten Datenbanken. Doch nicht jede NoSQL-Datenbank eignet sich für jeden Zweck. Tatsächlich sind die meisten sogar recht spezialisiert.

Messpunkte und deren Abstand von einer nach der Methode der kleinsten Quadrate bestimmten Funktion. Hier wurde eine logistische Funktion als Modellkurve gewählt. (gemeinfrei)

Regressionsanalysen dienen dazu, Prognosen zu erstellen und Abhängigkeiten in Beziehungen aufzudecken. Will ein Smartphone-Hersteller herausfinden, mit welchem Preis er in welchem Kundenkreis welchen Umsatz erzielen kann, so kennt er nur eine Variable – den Preis – aber nicht die anderen Variablen. Heute gibt es eine große Zahl solcher Verfahren, denn sie werden für zahlreiche Zwecke benötigt, etwa in der Epidemiologie.

Kernel-Maschinen werden verwendet, um nichtlinear trennbare Funktionen zu berechnen, um so eine linear trennbare Funktion höherer Ordnung zu erhalten. (Kernel Machine.svg / Alisneaky, svg version by User:Zirguezi / CC BY-SA 4.0)

Der k-Means-Algorithmus ist ein Rechenverfahren, das sich für die Gruppierung von Objekten, die sogenannte Clusteranalyse, einsetzen lässt. Dank der effizienten Berechnung der Clusterzentren und dem geringen Speicherbedarf eignet sich der Algorithmus sehr gut für die Analyse großer Datenmengen, wie sie im Big-Data-Umfeld üblich sind, so etwa in der Bildverarbeitung und in der Kundensegmentierung.

Bestmögliche Gerade durch die „Punktwolke“ einer Messung (gemeinfrei)

Regressionsanalysen dienen dazu, Prognosen zu erstellen und Abhängigkeiten in Beziehungen aufzudecken. Will ein Smartphone-Hersteller herausfinden, mit welchem Preis in welchem Kundenkreis er welchen Umsatz erzielen kann, so kennt er nur eine Variable – den Preis – aber nicht die anderen Variablen. Um 1760 erfunden, gibt es heute eine große Zahl solcher Verfahren. Dieser Beitrag beginnt mit dem einfachsten, der Einfachen Linearen Regression (ELR).

Gierige Algorithmen bestimmen z. B. die Mindestmenge an Münzen für das jeweils nötige Wechselgeld. Im Bild sind die Schritte abgebildet, die ein Mensch gehen würde, um einen gierigen Algorithmus zu imitieren, der 36 Cents herausgibt, indem er Münzen mit den Werten {1, 5, 10, 20} verwendet. Die Münze mit dem höchsten Wert, der unter dem geschuldeten Betrag liegt, ist das „lokale Optimum“. (gemeinfrei)

Greedy-Algorithmen, oder gierige Algorithmen, bilden eine spezielle Klasse von Optimierungsalgorithmen, die in der Informatik auftreten. Sie zeichnen sich dadurch aus, dass sie schrittweise den Folgezustand auswählen, der zum Zeitpunkt der Wahl den größten Gewinn bzw. das beste Ergebnis (berechnet durch eine Bewertungsfunktion) verspricht z. B. Gradientenverfahren, so etwa die Berechnung von Wechselgeld oder des kürzesten Wegs. Greedy-Algorithmen sind oft schnell, lösen viele Probleme aber nicht optimal.

COVID-19 gelangt höchstwahrscheinlich über das Protein ACE2 in menschliche Lungenzellen. Dieser Prozess – Endozytose genannt – wird reguliert durch AAK1 (ein anderes Protein). Baricitinib hemmt AAK1 und könnte möglicherweise so auch das Eindringen von COVID-19 in die Lungenzellen verhindern. (Data Revenue)

Machine Learning ist ein bedeutendes Instrument im Kampf gegen die Corona-Pandemie. Wenn Bürger, Behörden und Unternehmen diese Gelegenheit nutzen, um Daten zu sammeln, vorhandenes Wissen zu vereinen und ihre Fachkenntnisse zusammenzubringen, können viele Leben gerettet werden – sowohl heute als auch in der Zukunft. Wie vielfältig die Einsatzgebiete von Machine Learning in diesem Rahmen sind, soll diese Übersicht zeigen, die von Data Revenue erstellt wurde.

Für bestimmte Anwendungsszenarien und die Speicherung von stark vernetzten Informationen bieten Graphdatenbanken einige Vorteile. Wir stellen die bekanntesten vor. (© flashmovie - stock.adobe.com)

Der Markt für Graph-Datenbanken blüht und wächst, denn die Nachfrage hinsichtlich der Analyse vernetzter Daten steigt rasch. Doch der IT-Nutzer fragt sich, welche Graph-Datenbank die leistungsfähigste ist und sich mit ihren Funktionen für ihn am besten eignet.

Wie funktioniert der Random-Forest-Algorithmus? Antworten gibt der 12. Teil unserer Grundlagenreihe. (© momius - stock.adobe.com)

Der Random-Forest-Algorithmus ist ein sogenanntes beaufsichtigtes Klassifikationsverfahren, das aus mehreren unkorrelierten Entscheidungsbäumen besteht, die eine Klassifizierung oder Vorhersage liefern. Weil sich die Entscheidungsbäume parallel verarbeiten lassen, kann der Algorithmus – bei entsprechend paralleler Ausführung – sehr schnell ausgeführt werden. Die Skalierung ist also leicht zu berechnen. Random Forests können auch der Regressionsanalyse dienen.

2013 führte der US-Paketdienst UPS das Navigationssystem ORION ein (On-Road Integrated Optimization and Navigation) ein. Dieses berücksichtigt garantierte Lieferfristen für einzelne Pakete, angemeldete Abholungen und spezielle Kundenklassen mit bevorzugter Bedienung sowie Daten aus dem Verkehrsfluss in Echtzeit. (UPS)

Ob beim Design von künstlichen Neuronalen Netzwerken fürs Deep Learning, in der Logistik oder beim Layout von Leiterplatten – überall stößt man auf das mathematisch lösbare Problem des Handlungsreisenden: Wie lässt sich eine Tour mit mehreren Stationen auf dem kürzesten Weg und mit dem geringsten Aufwand bewältigen?

Data Preparation kostet Zeit, ist aber unerlässlich. Geeignete Tools können den Prozess beschleunigen und vereinfachen. (© momius - stock.adobe.com)

Der Prozess der Datenaufbereitung umfasst die Reinigung, Formung und Mischung von Daten, damit sie für analytische und andere Aufgaben in optimaler Qualität bereitstehen. Nur mit erstklassigen Daten lassen sich beispielsweise Lösungen für Machine Learning und Künstliche Intelligenz effizient, sicher und zuverlässig versorgen.

Welches Modell ist für meine Daten am besten geeignet? Das Akaike Information Criterion kann diese Frage beantworten. (© Song_about_summer - stock.adobe.com)

Welches Modell ist für meine Daten am besten geeignet? Diese Frage stellt sich jeder Data Scientist. Mithilfe des seit 1974 in Japan veröffentlichten „Akaike Information Criterion“ (AIC) kann er die Antwort in kurzer Zeit finden.

Der monegassische Stadtbezirk Monte-Carlo (© Noppasinw - stock.adobe.com)

Eine Reihe von Algorithmen dient der Suche von Lösungen, ohne vorher die Antwort zu kennen, und von Entscheidungen, die nach „wahrscheinlich richtig oder falsch“ beurteilt werden. Das ist sinnvoll für das Risiko-Management, aber auch für die Nutzung von Supercomputern. Ein solcher Algorithmus ist der Monte-Carlo-Algorithmus und die darauf basierenden Simulationen

IDC hat die Studie „Industrial IoT in Deutschland 2021“ veröffentlicht. (© j-mel-stock.adobe.com)

Die jüngste IDC-Studie „Industrial IoT in Deutschland 2021“ zeigt, dass fast 40 Prozent der rund 250 befragten deutschen Unternehmen wegen COVID-19 ihre Investitionen in das IIoT erhöhen wollen. Nur 18 Prozent der Befragten planen, sie zu senken. Technologische Entwicklungen bei Edge Computing, 5G und KI/ML fördern neue Anwendungsszenarien und eine IIoT-Adaption.

IBMs neuer CEO Arvind Krishna eröffnete den IBM Data & AI Summit 2020. (2019 John O’Boyle)

Auf dem Online-Event „IBM Data & AI Summit 2020“ stellte Big Blues neuer CEO Arvind Krishna u. a. Erweiterungen für die KI-Technologien „Watson Assistant“ und „Project Debater“ vor. Während Watson Assistant als Framework die Erstellung von Chatbots für Banken, Callcenter und andere Funktionen erlaubt, nutzt Project Debater Sprachverarbeitungsmethoden, um virtuelle Debatten zu ermöglichen.

AWS hat HealthLake angekündigt, einen HIPAA-konformen Service für Organisationen im Gesundheitswesen und den Biowissenschaften. (© Chinnapong - stock.adobe.com)

Mit Amazon HealthLake sollen Kunden im Gesundheitswesen und in den Biowissenschaften leichter großen Datenmengen im Petabyte-Bereich analysieren können. Die neue Babelfish-Funktion für den Amazon-Aurora-PostgreSQL-Service greift das Lizenzgeschäft von Anbietern relationaler Datenbanken an und soll Kunden helfen, Lizenzgebühren zu sparen.

Ereigniszeitanalyse mit zensierten Daten für die Vertriebsabteilung: die Überlebensfunktion für Vertriebstechniker (durchgezogene Linie) und für Vertreter (gestrichelte Linie) in einem Kaplan-Meier-Schätzer. Vertriebstechniker sind ihrer Stelle wesentlich stärker und länger treu als Vertreter. Der blaue und rötliche Hintergrund deckt sich mit der jeweiligen Kurve. (SAS)

Die Ereigniszeitanalyse bzw. Survival Analysis umfasst eine Reihe von Werkzeugen der Statistik, mit denen die Zeit bis zum Eintritt eines bestimmten Ereignisses zwischen Gruppen verglichen wird. Auf diese Weise will man die Wirkung von prognostischen Faktoren, einer medizinischen Behandlung oder von schädlichen Einflüssen abschätzen. Bei dem Ereignis kann es sich um etwas so Endgültiges wie den Tod handeln, aber auch um den Verlust einer Arbeitsstelle, eine Scheidung oder einen Beginn, etwa um eine Geburt oder einen Heilungseintritt.

Arvind Krishna, der neue CEO der IBM (2019 John O’Boyle)

Auf der Online-Konferenz IBM Think Digital 2020 hat die IBM neue Services im Bereich KI, Hybrid Cloud und Edge Computing vorgestellt. Sie dienen zum einen der Automatisierung von Cloud- und IT-Abläufen unter KI-Einsatz, zum anderen sollen die Vorteile von Edge Computing und 5G den Kunden besser zugänglich gemacht werden.

„Artificial Intelligence of Things“: Die Verknüpfung von KI und dem IoT ermöglicht eine ganzheitliche Optimierung der Fertigung. (KUKA Group)

Zunehmend wird Machine Learning im IIoT-Umfeld genutzt. Der Anwendungsfall Predictive Maintenance greift jedoch viel zu kurz, warnt Christian Liedtke, Head of Strategic Alliances bei KUKA. Doch wenn man KI und IoT ganzheitlich zu AIoT kombiniere und in einer optimierten Smart Factory umsetze, könnten die Unternehmen Effizienzsteigerungen von bis zu 30 Prozent erzielen

60.000 angemeldete Teilnehmer aus über 100 Ländern besuchten den von Databricks organisierten Spark+AI Summit 2020. (Databricks)

Der von Databricks veranstaltete Spark+AI Summit startete kürzlich mit 60.000 angemeldeten Teilnehmern aus über 100 Ländern, die sich über die neuesten Trends und Entwicklungen aus der Welt der KI und des ML innerhalb der Apache Spark Community informierten. Databricks, der Erfinder und Betreuer von Apache Spark, hat sein 2018 vorgestelltes ML-Framework MLflow erweitert und der Open Source Community übergeben. Auf der neuen Version 3.0 von Spark bauen die neuen oder erweiterten Plattformkomponenten Delta Lake, Delta Engine und Redash auf.

2021 will Tableau Personal Spaces, Slack-Benachrichtigungen und einiges mehr realisieren. (Tableau)

Tableau, ein Spezialist für Datenvisualisierung, führt seine Plattform mit der von Salesforce zusammen, um seinen Kunden zusätzlich auch die KI- und Machine-Learning-Funktionen von Einstein Analytics zu bieten. Das Ergebnis wird Tableau CRM heißen. Weitere Integrationen mit Salesforce-Produkten, wie MuleSoft, sollen folgen.

Ab sofort steht das E-Book „Big-Data-Datenbanken“ für registrierte Leser von BigData-Insider kostenlos zum Download bereit. (Vogel IT-Medien)

Big-Data-Datenbanken sollen die unterschiedlichsten Datentypen schnell und effizient verarbeiten. Sie lösen die herkömmlichen, überwiegend relationalen Datenbanktypen ab, die meist ein Data Warehouse unterstützen. Sie lösen sie ab, um neue Geschäftsmodelle zu ermöglichen, oder sie ergänzen die Data-Warehouse-Architektur mit notwendige Fähigkeiten, etwa für Data Discovery, Realtime Analytics und Advanced Analytics (Prognose).

Ab sofort steht das E-Book „IoT-Echtzeitanalyse“ kostenlos zum Download bereit. (Vogel IT-Medien)

Das Sensor-gestützte Lieferketten-Management, die vorausschauende Wartung einer Windkraftanlage, der Arbeitsschutz von Mitarbeitern oder die KFZ-Versicherung eines vernetzten Autofahrers – sie alle haben eines gemeinsam: Ihre Daten werden in Echtzeit erfasst und einer zeitnahen Auswertung unterworfen. Das Internet der Dinge (Internet of Things, IoT) ist einer der größten Wachstumsbereiche der Industrie weltweit.

Illustration des Satzes von Bayes durch Überlagerung der beiden ihm zugrundeliegenden Entscheidungsbäume bzw. Baumdiagramme. (Qniemiec / CC BY-SA 3.0)

Mithilfe des Satzes von Bayes lassen sich Parameter schätzen und Hypothesen induktiv testen. In einem Spamfilter können so wahrscheinliche Spam-Mails ermittelt werden. Und aus den Symptomen, die bei einem bekannten Test auftreten, lassen sich wahrscheinliche Krankheitsursachen aufspüren. Der Satz von Bayes, der bedingte Wahrscheinlichkeiten beschreibt, ist also ein nahezu universell nutzbares Werkzeug der Statistik.

Das Hauptgebäude (Gartenansicht) der Munich Re (© Munich Re / Marcus Buck, München)

Munich RE hat Mitte vergangenen Jahres ein Projekt zur Einführung eines neuen Enterprise Data Warehouses (EDWH) für Rückversicherungsdaten erfolgreich abgeschlossen. Dabei wurde das klassische Reporting von Rückversicherungsdaten im Legacy-System „Global Data Warehouse (GDWH)“ auf eine moderne Business-Intelligence-Plattform migriert, die auf SAP BW on HANA basiert. Ziel des Projekts war die Implementierung der technischen Voraussetzung für die Anwendung moderner Business Intelligence für Rückversicherungsdaten.

Ein Bildschirmbeispiel des IBM-Services CloudPak for Data. (IBM)

Die IBM hat ihr umfassendes Datenbank-Portfolio aktualisiert. Zu den Produkten gehören das Urgestein Db2, aber auch Informix, die Netezza-Appliance und das relativ neue Cloud Pak for Data.

Operationalisierung von Advanced Analytics bedeutet die Überführung und Anwendung der aus dem Data Lab gewonnenen Erkenntnisse in die operativen Prozesse. (BARC, Tim Grosser)

Wenn einem BI-Nutzer Reports und Dashboards nicht mehr reichen, wird es Zeit für Prognose-Tools, die in den Disziplinen Advanced Analytics (AA) und Data Science zu finden sind. Doch AA-Modelle sind nur von begrenztem Wert, wenn man sie nicht in die Prozesse integriert. Wie der Übergang von BI zu AA gelingen kann, zeigt ein Webinar von BARC-Experte Timm Grosser.

Elif Tutuk, Forschungsleiterin bei Qlik (All Rights Reserved @gastonphotography.com)

Im Juni-2020-Release hat Qlik, ein Spezialist für Business Intelligence, sein Hauptprodukt Qlik Sense erheblich erweitert und dessen Cloud-Konnektivität ausgebaut, etwa zu Google Analytics und Twitter.

Für Mark Moffat, CEO von IFS, führt bei betriebswirtschaftlichen Anwendungen wie ERP oder CRM kein Weg an Künstlicher Intelligenz vorbei. Auf der IFS-Kundenkonferenz „IFS Unleashed“ präsentierte er 60 neue KI-Funktionen als Highlight des kommenden Herbst-Releases der IFS Cloud, das insgesamt 200 Neuerungen umfasst.

Beispiel für einen maximalen Schnitt (Miym / CC BY-SA 3.0)

Für verschiedene Probleme lassen sich nur durch Annäherung bzw. Approximation optimale Lösungen finden. Durch einen geeigneten Approximationsalgorithmus versuchen Informatiker, sich dem optimalen Ergebnis anzunähern, so etwa in der Graphentheorie, die Beziehungen in Netzwerken darstellt.

Machine Learning ist die einfachste Einstiegsform in Algorithmen für Software Services, die sich selbst optimieren. Diese Algorithmen eignen sich beispielsweise, um unscharfe Grenzbereiche genauer abzugrenzen oder um widersprüchliche Informationen aufzudecken, etwa im Bereich Kreditkartenbetrug. (© Weissblick - Fotolia.com)

Seit 2014 haben Anbieter wie Microsoft, IBM, Amazon und die Apache Software Foundation das maschinelle Lernen (Machine Learning, ML) gefördert und in der Cloud zur Verfügung gestellt. Erzwungen durch den Mangel an Data Scientists, bieten ML-Algorithmen einen leicht erlernbaren Weg, um Prognosen zu erstellen.

Kernidee von LOF ist, die lokale Dichte eines Punktes mit der seiner Nachbarn zu vergleichen- (gemeinfrei)

Um Trends zu erkennen, wird oft die Clusteranalyse herangezogen. Der k-Means-Algorithmus etwa zeigt an, wo sich Analyseergebnisse in einer Normalverteilung ballen. Für manche Zwecke ist es aber aufschlussreicher, Ausreißer zu untersuchen, denn sie bilden die Antithese zum „Normalen“, etwa im Betrugswesen. Der Local-Outlier-Factor-Algorithmus (LOF) ist in der Lage, den Abstand von Ausreißern zu ihren Nachbarn zu berechnen und deckt so Anomalien auf.

Ab sofort steht das E-Book „Wie Maschinen selbst lernen“ kostenlos für registrierte Leserinnen und Leser von BigData-Insider zum Download bereit. (Vogel IT-Medien)

Das E-Book „Wie Maschinen selbst lernen“ stellt Methoden, Technologien und Produkte vor, mit denen Unternehmen Machine-Learning-Modelle und Algorithmen für nutzbringende Anwendungsfälle verwenden können. Die Technologie um Machine Learning und Deep Learning, allgemein „Künstliche Intelligenz“ (KI) genannt, hat in den vergangenen Jahren einen rasanten Aufschwung erlebt. Es gibt kaum noch einen Anwendungsbereich, in dem noch keine Algorithmen in den Prozessen werkeln, ober in der Fabrik oder im Weltall.

Das E-Book „Predictive Analytics“ steht ab sofort für registrierte Leser von BigData-Insider kostenlos zum Downlload bereit. (Vogel IT-Medien)

Predictive Analytics ist ein Teilbereich von Business Intelligence, der sich in erster Linie mit zu erwartenden und möglichen Ereignissen beschäftigt. Er fragt, was unter welchen Voraussetzungen passieren wird oder passieren sollte. Das ermöglicht Prognosen in zahlreichen Wirtschaftsbereichen, sei es im Vertrieb, in der Fertigung, im Einzelhandel oder in der Luftfahrt. Die Prognoseresultate werden in der Regel mit ergänzender Software visualisiert und interaktiv in Teams diskutiert, weitergeleitet und bearbeitet.

Clemens Mewald, Director of Product Management, Data Science and Machine Learning bei Databricks (Databricks)

Das von den ursprünglichen Entwicklern von Apache Spark gegründete Unternehmen Databricks hat seine Unified Analytics Platform um eine weitere Komponente erweitert. Zu den vorhandenen Komponenten Delta Lake, Delta Engine und Redash, die auf der neuen Version 3.0 von Spark aufbauen, kommt nun SQL Analytics hinzu. Dieser SQL-Editor unterstützt mit Konnektoren bislang die BI-Lösungen von Tableau und Microsoft.

Apache Spark erfreut sich zunehmender Beliebtheit und Unterstützung im Bereich der Big-Data-Analysen und löst zunehmend Hadoop ab. Branchengrößen wie IBM und Intel vertreiben Spark und kooperieren mit dessen kommerziellem Anbieter DataBricks.

Prinzipbild des Rete-Algorithmus. Deutlich sind zwei Netzwerke (Alpha, Beta) zu erkennen und dass darin jeweils sehr viel Speicher benötigt wird. Dieser hohe Speicherbedarf ist einer der wenigen Nachteile des Rete-Algorithmus. (gemeinfrei)

Geschäftsregeln halten zahlreiche Unternehmensprozesse am Laufen, deshalb können sie mitunter sehr umfangreich werden. Der Umfang macht ihre Ausführung zeitaufwendig, weshalb jede Methode, sie zu beschleunigen, willkommen ist. Der Rete-Algorithmus beschleunigte 1979 die damals bestehenden Systeme für die Verarbeitung von Business Rules um den Faktor 3.000. Er ist bis heute die Grundlage zahlreicher Expertensysteme, etwa in der Mustererkennung.

Das ist neu in der Tibco Cloud. (Tibco / Matzer)

Der Business-Analytics-Spezialist Tibco integriert Event-Streaming in seine BI-Suite Spotfire und erweitert deren Fähigkeiten zur Datenverwaltung mit den Tools „Any Data Hub“ und „SmartMapper“. Im Bereich Business Process Management (BPM) erweitert der Hersteller sein Responsive Application Mesh (RAM).

Eine Wagon-Intelligence-Telematikeinheit an einem Containertragwagen. Bereits über 25.000 Wagen wurden damit ausgerüstet. Die gesamte Flotte folgt bis 2020. (amspire lab/DB Cargo)

Splunk Enterprise, das Hauptprodukt des Operational-Intelligence-Spezialisten Splunk, ist bei DB Cargo im Einsatz, der Güterbahnsparte der Deutschen Bahn. Im Zuge der Digitalisierung und Automatisierung des Güterverkehrs und des Fuhrparks hilft Splunk Enterprise bei der Datenerfassung und -analyse in den Projekten „Wagon Intelligence“ und „TechLOK“. Die Software-Entwicklung der beiden Projekte findet im DB Cargo amspire lab in Frankfurt am Main statt.

QuickSight lässt sich derzeit entweder im Web-Browser oder in der iPhone-App ausführen. (Amazon/Matzer)

Self-Service BI ist schon seit Jahren der wichtigste Trend im Bereich Business Intelligence. Mitarbeiter in Fachbereichen erstellen Ad-hoc-Abfragen und analysieren Leistungsdaten. Mit QuickSight macht Amazon nun bekannten Cloud-Angeboten wie Qlik, Tableau, Microsoft PowerBI und SAP Lumira Konkurrenz.

Sport-Analytik erlaubt zeitnahe Auwertungen von Spielen, Sportlern und Statistiken für die Zuschauer, aber auch für Vereine und Trainer und Verbände. (© kentoh - stock.adobe.com)

Die drei Analytik-Anbieter SAS, Exasol und Amazon Web Services haben den Sport als Wachstumsmarkt entdeckt. Zudem sind Organisationen wie die Deutsche Bundesliga auf Innovationen bei ihren Zuschauerangeboten angewiesen, um konkurrenzfähig zu bleiben. Mit den Lösungen der drei Anbieter reicht das Angebot von der einfachen Sportgrafik bis hin zu KI-basierten Angaben und Vorhersagen, die in Echtzeit angezeigt werden.

Mistral AI ist ein 2023 gegründetes französisches Softwareunternehmen, das mit herausragenden LLMs von sich reden gemacht hat. Mit einer Marktkapitalisierung von über sechs Milliarden US-Dollar im Juni 2024 ist es in Europa Marktführer. Mit einer Vielzahl von Modellen lassen sich KI-Agenten, Apps ebenso wie KI-Bilder erzeugen – häufig kostenlos. Anfang Februar hat Mistral AI eine neue Version seines Chatbots „Le Chat“ vorgestellt und wurde Partner von Databricks.

Ab sofort steht das E-Book „Cognitive Computing“ kostenlos zum Download bereit. (Vogel IT-Medien)

Überall sprechen die IT-Anbieter von Künstlicher Intelligenz (KI), ohne jedoch genau zu definieren, was sie damit meinen. Der KI-Hype überwiegt zunehmend das, was im Kern an Nutzen für den IT-Nutzer verborgen ist. Höchste Zeit, dass die Disziplinen, die sich hinter KI verbergen, beleuchtet werden. Neben Machine Learning ist hier vor allem Cognitive Computing zu nennen.

Das Konzept des Digital Thread im Industrial Internet of Things (IIoT) ist nicht neu, denn es verbindet alle Stationen und Phasen eines Produktzyklus vom Design bis zur Produktion. Aber es umzusetzen, ist nicht einfach, denn es gibt Schnittstellen zu überwinden. PTC hat den Digital Thread um Service Management und Nachhaltigkeit erweitert. Aus dem „Faden“ ist ein unendlicher Lebenszyklus geworden.

Das IBM Watson IoT Center in München ragt mit zwei Türmen in den bajuwarischen Himmel. (IBM)

Die IBM hat am 16. Februar offiziell die Türen des neuen globalen Hauptsitzes für ihren neuen Geschäftsbereich Watson IoT in München geöffnet. Ziel der 200-Millionen-US-Dollar-Investition ist es, die technischen und wirtschaftlichen IoT-Potenziale weiter auszuloten. Zudem gab IBM den offiziellen Startschuss für den Aufbau eines neuen, weltweiten Innovationsökosystems rund um künstliche Intelligenz (AI) und IoT. Mitglied dieses Ökosystems ist unter anderem BMW. Weitere Partnerschaften betreffen Bosch und Visa.

Michael Gould, Gründer von Anaplan (Anaplan)

Der US-Hersteller Anaplan will den deutschen Markt für Enterprise Planning Software erobern. Statt mit Excel-Tabellen oder starrer Programmierung soll seine Software mit flexiblen Modulen alle nötigen Informationsquellen vernetzen und in einem sogenannten Hyperblock bereitstellen – natürlich in der Cloud.

Andrea Martin, Leiterin des IBM Watson Center Munich und Mitglied des KI-Rates der Bayerischen Staatsregierung (IBM)

Eine Studie von Morning Consult hat untersucht, welche Bedingungen für die Einführung von KI-Technologien und -Lösungen im Business erfüllt sein müssen. Einer der wichtigsten – mit 91 Prozent – ist die Vertrauenswürdigkeit von KI-Ergebnissen. Andrea Martin, die Leiterin des IBM Watson Centers Munich, liefert dazu klare Antworten.

Großes Interesse: IBM konnte zahlreiche Gäste auf dem IBM Watson Summit 2017 begrüßen. ( IBM )

Auf dem IBM Watson Summit 2017 in Frankfurt/Main haben führende europäische Unternehmen wie Kone, Lufthansa, Siemens oder Telekom ihre Digitalisierungsprojekte vorgestellt, die sie auf der Basis von Watson realisiert haben oder demnächst vorstellen. Darunter befand sich auch einer der ersten deutschen Chatbots.

Der Datenbankspezialist Teradata hat auf seiner Kundenkonferenz „Teradata Possible 2023“ in London mit dem Tool „ask.ai“ Funktionen der generativen KI für seine Plattform VantageCloud Lake auf MS Azure vorgestellt.

Die Architektur von Stackable umfasst Operatoren, Agenten sowie zahlreiche Services, die unter anderem von Gaia-X und OpenTelemetry kommen können. (Stackable)

Das deutsche Start-up Stackable bietet Big-Data-Lösungen in der Enterprise Cloud an, die von Ionos betrieben wird. Im Unterschied zu den Angeboten der Hyperscaler basiert das Angebot von Stackable auf einer offenen und flexiblen Plattform, die durchgängig auf Open-Source-Komponenten setzt. Kunden haben hier die freie Wahl, welche Tools sie in welcher Version kombinieren möchten. So sollen sich maßgeschneiderte, Open-Source-basierte Lösungen erstellen lassen, die den Kunden nicht an einen bestimmten Anbieter binden.

Der Nutzungsbereich großer Sprachmodelle (LLM) und Basismodelle (Functional Models) wird durch den Einsatz von Retrieval Augmented Generation (RAG) erheblich erweitert. Graph-Datenbanken können mit ihrer spezifischen Technologie GraphRAG die Genauigkeit erheblich steigern. BigData-Insider sprach mit Michael Hunger, Head of Product Innovation & Developer Product Strategy beim Graph-Datenbankanbieter Neo4j.

1
2
3
4
...
9