Programmieren mithilfe von KI Verbessert Github Copilot die Codequalität? Das sagen die Daten

Von Ulrike Ostler 3 min Lesedauer

Anbieter zum Thema

Kaum zu glauben: Nach den Ergebnissen der Github-Studie aus dem Winter des vergangenen Jahres zeigt sich, dass die Qualität des mit „Github Copilot“ geschriebenen Python-Codes deutlich funktionaler, lesbarer, zuverlässiger, wartbarer und prägnanter ist.

Das Github Customer Research Team hat im Winter 2024 untersucht, ob sich die Code-Qualiät dirch den Einsatz des KI-Werkzeugs „Github Copilot“ verbessert. (Bild:  Github)
Das Github Customer Research Team hat im Winter 2024 untersucht, ob sich die Code-Qualiät dirch den Einsatz des KI-Werkzeugs „Github Copilot“ verbessert.
(Bild: Github)

Seit der Veröffentlichung von Github Copilot sind mehr als zwei Jahre vergangen und seither habe sich die Software-Entwicklung grundlegend geändert, heißt es in der Github-Veröffentlichung zur Studie. In diesem Zeitraum habe die KI-Assistenz den Programmierern geholfen, bis zu 55 Prozent schneller zu programmieren. Frühere Untersuchungen hätten auch gezeigt, dass 85 Prozent der Entwickler mehr Vertrauen in ihren Code hatten und 88 Prozent sich unter Einsatz von Github Copilot besser im Fluss gefühlt hätten.

Doch ist die Qualität des geschriebenen Codes auch objektiv besser oder schlechter geworden. Dazu ein Blick auf die Methodik der Umfrage (siehe Kasten), deren Design und statistische Analyse auf der Zusammenarbeit mit Lizzie Redford, Ph.D. und Sida Peng, Ph.D. beruht.

Die Studienmethode

Die Methode teilt sich in zwei Phasen: In der ersten wurden 243 Entwickler mit mindestens fünf Jahren Python-Erfahrung rekrutiert. Nach dem Zufallsprinzip durften sie Copilot nutzen oder auch nicht. Jede Gruppe hatte eine Programmierübung für einen Webserver mit fiktiven Restaurantbewertungen zu absolvieren, mit 10 Unit-Tests zur Bewertung der Funktionalität. Es kamen gültige Einsendungen von 202 Entwicklern zustande - 104 mit Github Copilot und 98 ohne.

In der zweiten Phase bekamen die Entwickler ebenfalls zufällig Einsendungen zugewiesen, die sie anhand vorgegebener Rubriken bewerten sollten. Sie wussten nicht, ob der Code mit KI-Unterstützung zustande gekommen war. Jede Einsendung wurde von mindestens zehn verschiedenen Teilnehmern überprüft; et hab also 1.293 Überprüfungen.

Die Entwickler nutzten das vorgegebene Schema, um eine zeilenweise das zu testen, was sich auf die Identifizierung von Codefehlern konzentrierte. Außerdem gaben sie eine Gesamtbewertung des Beitrags hinsichtlich Lesbarkeit, Zuverlässigkeit, Wartbarkeit und Prägnanz ab und entschieden, ob der Beitrag genehmigt werden sollte.

Was waren 'Code-Fehler'?

Code-Fehler wurde als solche definiert, wenn dadurch die Fähigkeit, den Code leicht zu verstehen, beeinträchtigt war. Damit waren funktionalen Fehler ausgeschlossen, die verhindert hätten, dass der Code wie beabsichtigt funktioniert. Als Fehler galten solche, die schlechte Kodierungspraktiken darstellten. Dazu gehörten inkonsistente Namensgebung, unklare Bezeichner, übermäßige Zeilenlänge, übermäßiger Leerraum, fehlende Dokumentation, sich wiederholender Code, übermäßige Verzweigungen oder Schleifentiefe, unzureichende Trennung der Funktionen und variable Komplexität.

Die wichtigsten Ergebnisse:

  • Erhöhte Funktionalität: Entwickler, die Zugang zu Github Copilot-Zugang bekamen, hatten eine um 56 Prozent höhere Wahrscheinlichkeit, alle zehn Unit-Tests in der Studie zu bestehen. Das deutet laut Github darauf hin, dass die KI Entwicklern hilft, funktionelleren Code zu schreiben.
  • Bessere Lesbarkeit: Bei Blindprüfungen wies der mit GitHub Copilot geschriebene Code deutlich weniger Lesbarkeitsfehler auf, so dass die Entwickler im Durchschnitt 13,6 Prozent mehr Codezeilen schreiben konnten, ohne auf Lesbarkeitsprobleme zu stoßen.
  • Bessere Codequalität: Die Lesbarkeit verbesserte sich um 3,62 Prozent, die Zuverlässigkeit um 2,94 Prozent, die Wartbarkeit um 2,47 Prozent und die Prägnanz um 4,16 Prozent. Alle Zahlen waren statistisch signifikant.
  • Höhere Genehmigungsraten: Entwickler genehmigten den KI-Tool-unterstützten Code, der mit einer um 5 Prozent höheren Wahrscheinlichkeit. Das bedeute, dass solcher Code früher zusammengeführt werden könne und sich die Zeit, die für die Behebung von Fehlern oder die Bereitstellung neuer Funktionen verkürzen lässt.

Die Code-Qualität

Während die Anzahl der Commits und der geänderten Codezeilen in der Github Copilot-Gruppe deutlich höher war, war die durchschnittliche Commit-Größe etwas geringer. Dies deute darauf hin, so Github, dass das KI-Tool es den Entwicklern ermöglichte, den Code zu iterieren, um seine Qualität zu verbessern. „Unsere Hypothese ist, dass die Entwickler weniger Zeit damit verbrachten, ihren Code funktional zu machen, und sich daher mehr auf die Verbesserung seiner Qualität konzentrieren konnten“, so das Github Costomer Research Team.

(ID:50312827)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung