Unsere Empfehlungen für Software, Literatur und Datenquellen zur Durchführung von Data Science Projekten

Willkommen in der Data Science Materialsammlung, kuratiert von der GEOMAR DSU. Hier stellen wir eine Liste von Links und Beschreibungen von Materialien zur Verfügung, die wir im Zusammenhang mit Data Science für hilfreich halten: Kurse, Bücher, Veröffentlichungen von Anwendungsfällen, Datensätze usw. Wir aktualisieren diese Sammlung ständig, wenn wir auf relevante Beiträge stoßen. Teilen Sie uns auch Ihre Empfehlungen mit - wir fügen sie hier gerne hinzu.

Helmholtz Summer School

"From Data to Knowledge": Schaut euch das umfangreiche Programm hier an: https://events.hifis.net/event/1590/program
Die Summer School läuft virtuell vom 16 – 27 September 2024 und steht allen Forschenden und Mitarbeiter:innen der Helmholtz Gemeinschaft offen.

Trainings - Material

Kurse

Intern:

Extern:

  • HiDA: Die Helmholtz Information & Data Science Academy ist Deutschlands größtes Weiterbildungsnetzwerk im Bereich der Informations- und Datenwissenschaften.
  • MATLAB: Wenn Sie spezielle Fragen oder Probleme mit Ihrem Matlab-Code haben, gibt es zwei Personen bei Mathwork (der Firma hinter Matlab), die Helmholtz-Zentren unterstützen ( Mihaela Jarema (mjarema@mathworks.com) und Kostas Leptokaropoulos (kleptoka@mathworks.com).
  • Seminar ML in Earth sciences by HEREON: Jeden zweiten Dienstag ,15 Uhr.
  • Data Carpentry workshops: Regelmäßig stattfindende Workshops zu verschiedenen Aufgaben und Software; Newsletter-Abonnement möglich;
  • Helmholtz-AI-Consultants Erde und Umwelt: Ziehen Sie sich einen Berater hinzu, der Sie bei Ihrem ML-Projekt begleitet.
  • Open Campus SH: On- & offline (in-person) -Kurse für ML und viele mehr.
  • Roboflow: Online Computer Vision library & tutorial
  • HPC-Kurse an der Uni: Einführung in die HPC Infrastruktur an der CAU Kiel
  • Data Train Uni Bremen Research Alliance: Data Science Kurse (zum Beispiel: Big Data Handling, Machine Learning and Python Basics und viele mehr)
  • Online free Python courses

    Es ist schwierig, einen bestimmten Kurs zu empfehlen, ohne den Hintergrund der Programmierung und die jeweilige Anwendung zu kennen. Wenn Sie bereits Programmiererfahrung haben, können wir empfehlen, einfach mit einem Cheat sheet für Python anzufangen. Dieser kann ganz einfach einen Anfängerkurs für Python ersetzen und dann können Sie mit fortgeschritteneren Kursen beginnen.

    Einige Beispiele für cheat sheets:

    Online cheat sheet

    pdf cheat sheet (etwas unübersichtlich, aber auch hilfreich)

    pdf cheat sheet

    Wir empfehlen, nach einem Kurs zu suchen, der auf Data Science ausgerichtet ist, denn Python ist so vielseitig, dass manche Kurse viele Themen abdecken, die für Naturwissenschaftler nicht unbedingt nützlich sind.

  • Einen sehr empfehlenswerten self-study-Kurs zum Thema "Multivariate Data Analysis" via Open Classrooms findet ihr hier.

  • The carpentries platform

    Dies ist die Plattform, die wir auch für unseren Kurs verwenden, sie ist im Allgemeinen gut gepflegt und validiert.

    Software carpentry

    Dies ist ein Python-Kurs, der auf Data Science ausgerichtet ist und durch die Anwendung von Python auf ein reales Problem lehrt.

    Kaggle platform

    ist auf Data Science und Daten ausgerichtet und bietet Anfängerkurse in Python an

    Python homepage

    Die Python-Gemeinschaft selbst bietet viel Material zum Lernen an

  • Weitere Plattformen bieten eine große Auswahl an Kursen an. Die meisten von ihnen sind kostenlos, vor allem wenn Sie keine Prüfungen ablegen und ein offizielles Zertifikat benötigen:

    EdX platform

    Georgia Tech Python Kurs - sehr hohe Qualität, die Anfängerkurse sind sehr gut, aber auch sehr langsam, wenn Sie bereits Codierungserfahrung haben, hilft es, die Videos zu beschleunigen...

    Coursera platform

    bietet - wie EdX - eine Vielzahl von Kursen an, darunter Python-Kurse für Anfänger und andere Anwendungen

    Codeacademy platform

    wieder ein riesiges Angebot an kostenlosen Kursen

    Udemy platform

    und eine weitere Plattform für Kurse, hat ebenfalls einen guten Ruf

     

Bücher

Machine learning

  • Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition. by Aurélien Géron. Released September 2019. Publisher(s): O'Reilly Media, Inc.

Python

  • "Python for Data Analysis, 3E" by Wes McKinney: interne Empfehlung als "Bible für pandas und numpy" (pdf-link: https://oceanofpdf.com/authors/wes-mckinney/pdf-python-for-data-analysis-3rd-edition-download/?id=001835841878)

  • "Python Crash Course: A Hands-On, Project-Based Introduction to Programming" by Eric Matthes

  • "Automate the Boring Stuff with Python: Practical Programming for Total Beginners" by Al Sweigart

  • "Python for Everybody: Exploring Data in Python 3" by Charles Severance

  • "Learning Python, 5th Edition" by Mark Lutz

  • "Python Programming: An Introduction to Computer Science, 3rd Edition" by John Zelle

  • "Introduction to Python for Science and Engineering" by David J. Pine

  • "Python Basics: A Practical Introduction to Python 3" by Real Python

  • "Think Python: How to Think Like a Computer Scientist" by Allen B. Downey

  • "Python 101: A Crash Course in Python Programming" by Mike Driscoll

  • "Python Programming for the Absolute Beginner, 3rd Edition" by Michael Dawson

Predictive (habitat) mapping

 

Resources

Eine Auswahl an Datensets und Portalen

Marine Data Portal: Zeigt verfügbare Daten aus Ihrem Forschungsgebiet von allen DAM-Partnern: Bathymetrie-, Sediment- und Beobachtungsdatensätze, CONMAR-Datensätze;

PANGAEA: Im Weltdatenzentrum PANGAEA veröffentlichte Meeres- und Umweltdatensätze.

Geoserver: Veröffentlichung und gemeinsame Nutzung von Geodaten

OSIS: Alle Informationen über Expeditionen, numerische Modelle und Experimente.

ZPL : Suche nach den am GEOMAR gelagerten Gesteinsproben und Sedimentkernen

WDC Climate: Veröffentlichte Datensätze im Weltdatenzentrum Klima im Deutschen Klimarechenzentrum (DKRZ).

GEOMAR OPeNDAP Service: Daten aus begutachteten Artikeln mit Ergebnissen aus numerischen Modellen.

DSHIP Underway Dat of RVs: The recorded underway data of the German research vessels are transferred ashore and archived in the long term. They can be accessed and exported via interlinked web services at GEOMAR, BSH and AWI.

Google Earth Engine: Globale Satellitendaten finden, herunterladen und verarbeiten

USGS Earth Explorer: Quelle für Satellitendaten; Auswahl aus vielen verschiedenen Satelliten; Möglichkeit, Shape-Dateien zu importieren, um Bildmaterial für bestimmte Gebiete zu exportieren.

Boknis Eck Zeitserien-Daten: Monatliche Proben seit 1957 an der Zeitserienstation Boknis Eck (BE) in der westlichen Ostsee.

IHO DCDB Bathymetrie Daten-Viewer: Sammlung von weltweit vorhandenen bathymetrischen Daten einschließlich der Daten der international wichtigsten bathymetrischen Datenquellen.

Real time Data: Echtzeitdaten von wissenschaftlichen Plattformen, die von GEOMAR-Forschungsgruppen installiert wurden.

BIS Biosample Management : biologische Proben von GEOMAR - Expeditionen

MDI DE Portal: Plattform für marine Geodaten von Marine Dateninfrastruktur Deutschland

OBIS : Datenbank zur biologischen Vielfalt der Meere

IMLGS from NOAA: marine und lakustrine geologische Proben

EarthChem: globale Sammlung geochemischer Meeresbodenproben

Kaggle datasets: KI-geeignete Datensätze für die unterschiedlichsten Anwendungsbereiche

 

Data Viewer

Digital Earth Viewer: Visualisiert räumliche Zeitseriendatensätze in Echtzeit. Der Viewer ist in der Lage, mit verschiedenen Datentypen umzugehen und erleichtert die interaktive Exploration von verschiedenen Datensätzen an einem Ort. Als Inhouse-Produkt kann direkter Support angeboten werden.

ARENA 2: Erkunden Sie Ihre Daten in einer hausinternen Projektionskuppel. Es visualisiert 2-4D-Geodaten, Modellläufe, großformatige Videos, Fotos und ermöglicht Telepräsenz.

BELUGA: Visualisierung von Daten verschiedener Plattformen; neben der Visualisierung der Plattform-Daten ist ein wesentlicher Teil von BELUGA auch das Unterwasser Netzwerk (Kummunikation und Navigation unter Wasser).

 

Tools

Geospatial data

ArcGIS Add-on Benthic Terrain Modeller: Werkzeug-Zusammenstellung zur Untersuchung und Klassifizierung benthischen Terrains

Geopandas: Python GeoPandas ist eine beliebte Open-Source-Bibliothek für die Arbeit mit Geodaten, die es den Benutzern ermöglicht, geografische Informationen innerhalb der Python-Umgebung einfach zu manipulieren, zu analysieren und zu visualisieren.

QGIS: QGIS ist eine freie und Open-Source-Software für geografische Informationssysteme (GIS), mit der Benutzer geografische Daten erstellen, bearbeiten, visualisieren und analysieren können.

GDAL: GDAL (Geospatial Data Abstraction Library) ist eine Open-Source-Softwarebibliothek, die eine Reihe von Werkzeugen und Bibliotheken für die Arbeit mit Raster- und Vektor-Geodatenformaten bereitstellt und eine vielseitige Bearbeitung und Konvertierung von Geodaten ermöglicht.

R landscape metrics: R-Landschaftsmetriken sind eine Sammlung quantitativer Maße und Statistiken, die in der Programmiersprache R verwendet werden, um die räumlichen Muster und Merkmale von Landschaften zu bewerten und zu analysieren, was sie zu einem wertvollen Werkzeug für die Landschaftsökologie und die Flächennutzungsplanung macht.

Computer Vision and Image processing

OpenCV: Python OpenCV ist eine leistungsstarke Open-Source-Computer-Vision-Bibliothek, die es Entwicklern ermöglicht, eine breite Palette von Bild- und Videoverarbeitungsaufgaben mit der Programmiersprache Python durchzuführen.

Colmap: COLMAP (Structure-from-Motion and Multi-View Stereo) ist eine Bildverarbeitungssoftware, die auf die Rekonstruktion von 3D-Szenen aus 2D-Bildern spezialisiert ist und sich daher für Aufgaben wie Photogrammetrie und 3D-Modellierung eignet.

Metashape: MetaShape, ist eine professionelle Fotogrammetrie-Software, mit der Benutzer hochwertige 3D-Modelle und Karten aus einer Sammlung von 2D-Bildern erstellen können.

Python packages

Pandas: Das Python-Paket pandas ist eine leistungsstarke und beliebte Bibliothek zur Datenmanipulation und -analyse, die einfach zu verwendende Datenstrukturen und Werkzeuge für die Arbeit mit strukturierten Daten bietet.

Bokeh: Das Python-Paket Bokeh ist eine Datenvisualisierungsbibliothek, die eine einfache und interaktive Möglichkeit bietet, webbasierte Visualisierungen für moderne Browser zu erstellen.

Holoviz: Das Python Holoviz-Paket ist eine Sammlung von Open-Source-Tools für die Datenvisualisierung und -exploration, mit denen Benutzer schnell interaktive Visualisierungen mit minimalem Code erstellen können.

Panel: Das Python-Panel-Paket ist eine Bibliothek, mit der Benutzer auf einfache Weise interaktive webbasierte Dashboards und Anwendungen aus Python-Code erstellen können, wobei eine breite Palette von Datenquellen und Visualisierungswerkzeugen unterstützt wird.

Blender: Blender ist ein vielseitiges und Open Source 3D-Computergrafik-Toolset, das Modellierung, Animation, Rendering, Compositing und vieles mehr unterstützt.

Sonstige

D3.js: Hervorragende Java-Script-Bibliothek für Datenvisualisierung (genauer gesagt DOM-Manipulation). Vergleichsweise niedriges Niveau mit einer steilen Lernkurve.

Machine Learning Playground: Machine Learning Playground ist ein Open-Source Projekt mit dem Ziel, Studenten und interessierten einen angeleiteten Einstieg in die komplexe Welt des maschinellen Lernens zu eröffnen.

Hands on ML: Eine Reihe von Jupyter-Notebooks, die durch die Grundlagen des maschinellen Lernens und des Deep Learning in Python mit Scikit-Learn, Keras und TensorFlow 2 führen.

R Basics — Everything You Need to Know to Get Started with R: Eine gut nachzuvollziehender "Towards Data Science"-Artikel zur Einführung in das Arbeiten mit R  

Seeing Theory: Seeing Theory ist eine interaktive Online-Ressource, die einen intuitiven und visuellen Ansatz zum Verständnis komplexer Wahrscheinlichkeits- und Statistikkonzepte bietet.

Distill: Distill ist eine Open-Access-Online-Publikationsplattform, die den Schwerpunkt auf klare, interaktive und visuell ansprechende Artikel legt, um Forschungsergebnisse und Konzepte in verschiedenen akademischen Disziplinen effektiv zu vermitteln.

Colah: Colah ist der blog eines prominenten Forschers und Bloggers auf dem Gebiet der künstlichen Intelligenz, der für seine aufschlussreichen und verständlichen Texte über Deep Learning und neuronale Netze bekannt ist.

Kaggle: Kaggle ist eine Online-Plattform und -Gemeinschaft, die Wettbewerbe zum maschinellen Lernen, Datensätze und Notebooks bereitstellt, die Zusammenarbeit fördert und es Datenwissenschaftlern und Enthusiasten des maschinellen Lernens ermöglicht, zu üben, zu lernen und ihre Fähigkeiten zu präsentieren.

Scientific color maps: Diverse zitierbare color maps designed für unterschiedliche wissenschaftliche Visualisierungs-Anwendungen zum Download.

Environmental Data Science book: präsentiert und unterstützt die Veröffentlichung von Daten, Forschungsergebnissen und Open-Source-Tools, die Data Science und KI zur Charakterisierung, Überwachung und/oder Modellierung einer Vielzahl von Umweltsystemen nutzen.