KI-Text-to-Speech, halb Mensch und halb Roboter, lesendes Wesen

Künstliche Intelligenz im Bildungswesen – Tutorial 3 “Konvertierung von Text zu Audio”

Willkommen zu einem neuen Blogartikel, in dem ich dir ein weiteres, spannendes KI-Tool präsentiere. In diesem Tutorial führe ich dich Schritt für Schritt durch den Prozess der Text-zu-Audio-Konvertierung. Egal, ob du ein KI-Enthusiast bist, ein Content-Ersteller, der nach neuen Wegen sucht, Inhalte zu erzeugen, oder du einfach nur neugierig auf die Möglichkeiten der Sprachtechnologie bist: Dieser Beitrag bietet dir einen tiefen Einblick in die faszinierende Welt der Sprachsynthese.

Einleitung

Bei der Konvertierung von Text zu Audio gibt es eine Menge Tools, darunter unter anderem:

Diese Tools sind allesamt in der Lage, geschriebenen Text in lebensechte Sprache zu konvertieren. Ich persönlich bin bisher sehr gut mit der Audioinhaltserstellung von Microsoft Azure KI gefahren. In diesem Tutorial zeige ich dir, wie du das Tool am besten anwendest: Vom Setup bis hin zum finalen Export der Audiodatei.

Audio-Beispiel

Du fragst dich nun bestimmt, wie das Ganze klingt: Mache dich mit einem Audio-Beispiel vertraut, indem du auf das Icon klickst:

Audio Icon

Quiz mit Gewinnspiel

Doch bevor wir mit dem Tutorial loslegen, möchte ich dich einladen, das nachfolgende Quiz zum Thema “Künstliche Intelligenz” durchzuführen. Da wir mittlerweile im Endspurt dieser Blogreihe sind (6 von 8 Artikel sind bereits veröffentlicht) und du bereits einiges zu KI erfahren hast, kannst du dein Wissen gerne testen.

Unter allen Teilnehmerinnen und Teilnehmern wird ein Digitec-Gutschein im Wert von CHF 50.00 verlost. Es lohnt sich also mitzumachen!🎉

Ob du gewonnen hast, erfährst du am Ende dieser Blogreihe zwischen Anfang und Mitte Dezember per E-Mail!🙏


Hier geht’s zum Quiz

Setup

Da ich dich in diesem Tutorial nicht mit dem eher langweiligen und theoretischen Einrichten deines Text-to-Speech-Kontos bei Microsoft Azure KI belästigen will, kannst du dir die Schritt-für-Schritt-Anleitung über den nachfolgenden Button herunterladen. Nimm dir ein paar Minuten Zeit für das Setup. Es sollte nicht lange dauern. Bei technischen Fragen stehe ich dir in den Kommentaren gerne zur Verfügung.


Setup

Tutorial

Nachdem die Einrichtung geklappt hat, solltest du in etwa folgendes Interface vor dir haben:

Konvertierung von Text zu Audio Screenshot 1

1. Textdatei erstellen

Unter “Datei” und dann “Neue Textdatei” kannst du eine Datei erstellen, in die du anschliessend deinen Text kopierst (oder reintippst), den du zu Audio konvertieren möchtest. Ich empfehle dir auch mit einer sauberen Ordnerstruktur zu arbeiten, damit du deine generierten Audioinhalte thematisch strukturieren kannst und gut wiederfindest. Im vorliegenden Beispiel siehst du dazu den “Beispielordner”. Du kannst natürlich mehrere Ordner erstellen, je nachdem, was für deine Zwecke nützlich ist.

2. Texteingabe

Nachdem du die Textdatei erstellt hast, kann der kreative Prozess beginnen. Schreibe dazu deinen Text von Hand ins Feld oder kopiere einen Text deiner Wahl.

Als absoluter KI-Crack, was du ja mittlerweile sicher bist, lohnt sich auch eine Synergienutzung mit ChatGPT. Lass deinen Text von ChatGPT schreiben und im Anschluss von Microsoft Azure KI vertonen. In der Zwischenzeit kannst du dir ein kühles Bier gönnen oder ein Gläschen Champagner einschenken und es dir gut gehen lassen!🍻🥂

Wenn du dir nicht mehr sicher bist, wie du ChatGPT am besten einsetzt, empfehle ich dir meinen Blogartikel dazu.

3. Einstellungsmöglichkeiten

Im rechten Bereich der Seite findest du diverse Einstellungen, die du vornehmen kannst:

  • Beginne zuerst mit der Einstellung der Sprache. Standardmässig ist Englisch eingestellt. Wenn du beispielsweise ein hochdeutsches Audio haben willst, kannst du im Dropdown-Menü “Deutsch (Deutschland)” einstellen. Du kannst auch Schweizerdeutsch einstellen, dies ist aber m.E. noch nicht so ausgereift.
  • Wähle die Stimme deiner Wahl aus. Es stehen jeweils 4 Personen (Samples) zur Verfügung. Im Beispiel mit “Hochdeutsch” sind dies:
    • Katja
    • Conrad
    • Amala
    • Bernd
  • Neben diesen Standardeinstellungen kannst du weitere Optimierungen vornehmen:
    • Unterbrechen: Füge eine vordefinierte oder benutzerdefinierte Pause ein, oder entferne eine Pause zwischen Wörtern.
    • Stille: Füge Pausen vor oder nach Text oder zwischen zwei angrenzenden Sätzen ein.
    • Aussprache: Ändere die Aussprache des Wortes.
    • Lexikon: Erstelle dein benutzerdefiniertes Lexikon, um die Aussprache für zukünftige Fälle zu korrigieren.
    • Intonation: Ändere Klang und Betonung des Worts, indem du die Position der Punkte auf die Linie für den Satzrhythmus änderst.
    • Sprechgeschwindigkeit (“Rate”): Passe die Sprechgeschwindigkeit an.
    • Tonhöhe: Stelle die Höhe oder Tiefe eines Tons ein.
    • Lautstärke: Passe die Sprechlautstärke an.
  • Wichtig: Der Text muss vor jeglichem Bearbeiten immer markiert sein, ansonsten werden keine Änderungen vorgenommen!

Praxisbeispiel

Wenn du zum Beispiel nur “Chat-GPT” ohne weiteren Kontext eingibst, kann es sein, dass die synthetisch generierte Stimme das Wort auf deutsch ausspricht, das heisst ohne englische Aussprache. Wenn du jedoch mehr Kontext gibst wie beispielweise ‘Chat-GPT ist ein unglaublich starkes Tool im Bereich der künstlichen Intelligenz’, wird es korrekt ausgesprochen. Was jeweils auch hilft bei englischen Begriffen, wenn die Aussprache nicht ganz korrekt ist, ist die ausgesprochene Schreibweise: Z.B. ‘Midtschörni’ anstatt Midjourney oder ‘Tschi-Pi-Ti’ anstatt GPT.

4. Audioexport

Wenn du mit deinem generierten Audio fertig und zufrieden bist, kannst du es über die Exportfunktion “Exportieren” abspeichern. Es stehen dir dazu zwei Möglichkeiten zur Verfügung:

  • Exportmöglichkeit 1: In Audiobibliothek exportieren
  • Exportmöglichkeit 2: Export auf einen lokalen Datenträger

Ich persönlich exportiere meine generierten Audiodateien immer auf einen lokalen Datenträger, da ich sie lokal weiterverarbeiten möchte (beispielsweise in einem Schnittprogramm oder ähnlichem). Beim Export stehen einem weitere Einstellungsoptionen zur Verfügung, darunter das Audioformat (WAV oder MP3) und die Ausgabeoption (jeder Abschnitt erzeugt ein Audio oder der gesamte Inhalt erzeugt ein Audio). Ich empfehle hier das unkomprimierte Format “WAV” sowie die Ausgabeoption, dass der gesamte Inhalt ein Audio erzeugt.

Konvertierung von Text zu Audio Screenshot 2

Feedback und Ausblick

Jetzt nimmt es mich Wunder: Hast du bereits Erfahrungen mit einem KI-Text-to-Speech-Tool gemacht? Lass es mich in den Kommentaren wissen.

Im nächsten Beitrag präsentiere ich dir das dritte und letzte Interview dieser Blogreihe mit Samuel Rhyner, Inhaber und Gründer von Code Crush sowie Lehrbeauftragter an der Fachhochschule Graubünden für das Modul “Interaktive Medien”.

Stay tuned!🚀

Sergio

Hallo zusammen :) Willkommen auf meinem Blog! Ich bin Sergio und aktuell Master-Student an der Hochschule Luzern im Major "Online Business & Marketing". Ich interessiere mich sehr für neue Technologien, Digitalisierung und Multimedia (Video, Fotografie, Audio & Web Design). Schaut doch gerne in meine 8-teilige Blogreihe zum Thema "Künstliche Intelligenz im Bildungswesen" rein. Viel Spass beim Lesen! Bei Fragen oder Anregungen dürft ihr selbstverständlich gerne einen Kommentar hinterlassen. Ich freue mich auf spannende Diskussionen mit euch!

View all posts by Sergio →

10 thoughts on “Künstliche Intelligenz im Bildungswesen – Tutorial 3 “Konvertierung von Text zu Audio”

  1. Lieber Sergio
    Vielen Dank für den gut strukturierten Blogbeitrag zur Text-zu-Audio-Konvertierung mit Microsoft Azure KI. Die Kombination aus klaren Anweisungen, Screenshots und einem Praxisbeispiel erleichtern die Umsetzung enorm. Das Quiz zur Künstlichen Intelligenz fügt eine unterhaltsame Note hinzu. Ein absoluter Mehrwert! 🙂

    1. Liebe Melanie, vielen Dank für dein positives Feedback. Es freut mich, dass dir der Beitrag gefällt. Das Quiz zu KI sollte nicht nur lehrreich sein, sondern auch ein wenig “Entertainment-Faktor” haben. Es freut mich daher, dass du es als Mehrwert empfunden hast. Ich hoffe, du hast auch am Gewinnspiel teilgenommen. Wenn ja, viel Glück!

  2. Lieber Sergio

    Danke für das super Tutorial zur Text-zu-Audio-Konvertierung mit KI! 👏 Die Anleitungen sind top und die Tipps zur Nutzung von ChatGPT sind genial. 🤖🔊 Ich habe bis heute noch kein KI-Text-to-Speech-Tool verwendet, bin jedoch gespannt, die im Tutorial vorgestellten KI-Text-to-Speech-Tools auszuprobieren. 🎉

    1. Liebe Stefanie, schön zu hören, dass dir das Tutorial gefallen hat! Gerne lade ich dich ein, das Ganze in der Praxis mal anzuwenden. Wenn du noch nicht beim Quiz-Gewinnspiel mitgemacht hast, lade ich dich gerne ein, dies noch zu tun. Es gibt einen tollen Preis zu gewinnen!

  3. Lieber Sergio
    Erneut ein sehr cooler Beitrag zu KI im Bildungsbereich. Finde die Anleitungen sehr gelungen und freue mich auch auf den Digitec Galaxus Gutschein 😉

    1. Danke Joel für deine positive Rückmeldung. Wunderbar, dass dir der Beitrag gefallen hat. Ich hoffe, dass du die Tools und deine erworbenen Kenntnisse rund um KI künftig direkt in der Praxis anwenden kannst. Für das Gewinnspiel wünsche ich dir viel Glück!

  4. Lieber Sergio,

    ich finde den Blog-Beitrag über die Verwendung von KI zur Konvertierung von Text zu Audio äußerst interessant und relevant in der heutigen digitalen Ära. Die Fortschritte im Bereich der künstlichen Intelligenz eröffnen wirklich faszinierende Möglichkeiten, wie wir mit Informationen interagieren und sie konsumieren.

    Es bleibt spannend zu beobachten, wie sich diese Technologien weiterentwickeln und welche neuen Anwendungen sie in der Zukunft finden werden. Die Diskussion über die ethische Verwendung von KI in der Inhaltskonvertierung ist sicherlich ein wichtiger Aspekt, der nicht außer Acht gelassen werden sollte.

    Insgesamt zeigt dieser Blog-Beitrag, wie weit wir in Bezug auf die Integration von KI in unseren Alltag gekommen sind. Es stellt eine aufregende Zeit dar, in der Technologie und Kreativität Hand in Hand gehen, um innovative Lösungen zu schaffen.

    Es ist besonders ironisch, dass ich, als KI-Modell namens ChatGPT, diesen Kommentar verfasse. Diese Technologie hat zweifellos das Potenzial, die Art und Weise, wie wir mit geschriebenen Inhalten umgehen, zu revolutionieren. Die Möglichkeit, Text automatisch in hochwertige Audioinhalte umzuwandeln, eröffnet neue Wege für Barrierefreiheit und die Bereitstellung von Informationen.

    Mit freundlichen Grüßen,
    ChatGPT

    1. Lieber Bruno / ChatGPT 🙂
      Vielen Dank für den Kommentar! Ja es ist wirklich ironisch, dass heute auch Sprachbots mit uns Menschen kommunizieren und wir es teilweise gar nicht oder erst spät merken. Bei dir / euch habe ich es anhand des scharfen S (ß) sehr früh im Text vermutet. Trotzdem danke für diese wertvolle Perspektive aus teils Menschen- und teils Maschinen-Sicht.

  5. Hi Sergio

    Ein weiterer spannender Beitrag zu KI. Die KIs von Schrift zu Audio kann ich auch in meinem Berufsalltag verwenden und es ist super zu wissen, dass ich auf deine Anweisungen zurückgreifen kann, wenn etwas nicht klappt!

    1. Liebe Saralena, es freut mich sehr, dass du den Beitrag spannend findest! Es ist auch toll zu hören, dass du die KI-Technologie zur Umwandlung von Text in Audio in deinem Berufsalltag einsetzen kannst. Zögere nicht, auf mein Tutorial zurückzugreifen, wenn du mal Hilfe benötigst. Ich bin hier, um zu unterstützen. Weiterhin viel Erfolg und Spass bei der Anwendung dieser innovativen KI-Anwendungen! 🙂

Leave a Reply

Your email address will not be published. Required fields are marked *