Foren » 41. Bundeswettbewerb Informatik

41. Probleme beim Einlesen der Textdateien

    • 5 Beiträge
    7. September 2022 18:26:42 CEST

    Liebe BWInf-Mitstreiter,

    derzeit bin ich verunsichert, was die Textdateien angeht.
    Beim Versuch eine Datei (z.B. Alice_im_Wunderland.txt) in Python einzulesen, erhalte ich je nach Plattform unterschiedliche Ergebnisse.

    Auf www.online-python.com startet o.g. Datei tatsächlich "Alice...", so wie es auch Textprogramme anzeigen.

    Auf Python 3.10.6 mit IDLE startet der Dateistring mit den Bytes (hex): xEF xBB x BF erst dann folgt "Alice..."
    Das liest sich dann "Alice...". Auch alle Umlaute sind verstümmelt.

    Sind die Textdateien codiert und manche Python-Versionen decodieren selbstständig?

    Hat jemand einen Tip, wie ich die Datei unter Python 3.10.6 richtig einlesen kann?

    • 23 Beiträge
    8. September 2022 07:49:53 CEST

    Hallo Matthias,

    ich hatte auch das Problem mit den Umlauten. Ich habe es gelöst, indem ich die Datei asl utf-8 gelesen habe,

    nach dem ich sie nach dem herunterladen einfach als bytes in diese Datei geschrieben habe:

    with open("data/Alice_im_Wunderland.txt", "r", encoding="utf-8") as f:

     

    Viele Grüße

    Christian Krause

     

    • 5 Beiträge
    8. September 2022 09:08:05 CEST

    Christian, danke, das hat geholfen.
    datei=open(...,encoding="utf-8")
    Verblüffend, dass offensichtlich auf manchen Plattformen UTF-8 der Standard ist, auf anderen nicht.

    Vielen Dank!