peterpa
Goto Top

Saubere HTML aus Word-Dokument

Hallo,

kennt jemand eine Möglichkeit ein Word-Dokument in eine "saubere" HTML-Seite zu wandeln? Ja es gibt die Möglichkeit diese direkt in Word als .html zu speichern ... Aber Word haut alles mit "style" Attributen voll. Das sollte aber optimaler Weise alles in einer .css stehen.

Ich habe jetzt den Ansatz es zu parsen (style-Werte in die .css und Klassen erstellen), aber sobald Word etwas an ihrer Speichervariante ändert ist ja alles wieder hin ... und besonders sauber ist das auch nicht wenn da Bsp. class="klasse001", class="klasse002", ... steht.

Content-Key: 336403

Url: https://administrator.de/contentid/336403

Printed on: April 20, 2024 at 01:04 o'clock

Mitglied: 132895
132895 Apr 28, 2017 updated at 08:46:25 (UTC)
Goto Top
Auf Ideen kommen die Leute face-big-smile, nee nee nee
https://www.google.de/search?q=Word+html+cleaner
Vernünftige HTML-Editoren gibt es wie Sand am Meer.
Member: Lochkartenstanzer
Lochkartenstanzer Apr 28, 2017 updated at 09:18:17 (UTC)
Goto Top
Miin,

Warum nimmst Du nicht gleich einen ordentlichen HTML-Editor statt dem unpassenden Word?

Da sind ja sogar Notepad oder vi besser dafür geeignet.

lks

PS: Nur weil man ein Hammer hat muß nicht jedes Problem ein Nagel sein. Es gibt auch Schrauben face-smile

PPS: Sag jetzt nicht, die User wollen es nicht anders. Man muß ihnen nur das richtige Werkzeug zeigen.

Edit: Typos
Member: sabines
sabines Apr 28, 2017 at 08:46:42 (UTC)
Goto Top
Zitat von @Lochkartenstanzer:
PS: Nu weil man ein Hammer hat muß nicht jedes Problem rin Nagel sein. Es gibt auch Schrauben face-smile


Wenn Du als Werkzeug nur einen Hammer hast, dann sieht jedes Problem wie ein Nagel aus! face-wink
Member: peterpa
peterpa Apr 28, 2017 at 08:53:26 (UTC)
Goto Top
Ne leider nicht.
Übernimmt nicht jedes Bild, links werden auch raus gehauen, Tabellen nicht richtig dargestellt. Das Programm sollte nichts an der Darstellung ändern nur klar trennen zwischen HTML und CSS.
Mitglied: 132895
132895 Apr 28, 2017 updated at 09:11:35 (UTC)
Goto Top
Aus Spaghetti machst du keinen Spargel.
Nimm einen vernünftigen Wysiwyg Editor und gut is, irgendeine krumme Umwandlung führt früher oder später doch wieder zu Problemen.

Hoffe der Freitag zieht sich nicht so lang heute face-smile
Member: peterpa
peterpa Apr 28, 2017 at 09:32:54 (UTC)
Goto Top
Nimm einen vernünftigen Wysiwyg Editor und gut is, irgendeine krumme Umwandlung führt früher oder später doch wieder zu Problemen.
Leider bin ich es nicht der das entscheidet, nur der der es Umsetzen soll...
Hoffe der Freitag zieht sich nicht so lang heute
Ach was gibt es schöneres als parsen xD
Member: eisbein
eisbein Apr 28, 2017 updated at 09:44:11 (UTC)
Goto Top
Hallo!

Windows und Standards ist wie Äpfel und Birnen!

Die Ursache warum der HTML-Code nach dem Speichern aus Windows Word so aussieht liegt im internen Seitenaufbau und wie Word speichert, da kannst du nicht viel ändern - nur damit leben.

Nimm einen vernünftigen Editor und gut ist.

Es soll auch Leute geben, die Word zu PDF umwandeln, PDF zu IMG umwandeln und dann einfach das Bild ins Netz stellen face-smile dann ändert sich auch (fast) nichts an der Darstellung und es steht ganz sicher nichts mehr von irgendwelchen Klassen drin....

Schönen Freitag
Mitglied: 132895
132895 Apr 28, 2017 updated at 09:48:30 (UTC)
Goto Top
Leider bin ich es nicht der das entscheidet, nur der der es Umsetzen soll...
Ein guter Mitarbeiter zeichnet sich aber auch dadurch aus das er seinem Auftraggeber aufzeigt was zuverlässig und zukunftsträchtig ist und was nicht! Deine Arbeitszeit kostet ihn auch Geld und ob das mit dieser Aufgabe gut investiert ist, wage ich sehr zu bezweifeln.
Wenn du so gut im Parsen bist, dann schreib dir halt deine eigene Routine wenn du mit Regular Expressions per Du bist.
Für mich wär das kein Problem so was zu schreiben, aber den Aufwand für so einen Müll wäre es mir nicht Wert auch nur eine Finger zu krümmen.
Member: killtec
killtec Apr 28, 2017 at 09:46:47 (UTC)
Goto Top
Hi,
du kannst doch kostenlos das Expression Web von MS laden....

Gruß
Member: BassFishFox
BassFishFox Apr 28, 2017 at 10:12:28 (UTC)
Goto Top
Hallo,

Windows und Standards ist wie Äpfel und Birnen!

Appel und Birne sind mittlerweile gleich. face-wink

https://www.heise.de/newsticker/meldung/Markenrechtsstreit-Apple-gewinnt ...


Schoenes WE
BFF
Member: Lochkartenstanzer
Lochkartenstanzer Apr 28, 2017 at 10:33:08 (UTC)
Goto Top
Member: Apophis
Apophis Apr 28, 2017 at 11:01:05 (UTC)
Goto Top
Ein HTML-Editor, der noch dazu frei ist, wäre z.B. Webocton Sciptly.

Word jedenfalls würde ich nicht nehmen. Dem würde ich noch nicht mal eine normale Textdatei anvertrauen wenn ich es nicht müsste.

Merke: Word heißt "Word", weil es nur für einzelne Worte geeignet ist. Sonst hieße es "Satz" oder gar "Absatz".

Gruß
Apophis
Member: Lochkartenstanzer
Lochkartenstanzer Apr 28, 2017 updated at 11:43:02 (UTC)
Goto Top
Zitat von @Apophis:

Merke: Word heißt "Word", weil es nur für einzelne Worte geeignet ist. Sonst hieße es "Satz" oder gar "Absatz".


Falsch! Sentence oder Paragraph!

lks
Member: Herbrich19
Herbrich19 Apr 29, 2017 at 00:22:02 (UTC)
Goto Top
Hallo,

Das Probelm an Word ist dass wen man die Text für seine sauber kodierte Homepage schreibnt landet html mit in der paste und nun ja. Word HTML Cleaner sind durchaus von vorteil. Der HTML dient eig auch nur dazu aus HTML wieder Word zu machen.

Gruß an die IT-Welt,
J Herbrich
Member: Pedant
Pedant Apr 29, 2017 at 10:39:39 (UTC)
Goto Top
Hallo peterpa,

Zitat von @peterpa
Aber Word haut alles mit "style" Attributen voll. Das sollte aber optimaler Weise alles in einer .css stehen.

Ist es wirklich wichtig ob die "styles" im Html oder in der css stehen?
Wenn das das einzige ist, was Dich am monströsen html-Output von MS-Office stört, würde ich Dir raten das zu ignorieren, statt es mit viel Aufwand zu ändern.
Im Browser siehst Du den Unterschied nicht und "styles" im Html sind nicht unzulässig.

Mein Html-Editor heißt Notepad, nicht weil ich so cool bin und es voll drauf habe, sondern weil ich gerne nachvollziehen können möchte was ich "programmiere" und von daher generiertes Html für mich ablehne.

Wenn es Dir darum geht irgendwelche Inhalte, die mit Word erstellt werden, ins Web zu bringen, dann lass doch Word machen was es will und stell das Zeug online.
Vor wem möchtest Du denn sauber dastehen und wozu?
Auch die Google-Startseite https://www.google.de kommt nicht ohne Fehler durch den Validator.

Ich würde es auch gegrüßen, wenn alle Autoren sich an die empfohlenen Vorgaben halten würden, aber dann wäre es auch schön, die Browser täten das auch.
In Deinem Fall denke ich einfach an Aufwand und Nutzen, Kirche und Dorf,...

Ich habe gerade mal testweise Hallo Welt! ins Word 2007 getippt und als html gespeichert.
Ergebnis:
Hallo Welt.htm (444 Zeile)
Hallo Welt-Dateien\colorschememapping.xml (2 Zeilen)
Hallo Welt-Dateien\filelist.xml (6 Zeilen)
Hallo Welt-Dateien\themedata.thmx (3.082 Bytes binärer Krempel)
Wenn es jetzt noch eine css-Datei gäbe würde mich das nicht glücklicher machen.

Wenn Du ein Word-Dokument unbedingt in komplett sauberes, Html wandeln möchtest, dann geht das eigentlich nur so:
<a href="Datei.doc">Datei.doc</a>

Gruß Frank
Member: Herbrich19
Herbrich19 Apr 29, 2017 at 16:30:52 (UTC)
Goto Top
Hallo,

Styles im HTML sind schlecht für's SEO face-smile

Gruß an die IT-Welt,
J Herbrich
Member: peterpa
peterpa May 01, 2017 at 07:59:38 (UTC)
Goto Top
Danke soweit.

Das mit der doc einbinden klingt interessant face-smile

Naja eine saubere css hat eben den Vorteil eventuelle spätere Änderungen am Design leichter einzupflegen...
Member: Lochkartenstanzer
Lochkartenstanzer May 01, 2017 updated at 08:15:23 (UTC)
Goto Top
Zitat von @peterpa:

Naja eine saubere css hat eben den Vorteil eventuelle spätere Änderungen am Design leichter einzupflegen...

Naja, wenn man zum Designen Word nimmt, macht man Designänderungen natürlich auch in Word. Man sollte nur darauf achten, mit Formatvorlagen zu arbeiten udn nciht mit dedizierten textauszeichnungen. face-smile

lks

PS. Sag deg Leuten, die sollen in word nur reinem unformattierten Text schreiben. Dann kannst Du das genz leicht in Dein Design einbinden.
Member: Herbrich19
Herbrich19 May 02, 2017 at 07:38:58 (UTC)
Goto Top
Hallo,

Nicht zwingtend. Ich schreibe die Texte für meine Homepage lieber in Word und mach Copy & Paste in Visual Studio 2010 wen ich vor habe diese zu Publizieren.

Ich bin dabei ein eigenes Plugin zu schreiben was sich direkt mit der API meiner Homepage verbindet um zu publizieren aber dass ist alles noch in Arbeit. Fakt ist dass Word auch für Homepages zum erstellen von Texten verwendet werden kann und auch wird.

Also das Design in Word zu machen ist Schwachsinn (finde ich als meine persönliche Meinung) und naja da braucht man auch nicht wirklich das CSS von Word mit drinnen nur um später aus der HTML wieder eine Oreginale Word Datei zu erstellen. Weil ja genau dafür diese Stylesheets da sind.

Gruß an die IT-Welt,
J Herbrich