Autor Beitrag
mnevis
Hält's aus hier
Beiträge: 2



BeitragVerfasst: Do 14.02.08 18:14 
Hallo zusammen,

ich muss für mein kleines Prog hier eine Tabelle aus einem HTML Quelltext auslesen

Der quelltext ist wie wohl fast jedem bekannt folgendermassen aufgebaut:

<HTML>
...
<BODY>
...
<table>
<tr>
...
</tr>
</table>
...

Was ich jetzt wollte ist mit

muster = "<table">"+@"[.|\n]*"+"</table>";

die Tabelle an sich aus dem Quelltext heraus zu extrahieren. dies klappt aber leider mit deiesem muster nicht.

Könnte mir vielleicht jemand ein Tipp geben wie ich das Muster so aufbaue, dass ich wirklich alles(an zeichen) in der Tabelle drine haben kann, dann aber die Tabele als solche finde. Ich wollte auch den fall mitberücksichtigen, dass der quelltext in html als einzeiler da steht. bzw ich könnte es ja gleich so haben in dem ich alle \n direkt herausfische...

bin für jeden tip dankbar!

gruß,

alex
Kha
ontopic starontopic starontopic starontopic starontopic starontopic starontopic starhalf ontopic star
Beiträge: 3803
Erhaltene Danke: 176

Arch Linux
Python, C, C++ (vim)
BeitragVerfasst: Do 14.02.08 19:05 
ausblenden Quelltext
1:
[.|\n]					

Das kann nicht funktionieren. Erstens matcht '.' in einer Gruppe einfach nur '.', zweitens benutzt man in einer Gruppe keinen |-Operator. Ich würde einfach vorschlagen:
ausblenden Quelltext
1:
<table>.*?</table>					

zusammen mit der Multiline-Option. Verschachtelte Tabellen sind damit natürlich nicht möglich.