Avatar billede kdt217 Nybegynder
13. september 2007 - 13:22 Der er 17 kommentarer og
1 løsning

C# html til tekst

Jeg efterlyser kildeteksten til et program (C#), som kan konvertere html til tekst.

Der skal bevares href under konverteringen - konverteringen skal være så god som muligt.

Jeg har fundet nogle 'konverterings-programmer', som blot ignorerer tags - så jeg er interesseret i et ordentligt program, og ikke alt det skod som  jeg har fundet på internettet.....
Avatar billede windcape Praktikant
13. september 2007 - 13:26 #1
Hvad med at du forklarede hvad fanden du mener med at konvetere html til tekst først.
Avatar billede montago Praktikant
13. september 2007 - 13:46 #2
CTRL + A
CTRL + C
*åben word*
CTRL + V
Avatar billede sherlock Nybegynder
13. september 2007 - 14:03 #3
Hvordan tænker du dig at hrefs skal optræde i tekstformatet?
Avatar billede kdt217 Nybegynder
13. september 2007 - 15:18 #4
wincape, montago:
Jeg efterlyser en god c#-kode, som kan tage en html-fil og konvertere denne til simpel tekst. Dvs alle <br> kan konverteres til \r\n, <h1></h2> fjernes, osv.

sherlock:

F.eks. <a href="http://www.test.com/index.html"> hej
</a> kunne konverters til
http://www.test.com/index.html


Men nu er jeg jo i gang med at løse problemet ! Jeg ville høre om der var nogen, som havde en passende c#-kode, som kunne løse problemet...
Avatar billede nielle Nybegynder
14. september 2007 - 09:32 #5
Det er fair nok at folk spørger; løsningen afhænger jo meget af hvad du mener er æstetisk korrekt.

Her er dog skitsen til starten af en mulig løsning:

            string htmlKode = @"<h1>Mulig løsning</h1> ... din html<br> kode <br /> her <a href=""http://www.eksperten.dk/spm/796200"">C# html til tekst</a>  ...";
            Console.WriteLine(htmlKode);

            string tekst = htmlKode;

            // Fjern javascript-tags sammen med koden imellem dem.
            Regex re = new Regex(@"<script[^>]*>.*?</script>", RegexOptions.IgnoreCase);
            tekst = re.Replace(tekst, "");

            // Erstat <br> eller <br /> med \r\n.
            re = new Regex(@" *<br([ /]*)> *", RegexOptions.IgnoreCase);
            tekst = re.Replace(tekst, "\r\n");

            // Behandl urls:
            re = new Regex(@"<a .*?href=['""](?<url>.*?)['""].*?>(?<tekst>.*?)</a>", RegexOptions.IgnoreCase);
            tekst = re.Replace(tekst, @"${url} (${tekst})");

            // Fjern alle html tags som stadig er ubehandlet.
            re = new Regex(@"<.*?>");
            tekst = re.Replace(tekst, "");

            Console.WriteLine();
            Console.WriteLine(tekst);
Avatar billede kdt217 Nybegynder
14. september 2007 - 10:59 #6
Spørgsmålet går på, om I kender en reference til eksisterende kode (jeg har kun fundet skrammel på nettet), som kan behandle html på en passende måde. Jeg kunne forestille mig en funktion, som havde nogle parametre til at justere layoutet.

Dvs jeg er interesseret i kommentarer for folk, som har brugt en html2text converter, og som har fundet og evalueret kode-stumper.

Jeg kan godt selv producere et sådan program, men jeg er sikker på, at denne dybe terlerken er opfundet.
Avatar billede windcape Praktikant
16. september 2007 - 00:04 #7
Smudt over i programmingsopgaver-sektionen, hvis du ikke gider tænke selv. Denne her sektion er til udvikling.
Avatar billede kdt217 Nybegynder
16. september 2007 - 12:58 #8
Det er skam til udvikling - jeg er interesseret i referencer. Det er ikke en opgave.
Avatar billede windcape Praktikant
17. september 2007 - 06:56 #9
Nej du er ej, du er kun interesseret i et komplet program, det er ret så tydeligt.

Ellers har nielle givet fin information der kan læse dit problem.
Avatar billede kdt217 Nybegynder
18. september 2007 - 09:51 #10
Jeg efterlyser kildeteksten til et program (C#), som kan konvertere html til tekst.

Der skal bevares href under konverteringen - konverteringen skal være så god som muligt.

Jeg har fundet nogle 'konverterings-programmer', som blot ignorerer tags - så jeg er interesseret i et ordentligt program, og ikke alt det skod som  jeg har fundet på internettet.....
Avatar billede kdt217 Nybegynder
18. september 2007 - 09:53 #11
Men nielle må gerne tage poinene hvis der ikke er nogen input
Avatar billede nielle Nybegynder
18. september 2007 - 09:58 #12
Pointen med Eksperten er "hjælp til selvhjælp". Du skriver at du sagtens se4lb kan skive et sådant program, så hvorfor gør du ikke bare det? Du ville med garanti have været færdig for længst, og du ville så have fået det lige som du ville have det. Ultimativt er det jo kun dig selv som ved hvad du mener med at output er noget skod eller ej.
Avatar billede kdt217 Nybegynder
18. september 2007 - 10:07 #13
Ja, jeg kan selv skrive programmet. Men jeg skal skrive 500 programmer ved siden af. Netop konverteringsprogrammet er trivielt og andre har med sikkerhed lavet det før. Jeg kunne også lave min egen socket-forbindelse, men jeg kan også bruge den allerede eksisterende og afprøvede forbindelse.

Så jeg er ikke interesseret i hjælp programmeringsmæssigt.

Jeg ville blot vide, om der var nogen havde brugt en eksisterende konverteringsprogram, og som kunne anbefale dette.

Smid et svar nielle, så vi kan få lukket.
Avatar billede nielle Nybegynder
18. september 2007 - 11:09 #14
Står over på denne her - smid selv et svar og tag dine point tilbage :^)
Avatar billede montago Praktikant
17. december 2007 - 15:29 #15
wuhuu... det var rigtigt ?
Avatar billede nielle Nybegynder
17. december 2007 - 17:59 #16
Hmmmm?
Avatar billede kdt217 Nybegynder
19. december 2007 - 18:10 #17
wuhuu... det var rigtigt ?
Nix, men jeg vil afslutte dette spørgsmål, og ingen andre har 'svaret', og jeg tager ikke points, som jeg har lovet til andre.
Avatar billede nielle Nybegynder
19. december 2007 - 21:52 #18
Al ære og respekt til den holdning :^)

... men du må have mig undskyldt, hvis du synes at forkerte svar så skal belønnes i stedet?

montago> Det er så endnu en grund til at jeg personligt ikke smider et svar før at jeg er 100 % sikker på at spørgeren har fået sit problem løst...
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
IT-kurser om Microsoft 365, sikkerhed, personlig vækst, udvikling, digital markedsføring, grafisk design, SAP og forretningsanalyse.

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester