How to extract values from HTML using RegEx? -


निम्न HTML को देखते हुए:

  & lt; p & gt; & lt; span class = "xn - स्थान "& gt; ओक राइज, एनजे एंड लेफ्टिनेंट; स्पैन & gt ;, & lt; स्पैन क्लास =" एक्सएन-क्रोन "& gt; 16 मार्च, 2011 & lt; / span & gt; / पीआर न्यूजवायर / - लक्लैण्ड बैंकोरोप, इंक। (नास्डैकः & lt; a href = 'http: //studio-5.financialcontent.com/prnews?page=Quote & Ticker = LBAI' target = '_ blank' title = 'LBAI '& Gt; एलबीएआई & lt; / a & gt;), लेकलैंड बैंक के लिए होल्डिंग कंपनी ने आज घोषणा की कि इसे & lt; span class = "xn-money" & gt; $ 20 मिलियन & lt; / span & gt; कंपनी के बकाया और लेफ्टिनेंट; स्पैन क्लास = "एक्सएन-मनी" & gt; $ 39 मिलियन & lt; / span & gt; फिक्स्ड दर संचयी सफ़ल पसंदीदा स्टॉक, सीरिज में, कैपिटल खरीदारी कार्यक्रम के तहत यूआई डिपार्टमेंट ऑफ ट्रेजरी के लिए & lt; span class = "xn-chron" & gt; 6 फरवरी, 2009 & lt; / span & gt; जिससे ट्रेजरी का पसंदीदा स्टॉक में & lt; span class = "xn-money" & gt; $ 19 मिलियन & lt; / span & gt; में निवेश। कंपनी ने लगभग & lt; अवधि वर्ग = "xn-money" & gt; $ 20.1 मिलियन & lt; / span & gt; पसंदीदा स्टॉक को पुनर्खरीद करने के लिए ट्रेजरी के लिए, जिसमें शेयरों के लिए अर्जित और अवैतनिक लाभांश के लिए भुगतान शामिल था। & Amp; # 160; पसंदीदा स्टॉक का यह दूसरा चुकौती, या मोचन, परिणामस्वरूप वार्षिक की बचत होगी & lt; span class = "xn-money" & gt; $ 1.2 मिलियन & lt; / span & gt; संबंधित पसंदीदा लाभांश और संबंधित छूट वृद्धि के उन्मूलन के कारण। & Amp; # 160; & lt; अवधि वर्ग = "xn-money" & gt; $ 745 हजार & lt; / span & gt; का एक-बार, गैर-नकद प्रभार प्रीफ़र्ड स्टॉक डिस्काउंट संग्रह की गति के कारण 2011 की पहली तिमाही में खर्च किया जाएगा। & Amp; # 160; पहले से ही वारंट को जारी किया गया था और स्टॉक डिविडेंड के लिए समायोजित किया गया था और इसके अधीन के लिए & lt; span class = "xn-money" & gt; $ 8.88 & lt; / span & gt; के अभ्यास मूल्य पर 997,049 सामान्य शेयरों के शेयरों को खरीदा गया था। आगे विरोधी-कमजोर पड़ने वाले समायोजन, बकाया रहेंगे। & Lt; / p & gt;   

मैं & lt; span & gt; तत्वों के अंदर मूल्य प्राप्त करना चाहता हूं मैं & lt; span & gt; तत्वों पर वर्ग विशेषता का मूल्य प्राप्त करना चाहूंगा

आदर्श रूप से मैं सिर्फ एक फ़ंक्शन के माध्यम से कुछ एचटीएमएल चला सकता हूं और निकाले गए निकायों का एक शब्दकोश ( & lt; span & gt; पर आधारित परिभाषित पार्सिंग के आधार पर) वापस कर सकता हूं।

< P> उपरोक्त कोड एक बड़ा स्रोत HTML फ़ाइल से एक स्निपेट है, जो एक XML पार्सर के साथ पारे जाने में विफल रहता है। इसलिए मैं रुचि की जानकारी निकालने में मदद करने के लिए संभव नियमित अभिव्यक्ति की तलाश कर रहा हूं।

इस उपकरण का उपयोग करें (फ्री):

इस रेगेक्स का प्रयोग करें:

  "  

समूह 1 में मान (प्रत्येक मैच के लिए) वह टेक्स्ट होगा जो आपको चाहिए।

सी # में ऐसा दिखेगा:

  रेगेक्स रेगेक्स = नया रेगेक्स ("& lt; span [^ & gt;] * & gt; (। *?) & Lt; / span & gt;"); स्ट्रिंग टूमैच = "& lt; span class = \" ajjsjs \ "& gt; कुछ पाठ & lt; / span & gt;"; यदि (regex.IsMatch (toMatch)) {MatchCollection संग्रह = regex.Matches (toMatch); विदेशी (मिलान संग्रह में) {string val = m.Groups [1]। मूल्य;  
  Regex regex = new Regex ("& lt; span class =      

\ "(*।?) \" & gt; (। *) के & lt; / span & gt; "); स्ट्रिंग टूमैच = "& lt; span class = \" ajjsjs \ "& gt; कुछ पाठ & lt; / span & gt;"; यदि (regex.IsMatch (toMatch)) {MatchCollection संग्रह = regex.Matches (toMatch); विदेशी (मिलान संग्रह में) {string class = m. समूह [1]। मूल्य; स्ट्रिंग वैल = एम। ग्रुप [2]। वेल्यू; // कक्षा और मान के साथ कुछ करो}}

Comments