Tika XML File Extracting

by Online Tutorials Library July 14, 2022

Tika XML File Extracting

To extract xml file, Tika provides XMLParser class. This class is used to extract content and metadata from xml file. It is located into org.apache.tika.parser.xml package.

This class contains constructor and methods that are tabled below.

Tika XMLParser Constructor

Constructor	Description
public XMLParser()	It is used to create instance of the class.

Tika XMLParser Methods

Method	Description
public Set<MediaType> getSupportedTypes(ParseContext context)	It returns the set of media types supported by this parser.
public void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException	It parses a document stream into a sequence of XHTML SAX events.
protected ContentHandler getContentHandler(ContentHandler handler, Metadata metadata, ParseContext context)	It is used to get content handler.

Tika XML File Extracting Example

In this example, we are extracting content and metadata from a xml file. See the example.

  package tikaexample;    import java.io.InputStream;  import org.apache.tika.metadata.Metadata;  import org.apache.tika.parser.ParseContext;  import org.apache.tika.parser.xml.XMLParser;  import org.apache.tika.sax.BodyContentHandler;  public class XmlParserExample {  public static void main(String[] args) {   BodyContentHandler handler   = new BodyContentHandler();   XMLParser parser             = new XMLParser();   Metadata metadata            = new Metadata();   ParseContext pcontext        = new ParseContext();   try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream(“web.xml”)) {          parser.parse(stream, handler, metadata, pcontext);       System.out.println(“Document Content:” + handler.toString());       System.out.println(“Document Metadata:”);       String[] metadatas = metadata.names();        for(String data : metadatas) {           System.out.println(data + “:   ” + metadata.get(data));         }   }catch(Exception e) {System.out.println(“Exception message: “+ e.getMessage());}  }  }  

// web.xml

Our XML file.

  <?xml version=”1.0″ encoding=”UTF-8″?>     <servlet>          <servlet-name>default</servlet-name>          <servlet-class>org.apache.catalina.servlets.DefaultServlet</servlet-class>          <init-param>              <param-name>debug</param-name>              <param-value>0</param-value>          </init-param>          <init-param>              <param-name>listings</param-name>              <param-value>false</param-value>          </init-param>          <load-on-startup>1</load-on-startup>      </servlet>  

Output:

Document Content:            default           org.apache.catalina.servlets.DefaultServlet                          debug               0                                    listings               false                     1          Document Metadata:  Content-Type:   application/xml

Next TopicTika Extracting MS Words File

Tika XML File Extracting

Tika XML File Extracting

Tika XMLParser Constructor

Tika XMLParser Methods

Tika XML File Extracting Example

Apache Tika Supported Formats

Dynamic Controls in VB.NET

You may also like