Informations
Développé par |
Jukka Zitting (d) et Tim Allison (d) |
Première version
|
[1] |
Dernière version
|
2.9.1 () |
Dépôt |
gitbox.apache.org/repos/asf/tika.git |
Écrit en
|
Java |
Environnement |
Machine virtuelle Java |
Formats lus |
Classes Java, Waveform Audio File Format, Au, Audio Interchange File Format, Standard MIDI File (d), Microsoft Compressed HTML, Directory Interchange Format (d), DWG, EPUB, Portable Executable, Executable and Linkable Format, XCOFF (en), Adobe Type 1 Font (en), TrueType, Better Portable Graphics, Apple Icon Image, Portable Network Graphics, Wireless Application Protocol Bitmap Format, Windows bitmap, XCF, PSD, TIFF, WebP sans pertes (d), JPEG File Interchange Format, Mbox, Office Open XML, TNEF, MP3, MPEG-4 Part 14, 3GPP (d), 3GPP2 (d), Format de fichier Quicktime, Advanced Video Coding (d), netCDF, OpenDocument, Portable Document Format, Zlib, GZIP (en), bzip2 (d), bzip Archive (d), XZ, tar, JAR, ZIP, cpio, 7z, RAR, Rich Text Format, texte brut, Flash Video, Free Lossless Audio Codec, Kate (d), Ogg, Opus, Speex, Theora, Vorbis et AppleSingle (d) |
Type
|
Algorithme de recherche Identification du format de fichier (d) Gestion de contenu (en) Bibliothèque logicielle |
Licence |
Licence Apache 2.0 |
Site web |
tika.apache.org |
modifier - modifier le code - voir Wikidata (aide)
Apache Tika est un toolkit développé par la fondation Apache qui permet de détecter, d'extraire des métadonnées, et de structurer le contenu textuel de nombreux types de documents (gzip, .mid, .pdf, tar, zip...)[2].
Ce projet dépendant de l'Apache Software Foundation, était auparavant un sous-projet de Apache Lucene.
Usages notables
Tika est utilisé combiné à Solr par environ 400 journalistes pour analyser les 11,5 millions de documents divulgués lors des Panama Papers[3].
Références
Liens externes
|
Projets principaux |
|
|
Incubateur Apache |
en cours d'incubation |
|
incubation finie |
|
|
Autres projets |
|
Projets en fin de vie |
|
Personnalités |
|
Divers |
|
|