O Apache Flink é um framework de código aberto para stream processing e processamento em lote desenvolvido pela Apache Software Foundation. O principal componente do Apache Flink é uma engine para processamento de streams distribuída usando o paradigma de dataflow, escrito em Scala e Java.[2][3] O Flink executa programas data-flow arbitrários com paralelismo de dados e pipelines.[4] O fato de usar pipelines também faz do Flink um motor para processamento em lotes.[5][6] O Flink também suporta a execução de modelos iterativos.[7]
A engine do Flink provê baixa latência e alta disponibilidade,[8] com suporte a tolerância a falhas.[9] Programas para o Flink podem ser escritos em Java, Scala,[10] Python,[11] e SQL[12] sendo automaticamente compilados e otimizados[13] em programas data-flow para serem executados em cluster ou na nuvem.[14]
O Flink não providencia um sistema para armazenamento dos dados, mas providencia fontes de dados e conectores para sistemas como o Kinesis da AWS, Apache Kafka, HDFS, Apache Cassandra, e Elastic Search.[15]
Referências
- ↑ «Release 1.20.0». 1 agosto 2024. Consultado em 20 agosto 2024
- ↑ «Apache Flink: Scalable Batch and Stream Data Processing». apache.org
- ↑ «apache/flink». GitHub. 29 de janeiro de 2022
- ↑ Alexander Alexandrov, Rico Bergmann, Stephan Ewen, Johann-Christoph Freytag, Fabian Hueske, Arvid Heise, Odej Kao, Marcus Leich, Ulf Leser, Volker Markl, Felix Naumann, Mathias Peters, Astrid Rheinländer, Matthias J. Sax, Sebastian Schelter, Mareike Höger, Kostas Tzoumas, and Daniel Warneke. 2014. The Stratosphere platform for big data analytics. The VLDB Journal 23, 6 (December 2014), 939-964. DOI
- ↑ Ian Pointer (7 de maio de 2015). «Apache Flink: New Hadoop contender squares off against Spark». InfoWorld
- ↑ «On Apache Flink. Interview with Volker Markl.». odbms.org
- ↑ Stephan Ewen, Kostas Tzoumas, Moritz Kaufmann, and Volker Markl. 2012. Spinning fast iterative data flows. Proc. VLDB Endow. 5, 11 (July 2012), 1268-1279. DOI
- ↑ «Benchmarking Streaming Computation Engines at Yahoo!». Yahoo Engineering. Consultado em 23 de fevereiro de 2017
- ↑ Carbone, Paris; Fóra, Gyula; Ewen, Stephan; Haridi, Seif; Tzoumas, Kostas (29 de junho de 2015). «Lightweight Asynchronous Snapshots for Distributed Dataflows». arXiv:1506.08603 [cs.DC]
- ↑ «Apache Flink 1.2.0 Documentation: Flink DataStream API Programming Guide». ci.apache.org (em inglês). Consultado em 23 de fevereiro de 2017
- ↑ «Apache Flink 1.2.0 Documentation: Python Programming Guide». ci.apache.org (em inglês). Consultado em 23 de fevereiro de 2017
- ↑ «Apache Flink 1.2.0 Documentation: Table and SQL». ci.apache.org (em inglês). Consultado em 23 de fevereiro de 2017
- ↑ Fabian Hueske, Mathias Peters, Matthias J. Sax, Astrid Rheinländer, Rico Bergmann, Aljoscha Krettek, and Kostas Tzoumas. 2012. Opening the black boxes in data flow optimization. Proc. VLDB Endow. 5, 11 (July 2012), 1256-1267. DOI
- ↑ Daniel Warneke and Odej Kao. 2009. Nephele: efficient parallel data processing in the cloud. In Proceedings of the 2nd Workshop on Many-Task Computing on Grids and Supercomputers (MTAGS '09). ACM, New York, NY, USA, Article 8, 10 pages. DOI
- ↑ «Apache Flink 1.2.0 Documentation: Streaming Connectors». ci.apache.org (em inglês). Consultado em 23 de fevereiro de 2017
|