Gensim

Gensim
作者 Radim Řehůřek
開発元 RARE Technologies Ltd.
初版 2009
最新版
4.3.2[1] / 2022年12月21日 (23か月前) (2022-12-21)
リポジトリ github.com/RaRe-Technologies/gensim
プログラミング
言語
Python
対応OS Linux, Windows, macOS
種別 情報検索
ライセンス LGPL
公式サイト radimrehurek.com/gensim/
テンプレートを表示

Gensim(ジェンシム)は、最新の統計的機械学習を使用した、教師なしトピックモデリング英語版自然言語処理のためのオープンソースライブラリである。

Gensimは、Python言語と性能向上を図るためにCython言語で記述されている。Gensimは、データストリーミングとインクリメンタルオンラインアルゴリズムを使用して大規模なテキストコレクションを処理するように設計されており、インメモリ処理のみを対象とした他の多くの機械学習ソフトウェアパッケージとの差別化を図っている[要出典]

主な機能

Gensimには、fastText英語版[2]word2vecdoc2vecアルゴリズムのストリーミング並列化実装に加えて[3]潜在意味解析(LSA、LSI、SVD)、非負行列分解英語版(NMF)、潜在ディリクレ配分英語版(LDA)、tf-idf、およびランダム射影英語版が含まれている[4]

Gensimの新しいオンラインアルゴリズムのいくつかは、Gensimの制作者であるRadim Řehůřekの2011年の博士論文『Scalability of Semantic Analysis in Natural Language Processing(自然言語処理における意味解析のスケーラビリティ)』にも掲載されている[5]

Gensimの使用例

Gensimは、2018年の時点で[6]、医学から保険金請求分析、特許検索まで、さまざまな分野で1,400件を超える商用および学術用途で使用および引用されている[7]。このソフトウェアは、いくつかの新しい記事、ポッドキャスト、インタビューでも取り上げられている[8][9][10]

無償および有償サポート

Gensimのソースコードは、GitHub[11]で開発および公開されており、Google Groups[12]Gitter英語版[13]上でサポートフォーラムが公開・維持されている。

Gensimは、rare-technologies.com社によって商業的にサポートされている。学生インキュベータープログラムを通じて Gensimの学生メンターシップと学術論文プロジェクトも提供している[14]

脚注

外部リンク