エンタープライズサーチ(企業内検索、エンタープライズ検索)は、社内外のデータを統合検索できるようにするためのシステムを指します。これにより、企業内、部署内のデータファイル、人事、経営情報などを社外のウェブサイトからの情報を含めて検索することを可能とします。簡単に言えば、Google検索のような一般向けの検索の仕組みを企業向けに展開したもの、となるかもしれません。
歴史的にみて検索システムの概念が登場するのは、1945年のことです。この年の7月、当時、科学研究開発局の長官だったVannevar Bush博士が、総合誌「The Atlantic」に論文を発表しました。その論文のなかでBush博士は、「データおよび考察のコレクション、既存レコードからの情報の抜粋、そして共有レコードへの新しい情報の追加」を提案しています。そして、その数十年後、1990年代にカナダのマギル大学の学生だったAlan Emtage氏が「Archie」を開発しました。このArchieこそが最初の検索エンジンと言われています。以降、様々な検索エンジンが誕生し、現在における検索の代表選手ともいえるGoogleは、1997年に登場します。
「ビッグデータ」という言葉が普及しはじめたのは、2011年頃からです。「3V」と言われる要素が主な特性とされています。
こういった特徴を持つデータに対して、ITテクノロジーの発展により、これまでは収集できなかったデータが収集できるようになったり、収集できてはいたが、分析できなかったデータが分析できるようになったという進歩が生まれています。
検索においても、爆発的に増加する検索対象に対して、自然言語処理や機械学習を活用することにより、効率的な検索、分析を実現できるようになっています。
データは大きく構造化データと非構造化データに分かれます。構造化データとは、CSVファイルやExcelファイルの表のように、”列”と”行”の概念のあるデータを指します。「どこに何があるか」が決まっているため、集計、比較などが行いやすいです。そのため、データ分析で最も使用されているデータ構造です。
とはいえ、データ量としてはワード文書やメール文などの非構造化データが圧倒的に多く、情報アセットの80%を占めるといわれています。
非構造化データには構造化データのようなルールがないため、内容の機械的な把握が難しいとされていますが、これが自然言語処理(NLP, Natural Language Processing)により可能になりつつあります。テキストから場所や人の情報を取り出したり、感情を抽出したり、また重要なフレーズやトピックを検出する、といったことが可能になっています。
冒頭に述べたとおり、エンタープライズサーチとは、社内外のデータを統合検索できるようにするためのシステムを指します。従来であればインデックスを作成して、これによる検索を可能としていますが、前述の自然言語処理を適用することにより、単なる検索ではなく、より意味をもった検索、さらにはその結果の解釈を支援し、ユーザに気づきを与えることが可能になります。さらに機械学習の要素を加えることで、検索結果から類似文書をクラスタリングしたり、参照文書のリコメンドしたりなど、コグニティブサーチ(コグニティブ検索)と呼ばれる、さらに賢い有用な検索の仕組みを提供できるようになっています。
Sinequa製品に関するお問い合わせや導入のご相談など、担当スタッフがサポートします。
お気軽にご相談ください。