セマンティックウェブとは、Webページをタグ付けにより構造化し、機械可読できるようにすることで、Webページ上の情報をコンピュータにより自動的に収集・分析できるようにする試みのこと。
セマンティックWebの誕生
現在私たちが当たり前に利用しているWebは、1989年にヨーロッパの原子力研究所であるCERNの技術者であったティム・バーナーズ・リーが生み出したものです。当時、様々な原子力研修者が入れ代わり立ち代わりCERNに参加しては離脱していた状況から、ティム・バーナーズ・リーは情報を分かりやすく管理する必要性に迫られていました。
そこで考えだされたのが、今でも広く使われているHTMLです。HTMLにより、「Aタグ」によりページ同士をリンクで結び付けたり、「H1~H6タグ」によりページ内の情報を階層化できるようになりました。
一方で、HTMLには様々な欠点がありました。それは、HTML上に記載されている言葉を機械が正確に理解できないという点です。例えば、「藤沢の歯医者」という言葉あった場合に、それが藤沢市の歯医者なのか、藤沢さんという方の歯医者なのか、人間であれば前後の文脈から容易に理解できますが、コンピューターは理解できません。現代の検索エンジンは、このような問題を自然言語処理などの技術で無理やり解決していますが、あくまで推測するのが限界であり、完全な理解はできないのが現状です。
そこでティム・バーナーズ・リーが提唱したのが、「セマンティックWeb」です。セマンティックWebでは、Web上に記載されている情報に対して、タグ付けを行うことで詳細な意味を付与することを目指します。
具体的にはどのようなことなのでしょうか。例えば、上述した「藤沢の歯医者」のWebページであれば、そのページに対して「所在地:藤沢市」というタグをつけます。これにより、その歯医者は藤沢市にあることが明確に読み取れるようになります。また、「名称:田中歯科」というタグをつければ、このWebサイトは藤沢市にある田中歯科の情報が書かれていることが機械でも理解できるようになります。
このように、Webページに対して様々な情報をタグにより付与していくことで、自然言語による意味の揺らぎをなくし、一意に意味を定めるようにするのがセマンティックWebの基本的な考え方となります。
セマンティックWebは普及したか?
セマンティックWebという考え方自体は、2000年代前半に成立していましたが、普及は進みませんでした。
セマンティックWebによりメリットを得られるのは、Webページを機械可読したい検索エンジンや、Webページの情報を分析したいエンジニアなどが主となります。一方で、Webページ制作側は、タグ付けを行ったところで得られるメリットは特にありません。セマンティックWebを実現するためにはWebページへのタグ付けが必須ですが、その労力に見合うメリットが実際に作業を行う側になかったのが根本的な原因といえるでしょう。
また、セマンティックWebが普及しなかった原因の一つに、どのタグをつければよいかが明確でなかったことも挙げられるでしょう。例えば、上述した歯医者の例であれば、歯医者に対して付加すべき情報として「営業日」「営業時間」「医師名」「住所」「診療科」「治療内容」など、数多くの候補が考えられます。これらのうち、どれを付加すればよいのかを定義したうえで、すべての歯科医院のWebページに対して同様にタグを設定するのは困難といえます。
セマンティックWebの具体例
一方で、セマンティックWebという考え方をベースとして、Web上では様々な機能が実装されています。例えば、Googleが提供しているリッチスニペットはその一つです。リッチスニペットとは、Googleの検索画面に表示される情報の一つで、画像やカテゴリ情報などにより各ページの内容を理解しやすくするものです。
例えば、Google検索で飲食店を探した際に、飲食店の評価が表示されているのを見たことはないでしょうか?これもリッチスニペットの一つです。Googleはレビューサイトの評価情報を構造的に読み取り、Google検索上に表示できるようにしています。
また、RSSによるヘッドラインの配信もセマンティックWebの考え方を実装したものです。RSSを利用することでサイトの更新を自動で知ることができますが、RSSには、Webページのタイトルや更新日、概要などが構造的に記述されています。コンピュータはRSSの情報を読み取り、サイトの更新を知ることができるのです。
セマンティックWebとWeb3.0の関係性
近年では、web3という言葉が一般化しつつありますが、この言葉とセマンティックWebには深い関連があります。
実は、2006年ごろ、Web2.0の次にはセマンティックWebによるWeb3.0が主流となるのではないかと考えられていた時期がありました。Web2.0とは、ブログなどに代表されるような「送り手と受け手が混在し、誰でもが情報を発信できるように変化したWeb」のことを指しますが、さらにこれらの情報を機械可読できるようにして、次世代型のWebを作り上げていこうという潮流がありました。
上述の通り、結果としてこれらの取り組みは実を結ぶことはありませんでしたが、一方で2014年ごろに暗号通貨であるイーサリアムの共同創業者だったギャビン・ウッド氏が提唱したのが「web3」という考え方です。web3は、GoogleやFacebookなどのビックテックによる中央集権的なwebから、個人同士の分散的なやり取りにより移行しようという考え方です。
注意しなければならないのが、セマンティックWebにより実現しようとしていたのが「Web3.0」であり、暗号通貨の世界から登場したのが「web3」である、という点です。両者は似たような言葉ですが、その意味は大きく異なります。
おそらく、ギャビン・ウッド氏は新しいWebのイメージとして「web3」という言葉を利用したのだと思いますが、すでに存在する言葉を利用してしまったがために、混乱が生じているため注意が必要です。
まとめ:AIの発展によりセマンティックWebは不要となる?
現代では、AI技術が発展しており、自然言語処理によりWebページの情報はそれなりの精度で機械が認識できるようになりました。このような状況を踏まえると、セマンティックWebは不要とも思われます。
一方で、セマンティックWebの考え方によりデータが構造化されれば、その活用の幅は広がるのも事実です。上述した飲食店のレビューサイトの評価などのように、Webページ制作側と利用側の双方にメリットがある領域については、今後もセマンティックWebの考え方が活用されていくと思われます。