SEOスパムに該当する「ブラックハットSEO」のひとつである、「コンテンツの自動生成」や「コンテンツの無断複製」は、RSSフィードなどから取得したコンテンツを流用しそのままページ生成を行う方法で、ホームページのコンテンツを増やしたり、他のサイトからコピーしてコンテンツを生成する方法です。
これらは、流用、複製を行って、サイトコンテンツを増やしホームページのボリュームを増大させるために行われるSEOスパムの方法です。
これら、コンテンツの流用・無断複製は、SEOスパム以前に、著作権法に抵触する行為です。
それでは、ブラックハットSEOの代表例としての「コンテンツの自動生成・無断複製」について見ていきましょう。
オリジナルコンテンツがほとんど存在しないページ
また、「コンテンツの自動生成」や「コンテンツの無断複製」に近いものとして、引用が多く、オリジナル部分が極端に少ないか、全く無いページの生成によって、サイトボリュームを増やす行為もSEOスパムに該当する「ブラックハットSEO」として考えることができます。
また、この「オリジナルコンテンツがほとんど存在しないページ」も、完全なコピーコンテンツではないものの、スパム行為以前に、引用に関しての著作権法の通説の解釈では、引用と本文との主従関係が明確であり、引用の比重が少ないことが著作物の「引用」の条件であるとされています。
コンテンツの自動生成
コンテンツの自動生成とは、意味的整合性や読者体験を無視し、機械的・統計的手法を用いて大量のページを生成する行為を指します。Googleのスパムポリシーでは以下のような手法が該当します。
- マークオフ法(Markov chain) に基づく単語列の組み合わせ生成
- スクレイピング+スピンテキスト による意味の再構築風テキスト
- GPT系LLMの出力をそのまま大量投稿し、文脈最適化せずにインデックスさせる行為
- 翻訳元ページの一括機械翻訳によるミラー構築(翻訳スパム)
特に現在は「意味的に整ったように見える文」でも、ファクトや主張に独自性が欠如していると評価された時点で、AI生成のスパム的使用(AI-generated spam)としてアルゴリズムが動きます。
キュレーションサイトも著作権法に抵触する恐れがあります
キュレーションサイトも、著作者ではないユーザーによって、「コンテンツの自動生成」や「コンテンツの無断複製」が行われているため、ブラックハットSEOに近い要素があります。
関連記事を散りばめることによって、パンダアップデート対策のために、引用部分、重複部分の比率を下げる仕組みがありますが、「引用」の定義を考えると、引用部分と「関連記事・コメント部分」などの比率を考えた時に、オリジナルコンテンツとはほとんど言えないと考えることもできます。
キュレーションサイトとは
キュレーションサイトとは、いわば、「こんな記事がありました」ということを「まとめ」と称して自分のサイトでうまく流用してサイトコンテンツを増やし、メインドメインパワーを増強させて、他人が作ったコンテンツをまるで自分が作ったかのように再配布して検索エンジンからのアクセスを獲得しようとするサイトです。
「キュレーション」という言葉が、おそらく馴染みのない言葉なので錯覚しがちですが、言葉の柔らかさでイメージをすり替えただけで、人の作ったものを「引用」という口実で盗んでいるに過ぎません。
なぜなら、法律上の引用の定義は、主従関係が明確である必要があるからです。
キュレーションサイトを評価することはラーメン通を評価することと同じ
キュレーションサイトとは、Web上に既に配信されている記事などを寄せ集めて紹介していくことで、ハブページとしての役目を持ちながら膨大なページ数とドメインパワーによって、本家ページよりもアクセスを獲得しようというような要素を持つサイトです。
引用した部分を組み合わせることでオリジナルのコンテンツとして生成
「記事を紹介している」という面で「引用」という形にされていますが、その多くは記事コンテンツを流用し、引用した部分を組み合わせることでオリジナルのコンテンツとして生成し、本家の記事よりも検索順位上位表示を狙うことでアクセスを稼ぎ、広告収入を得ようとしているものがほとんどです。
引用という名の盗作に近い要素があるため、問題視されている傾向にあり、2016年末には著作権法違反や不確実情報の提供の要素が露見し、一部のキュレーションサイトが閉鎖に追い込まれました。幾多の問題を抱えて閉鎖していった経緯もあるので、今後類似のサイトが登場する可能性は低いと考えられます。
自動生成コンテンツの識別アルゴリズム
ブラックハットSEOにおける「コンテンツの自動生成」および「無断複製(盗用)」は、現代の検索エンジンアルゴリズムにおいて深刻な違反行為とみなされておりアルゴリズムやガイドラインの進化とともに、技術的にも倫理的にも厳しく取り締まられています。
自動生成コンテンツの識別アルゴリズムは次のようなものがあります。
SpamBrain(スパムブレイン)
機械学習ベースのスパム検出エンジン。特徴量抽出により、自動生成特有の構文、文体パターン、ファクトの曖昧さをスコアリング。
Helpful Content System
網羅性、信頼性、独自性が不足したコンテンツ群をドメイン単位で評価。全体品質が低いサイトはドメイン全体のランキングを抑制される。
パターン一致と統計的類似度比較
類似コンテンツとのベクトル類似度(Cosine similarity, Jaccard係数)を用い、自動スピンを検出。
クロール深度・発リンク比率の異常検出
低品質リンクネットワーク内で自動生成が連動しているケースに対し、構造的スパムと判定。
Originality Score
文単位の出現頻度を元に「新規性」や「先出性」を測定。
Duplicate Content Detection
シャイニングテキスト(表現の特徴点)を抽出し、既存インデックスと照合。
Canonical評価の優先順位
同一コンテンツが複数ドメインで確認された場合、先に公開されたURLや評判・被リンクスコアの高いサイトを正規版と認定。
ホームページ制作&SEO 京都
ホームページの制作・企画・運営・更新やホームページのSEO対策、ローカル検索対策などのWeb制作サービス、Webマーケティングなら、京都のWeb制作会社(ホームページ制作会社)
株式会社ファンフェアファンファーレへ!
ホームページ制作 京都 ファンフェアファンファーレは、Webマーケティング効果を最大限に引き出すSEOに特化したホームページ制作やカスタマイズ、SEOを手がけております京都市のWeb制作会社(ホームページ制作会社)です。
「ホームページ制作」京都府京都市内エリア(上京区、中京区、下京区、東山区、右京区、左京区、北区、南区、西京区、山科区、伏見区)では、ホームページ制作・作成・SEO対策等のWeb制作サービスにつきましては、ご訪問での打ち合わせ・ヒアリング・ご提案をさせていただいております。SEO・Web集客・WebマーケティングにかかるWebコンサルティングもご対応可能です。
ホームページ制作 京都のWeb制作会社(ホームページ制作会社) ファンフェアファンファーレ (トップページへ)