AIToday

Microsoftは新しいMAIモデルの訓練にライセンスされていないウェブデータを使用していた。以前は「エンタープライズグレード、クリーンで商業的にライセンスされたデータ」のみを使用していると主張していた

THE DECODER2日前1分で読める
Microsoftは新しいMAIモデルの訓練にライセンスされていないウェブデータを使用していた。以前は「エンタープライズグレード、クリーンで商業的にライセンスされたデータ」のみを使用していると主張していた

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

  1. 1

    Microsoftの技術論文によると、MAIモデルの訓練に Common Crawl などの公開されたウェブソースが使用された。Microsoftは以前、訓練データが「エンタープライズグレード、クリーンで商業的にライセンスされたデータ」のみであると主張していた

  2. 2

    Microsoftは訓練データを「公開入手可能かつライセンスされた人間が生成したデータの混合」と説明している。ウェブデータに関しては、「Robots Exclusion Protocol(robots.txt)および関連するメタタグとHTMLコントロールに対応した独自のクローラー」を使用していると述べている

  3. 3

    他のAI企業と同様に、Microsoftはウェブスクレイピングで一般的にされているのと同じ慣行に依存していると考えられる。公正利用の法的解釈は争われており、裁判所がこれを整理している途中である

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう!

ログインして議論に参加

関連記事

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →