LAION
創立者 | Christoph Schuhmann Jenia Jitsev Richard Vencu Robert Kaczmarczyk Theo Coombes Mehdi Cherti Aarush Katta Jan Ebert |
---|---|
団体種類 | 非営利団体 |
活動内容 | 人工知能 |
ウェブサイト | https://laion.ai/ |
LAION (ライオン)は無許諾のwebデータなどからAI基盤モデルやデータセットを形成するドイツの非営利団体[1][2][3]。インターネットから無断で集めた画像と説明文の巨大なデータセットを多く公開したことで有名で、Stable DiffusionやMidjourneyやNovelAIなど多数の目立つtext-to-imageモデルの基礎データに使われている[4][5][6][2]。58億5000万もの画像データセットを載せたLAION-5Bは特に有名である[2][7]。LAIONのデータセット群はAI利用者に重宝される一方で、含まれる画像は基本的に権利者の同意なく収集されていることなど、様々な分野から問題の指摘がされており、データセットを利用したAI企業が訴訟されるなどしている[2][8][9][10]。LAIONは「Large-scale Artificial Intelligence Open Network」の頭文字である[1]。
2023年2月、ゲッティイメージズがStable DiffusionのStability AIに対して起こした訴訟の中では、LAIONのデータセットが問題視された[11][12]。また、2023年4月、データセットから自身の写真の削除を要求したドイツの写真家ロバート・クネシュケから提訴されている[8][13]。
2023年4月15日、LAIONとその協力者は、オープンソースのAIアシスタントのチャットボットであるOpenAssistantをリリースした。
LAION-5Bなど画像データセット
[編集]LAIONは、収集した画像とその説明文であるキャプションとが紐づけされた膨大なデータセットを数多く発表しており、AI研究者によく使用されている[2]。LAION-400MやLAION-5Bは特に有名である[2]。これらLAIONのデータは、アメリカの非営利団体コモン・クロールがウェブサイトからスクレイピングしたデータセットから、それぞれの権利者の同意なく取り込まれたものである[14][2]。コモン・クロールは毎月30億以上のウェブサイトをスクレイピングしてデータを収集している[2]。LAION創設者のクリストフ・シューマンは、ネット巡回で収集されたHTMLコードからimg
タグで画像を探し出し、そのimg
内の代替テキストalt属性をキャプションとして関連付けた[14][2]。そして画像認識AIのCLIPを使い、説明文との一致率の低い画像を選び削除している[15]。LAIONは、収集画像そのものを所有せず、データセットには画像へのURLが指定されていて、利用者自身のダウンロードが必須であるとしている[16][17]。
2022年9月にMetaが発表した動画生成AIのMake A VideoにもLAIONのデータセットが用いられている[18]。
LAION-400Mは、2021年8月に公開された最初のLAION制データセットで、4億組の画像と注釈文が搭載されていた[19]。コモン・クロールが2014年から2021年までに無差別に集めたウェブサイトの一部から抜き取られたものである[19]。LAION-400Mの開発は、OpenAIがCLIPモデルをトレーニングするときに使った4億の画像データを集めるための処理を再現しオープンソースとして公開する企てだった[15]。これは、OpenAIが基盤モデルのコードと重みはオープンソース化したが、データセットを公開しなかったためである[15][20][14]。LAION創設者のシューマンには、大手企業がデータを独占することを防いで民間に広く拡散する目的があった[20][14]。
2022年にGoogle Brainが公開したtext-to-imageモデルのImagenはプライベートな内部データセットと共にLAION-400Mのデータを取り込んだ[21]。
LAION-5Bは、2022年3月にLAION-400Mの後継として公開された、58億5000万組の画像と注釈文が搭載されたデータセットである[7][2]。公開時点では、無料で利用できる画像データセットの中では最大であった[15]。開発にはDoodlebot、 Hugging FaceやStability AIなどのAI関係の企業が資金を提供している[22]。
このデータセットを利用している生成AIは、Stability AIのStable Diffusion、Midjourney、AnlatanのNovelAI、DeviantArtのDreamUpなどがある[23][24][10]。
LAION-5Bの画像元として判明しているサイトは多岐にわたり、Pinterest、Shopify、Wix.com、SlidePlayer、Danbooru、pixiv、X(旧Twitter)、Flickr、DeviantArt、Tumblrなども含まれる[2][25][26]。
CommonPoolは、2023年4月に公開された、128億の画像とキャプションで構成されたtext-to-imageモデルのデータセットである[2]。他のデータセットと同様にコモン・クロールから取得された画像が利用されている[2]。マルチモーダルのデータセットのベンチマークDataCompの一部である[2]。
人権侵害・児童ポルノ・訴訟・問題点
[編集]LAION-5BなどLAIONの画像データセットには、様々な研究が示すように、強姦、性的画像、児童性虐待画像(CSAM)、ステレオタイプの中傷、人種差別や民族中傷、医療写真、戦争写真、事件や事故の犠牲者写真、想像上の侵攻画像、宗教的なタブー画像など、その他の極めて問題ある内容の画像が混ざっている[26][27][28][29][30][31]。また、バイエルン放送の調べでは、Hugging Faceから提供されるLAIONのデータセットの中に、多くのプライベート・機密データが入ってることが明らかになっている[6]。
2022年9月、アメリカの技術者アンディ・バイオは、大学や非営利団体などがデータセット開発を担うことが、大手企業による説明責任逃れの隠れ蓑になっていると見ている[18][32]。バイオは、学校などの研究施設や非営利団体のデータ収集とモデルの学習は、アメリカの著作権法で認可するフェアユースに当てはまるかもしれないが、企業がそのデータセットを訓練に使用して商用で画像を出力するのは、一種のデータロンダリングだと批判した[18][32]。
著作権
[編集]LAIONのデータセットが無断でWebからスクレイピングされて収集された画像であることは、アーティストからは「権利を侵害している」と批判の声が上がっている[30][33]。しかし2024年9月、ドイツ・ハンブルク地方裁判所 は写真家の著作権侵害の訴えを棄却している[34][35][36]。当事件は世界に先駆けたAI関連判決として注目されており[34][35][37]、"landmark" (今後の判例の分水嶺となるような) といった表現[37]で当判決の重要性を強調する文献も見られる。
2023年1月、アメリカでは、漫画家のサラ・アンダーセン、イラストレーターのケリー・マッカーナン、ビジュアルアーティストのカーラ・オーティスたちが、著作権侵害でありデジタルミレニアム著作権法に違反するとして、生成AIのStable DiffusionのStability AI社とMidjourneyと芸術家コミュニティのDeviantArtに対して集団訴訟を起こし、3社が使用したLAION-5Bのデータセットによる画像の無断使用を問題視した[24][10][38][39]。2024年1月、画像生成AI・Midjourneyが機械訓練に使用した1万6,000人以上のアーティスト名を記録したリストが見つかる。その中にはウォルト・ディズニーや草間彌生などの有名クリエイターの名前もあった[40]。ライアットゲームズの開発者ジョン・ラムによると、Midjourneyの開発者らが選んだアーティストたちである[40]。2023年に集団訴訟を起こしたアーティストも多くこのリストに入っていた[40]。イギリスのアーティストたちの間でもアメリカでのアーティストたちの訴訟に影響を受け、団結する必要があるという動きが出ている[10]。
DeviantArtはアメリカの芸術家コミュニティで3億5000万点以上の作品が投稿されていたが、作品がLAION-5Bを通してStable Diffusionに使用されたことが判明している[24]。バターリック弁護士によると、DeviantArtはAIから自社の投稿作品を守るどころか、自社から無許可に収集された画像のAI利用を放置したという[24]。弁護士は、DeviantArt投稿者の権利を侵害するLAION-5Bを使用したStable Diffusionを基盤にして有料の生成AIアプリDreamUpを公開したことを指摘した[24]。
AnlatanのNovelAIが使うデータセットLAION-5BにDanbooruの画像が入っていることが判明している[25][41]。DanbooruはpixivやX(旧Twitter)などのSNSに投稿された二次元イラストが転載されていることが問題になっているサイトである[25][41]。pixivでは、自身の作品のデータがAIに不正利用されており、pixivの対応が適切でないとしてユーザーたちの間で抗議の意味で非表示・削除にする動きが起こった[42]。
肖像権・プライバシー
[編集]2022年9月にアメリカ、ニューハンプシャー大学法学部のTiffany Li助教は、一般人の顔写真がLAIONに許諾なく使用されてることを指摘している[43]。また、LAION自体が画像を直接所有しないため、誰が最初に収集しデータセットに入れて公開したのかを特定するのが容易ではなく、責任者かを明確にして処罰するのも困難なことが問題を複雑化させているとも述べた[43]。カナダ・アメリカのメディアMotherboardは、プライバシー侵害の恐れとその解消が困難であり、それ以前に被害者本人が気づかない問題もあると警告する[43]。LAIONを含めて、LAIONのデータセットに関連するAI企業の多くは削除依頼や訴訟などで問題が発生した際に、悪いのは自分たちでなくインターネット全体であるとして責任をたらい回しにしたコメントを発表している[43][4][17][18]。
医療写真
[編集]2022年9月にアメリカ、カリフォルニアの画像生成AI利用者がLAION-5B内の画像を検索できる「Have I Been Trained?」を調べる中で自分の医療用の顔写真が含まれていることを発見する[16][17]。利用者がLAIONに削除の方法を問い合わせたが、LAION側からは自分たちは画像を直接所有してないため、所有するサイトに削除を依頼するのが最良だとの回答が返ってきた[16][17]。ニュースサイトArs Technicaの調査では同様の医療写真が数千枚見つかっている[16][17]。
事件・事故・災害などの犠牲者写真
[編集]2023年12月、読売新聞の取材でStability AIのStable Diffusionの使うLAION-5B内に事件や災害の犠牲者の写真が大量に取り込まれていることが判明した[44]。読売新聞によると、ニュースサイトや転載された掲示板などが収集元と考えられるという[44]。1997年に兵庫県で起きた神戸連続児童殺傷事件の被害児童や、2000年の東京の世田谷一家殺害事件の家族の写真、2015年に過労で自殺した電通の新入社員の顔写真も含まれていた[44]。 2001年のアメリカ同時多発テロ事件や2011年東日本大震災のなどテロや災害の犠牲者の写真も確認された[44]。電通の新入社員の遺族は、過重労働の実態や教訓を伝えるためと報道各社に顔写真を提供しており、AIのデータに使われたことに困惑してやめてほしいと訴えた。死者のデジタルデータの事情を良く知る関東学院大の教授は、犠牲者の遺族にはAIへの利用は想定外で死者の尊厳にもかかわると無断利用の問題を指摘した[44]。
児童性虐待写真
[編集]2023年12月20日、アメリカのスタンフォード大学インターネット観測所の研究者デビッド・ティールは、LAION-5Bに児童ポルノ=児童性虐待画像(CSAM)、が1008件見つかったことが外部で確認されており、疑いがあるものも入れると3226件あることに気づいて報告書を公開した[3][45][23]。これらCSAMは様々なwebサイト、ソーシャルメディア、アダルト動画サイトなどから収集されたことが判明している[23]。2023年12月、読売新聞が調査したところ、Stability AIの使うLAIONのデータセットに1993年出版の裸体の少女の写真集の画像を発見する[31]。また他児童の裸の写真が複数確認された[31]。LAIONは、スタンフォード大学が示した検証に対して「我々は違法コンテンツを一切許容しない」と声明を出し、LAION-5BとLAION-400Mを問題が解決するまで停止した[46][31][3]。 しかし、2024年2月、Stability AIの提携企業がデータセットの中に新たに児童の性的画像を見つけたことを明らかにした[31]。
脚注
[編集]- ^ a b “About”. LAION.ai. 2022年9月26日閲覧。
- ^ a b c d e f g h i j k l m n “きちんとチェックすると「781年」かかるAI用データセット「LAION-5B」の課題がよくわかる「Models All The Way Down」”. GIGAZINE (2024年4月1日). 2024年5月12日閲覧。
- ^ a b c “生成AIの学習データに児童虐待画像 米大学研究者が指摘”. 日本経済新聞 (2022年12月21日). 2024年5月12日閲覧。
- ^ a b Edwards, Benj (2022年9月15日). “Have AI image generators assimilated your art? New tool lets you check”. Ars Technica
- ^ Newman, Marissa; Cantrill, Aggi (2023年4月24日). “The Future of AI Relies on a High School Teacher's Free Database” (英語). Bloomberg News 2023年4月24日閲覧。
- ^ a b “We Are All Raw Material for AI”. Bayerischer Rundfunk (2023年7月7日). 2024年5月12日閲覧。
- ^ a b Beaumont, Romain (2022年3月3日). “LAION-5B: A New Era of Open Large-Scale Multi-Modal Datasets”. LAION blog. 2024年5月12日閲覧。
- ^ a b “A Photographer Tried to Get His Photos Removed from an AI Dataset. He Got an Invoice Instead.” (英語). Vice (2023年4月28日). 2023年5月4日閲覧。
- ^ “Class Action Filed Against Stability AI, Midjourney, and DeviantArt for DMCA Violations, Right of Publicity Violations, Unlawful Competition, Breach of TOS”. PR Newswire. Cision (2023年1月14日). 2024年5月12日閲覧。
- ^ a b c d “画像生成AI「Stable Diffusion」と「Midjourney」に対する集団訴訟でイギリスの写真家が団結呼びかけ”. GIGAZINE (2024年1月25日). 2024年5月12日閲覧。
- ^ “Getty Images (US), Inc. v. Stability AI, Inc., 1:23-cv-00135” (英語). CourtListener. 2023年2月8日閲覧。
- ^ “画像生成AI「Stable Diffusion」開発元のStability AIがかつてGoogleを和解に持ち込ませたこともあるストックフォトサイトのGetty Imagesに訴えられる”. GIGAZINE (2023年1月18日). 2024年5月12日閲覧。
- ^ “画像生成AIによる作品の無許可使用を主張した写真家が逆に損害賠償を請求される”. GIGAZINE (2023年4月27日). 2024年6月6日閲覧。
- ^ a b c d “画像生成AI「Stable Diffusion」が使う無料のデータセット「LAION」の構築を率いているのは1人の高校教師だった”. GIGAZINE (2023年4月26日). 2024年5月12日閲覧。
- ^ a b c d Alford, Anthony (2022年5月17日). “LAION Releases Five Billion Image-Text Pair Dataset LAION-5B”. InfoQ. 2024年5月12日閲覧。
- ^ a b c d Edwards, Benj (2022年9月21日). “Artist finds private medical record photos in popular AI training data set”. Ars Technica
- ^ a b c d e “画像生成AIユーザーがAI学習用データセットから「自分の医療記録の写真」を発見してしまう”. GIGAZINE (2022年9月22日). 2024年5月12日閲覧。
- ^ a b c d “「AI学習用のデータセット作成を大学や非営利団体に任せることで企業は法的責任から逃げている」という批判”. GIGAZINE (2022年10月19日). 2024年5月12日閲覧。
- ^ a b Schuhmann, Christoph (2021年8月8日). “LAION-400-Million Open Dataset”. LAION blog. 2022年9月26日閲覧。
- ^ a b “画像生成AI「Stable Diffusion」などの開発に大きな貢献を果たした超巨大データセット「LAION-5B」とは?”. GIGAZINE (2022年12月14日). 2024年6月7日閲覧。
- ^ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu; Sara Mahdavi, S.; Gontijo Lopes, Rapha; Salimans, Tim; Ho, Jonathan; J Fleet, David; Norouzi, Mohammad (23 May 2022). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arXiv:2205.11487 [cs.CV]。
- ^ Wiggers, Kyle (2022年8月12日). “This startup is setting a DALL-E 2-like AI free, consequences be damned”. TechCrunch. 2024年5月12日閲覧。
- ^ a b c “画像生成AI「Stable Diffusion」などに使われた50億枚超の画像セット「LAION-5B」に1008枚の児童ポルノ画像が入っていることが判明し削除へ”. GIGAZINE (2023年12月21日). 2024年5月12日閲覧。
- ^ a b c d e “画像生成AI「Stable Diffusion」と「Midjourney」に対して集団訴訟が提起される”. GIGAZINE (2023年1月16日). 2024年5月12日閲覧。
- ^ a b c “画像生成AIサービス「NovelAI Diffusion」が無断転載サイトからの学習で物議 法的観点からも複雑な事態に”. Yahoo! Japan News (2022年8月5日). 2022年10月19日時点のオリジナルよりアーカイブ。2024年5月12日閲覧。
- ^ a b “23億枚もの画像で構成された画像生成AI「Stable Diffusion」のデータセットのうち1200万枚がどこから入手した画像かを調査した結果が公開される”. GIGAZINE (2022年8月31日). 2024年5月12日閲覧。
- ^ Birhane, Abeba; Prabhu, Vinay Uday; Kahembwe, Emmanuel (2021). Multimodal datasets: misogyny, pornography, and malignant stereotypes. arXiv:2110.01963.
- ^ Birhane, Abeba; Prabhu, Vinay; Han, Sang; Boddeti, Vishnu Naresh; Luccioni, Alexandra Sasha (2023-11-06), Into the LAIONs Den: Investigating Hate in Multimodal Datasets, arXiv:2311.03449
- ^ “画像生成AIに自分の作品が勝手に使われたかどうかを検索できる「Have I Been Trained?」”. GIGAZINE (2022年9月15日). 2024年5月12日閲覧。
- ^ a b “まるで人間のアーティストが描いたような画像を生成するAIが「アーティストの権利を侵害している」と批判される”. GIGAZINE (2022年8月15日). 2024年5月12日閲覧。
- ^ a b c d e “生成AI、児童ポルノ画像を学習か…専門家「被害者の人権侵害恐れ」”. 読売新聞オンライン. 読売新聞 (2024年3月21日). 2024年5月12日閲覧。
- ^ a b Baio, Andy (2022年9月30日). “AI Data Laundering: How Academic and Nonprofit Researchers Shield Tech Companies from Accountability”. waxy.org. 2024年5月12日閲覧。
- ^ “AI無断学習で作画「私の作品のつぎはぎだ」…コピーライト・ロンダリングがもたらす「文化の衰退」”. 読売新聞オンライン. 読売新聞 (2024年2月14日). 2024年5月12日閲覧。
- ^ a b 野口ケルビン (米国特許弁護士) (2024年11月1日). “AIトレーニングデータは著作権保護対象外?:ドイツにおける初の判決が示唆するポストAIの世界とアメリカとの違い”. Open Legal Community (知財メディアサイト). 2024年11月9日閲覧。
- ^ a b Ehle, Kristina (弁護士事務所パートナー); Tüzün, Yeşim (弁護士事務所アソシエート). "To Scrape or Not to Scrape? First Court Decision on the EU Copyright Exception for Text and Data Mining in Germany" [データ収集すべきか否か? ドイツでテキストおよびデータマイニング (TDM) に関するEU著作権例外規定の初判決] (英語). Morrison & Foerster LLP. (法律事務所). 2024年11月9日閲覧。
- ^ “2024 WIPO IP Judges Forum Informal Case Summary – Hamburg Regional Court, Germany [2024: Robert Kneschke v. LAION e.V., Case No. 310 O 227/23]” [2024年 WIPO 知的財産法フォーラム用非公式判例要約 - 2024年ドイツ・ハンブルク地裁: ロベルト・クネシュケ対LAION (事件番号: 310 O 227/23)] (英語). WIPO. 2024年11月9日閲覧。
- ^ a b Kalhor-Witzel, Ronak (知的財産法専門弁護士) (2024年10月24日). “A landmark copyright case with implications for AI and text and data mining: Kneschke v. LAION” [人工知能とテキスト・データマイニングの解釈に関する著作権侵害訴訟の重要判決: クネシュケ対LAION] (英語). Trademark Lawyer Magazine. CTC International Media Limited. 2024年11月9日閲覧。
- ^ “米画家ら、画像生成AI「Stable Diffusion」と「Midjourney」を提訴”. PC Watch. インプレス (2023年1月17日). 2024年5月12日閲覧。
- ^ “作家そっくりの作風、チャットGPTが「作品」…著作権の保護曖昧”. 読売新聞オンライン. 読売新聞 (2023年4月26日). 2024年5月12日閲覧。
- ^ a b c “MidjourneyがAIトレーニングに用いた6歳児を含む1万6000人のアーティストリストの存在が発覚”. GIGAZINE (2024年1月11日). 2024年5月12日閲覧。
- ^ a b “イラスト自動生成AI「NovelAI」について学習元となったDanbooru公式が声明を発表”. GIGAZINE (2022年10月5日). 2024年5月12日閲覧。
- ^ “AI学習リスクにイラストレーターが抗議、pixivの作品非公開・削除の動き”. ledge.ai (2023年5月13日). 2024年5月12日閲覧。
- ^ a b c d “「Stable Diffusion」のような画像生成AIに自分の顔写真が使われている可能性は決して低くないとの警告”. GIGAZINE (2022年9月27日). 2024年5月12日閲覧。
- ^ a b c d e “事件・事故の犠牲者の顔写真、生成AIが無断使用…遺族「使うのやめて」・識者「尊厳にかかわる」”. 読売新聞オンライン. 読売新聞 (2024年4月7日). 2024年5月12日閲覧。
- ^ “人気の画像生成AIモデルが子どもの虐待画像でトレーニングされていたことが判明 スタンフォード大学調査”. ledge.ai (2024年1月13日). 2024年5月12日閲覧。
- ^ “Largest Dataset Powering AI Images Removed After Discovery of Child Sexual Abuse Material” (英語). 404 Media (2023年12月20日). 2023年12月22日閲覧。