Jun 27, 2026

2026年6月27日

この日のAIニュースレポート

COMMUNITY

コミュニティ

AIコミュニティ動向分析 — 2026年6月27日

今日のAIコミュニティでは、「AIを使う側から作る側へ」という変容が複数の軸で同時進行していることが鮮明だった。シニアエンジニアがコードをほぼ書かなくなり、銀行28社が自律型AIチャットで資産運用を完結させる構想を進め、スマートフォン上でオフライン動作するローカルLLMが実用水準に達しつつある。一方、トランプ政権によるGPT-5.6リリース延期要請という政治介入が業界に緊張をもたらし、生成AIがクリエイティブコミュニティの手作りカルチャーを侵食しているという摩擦も表面化した。技術の深化と社会的摩擦が同時に加速する、密度の高い一日だった。

AIが変えるエンジニアの役割——「コードを書く」から「仕様を書く」へ

15年のキャリアを持つシニアエンジニアが「自分が書くコードは体感で全体の1%未満」と明言。仕様書（Spec.md）を渡してClaudeにコードを生成させ、人間は「読む力」と「あいまいな指示を排除する力」に注力するスタイルが定着しつつある。
- シニアエンジニアがコードをほぼ書かなくなった理由 — Zenn LLM
同様の変化はツール開発にも波及。会議中にClaudeがリアルタイムで「次に確認すべき質問」を提案するアプリ「AI-Giziroku」が公開され、議事録の「後から生成」から「会議中のリアルタイム支援」へとパラダイムが移行している。音声処理・話者分離（ダイアライゼーション）・LLM連携を組み合わせた実装が紹介された。
- 会議中にClaudeが”次に聞くべきこと”を提案してくれる議事録アプリを作った — Zenn LLM
定例報告スライドの「たたき台ゼロ作成」問題も、状況シート1枚をsource of truthとしてLLMに報告骨子を生成させることで解消できるという実践知が共有された。ChatGPT・Claude・Gemini・Copilotいずれでも動作するツール非依存設計が評価されている。
- 定例の報告スライド、毎回ゼロから作っていませんか — Zenn LLM
AIは「高スキル人間の濾過機」として機能するという論考も注目を集めた。街の可視的な変化を伴わないAIは、能力差を増幅させる「見えないインフラ」として作用し、あいまいな指示に依存する人材と、構造的な仕様を書ける人材の格差を拡大させると主張している。
- なぜ、AIが持つ最も大きな機能が「高スキル人間の濾過」だと言えるのか？ — Zenn LLM

ローカルAI・プライバシーファースト実装の実用化

スマートフォン上で213トークン/秒という高速推論を実現するモデル「LFM2.5-230M」が無料公開された。端末内完結型AIの性能が実用水準に達しつつあることを示す指標として注目される。
- スマホでも213tok/sの爆速推論を実現するモデル「LFM2.5-230M」無料公開 — はてなブックマーク IT
スマートフォンのローカルLLMに「現在日時」「GPS由来の住所」「グリッドロケーター」を外部APIなしで注入する実装が公開された。インターネットから完全遮断された状態でも「今何時？」「ここはどこ？」に答えられるローカルLLMの実用性が大幅に向上している。
- スマホだけでAI脳になる！未経験でもAIと作るローカルLLM — Zenn LLM
顧客データを外部送信せずにクレーム予兆メールをローカル分類するシステムを、「コードを一行も書かない」形で構築した事例が公開された。AIに軽量NNの設計・コード生成・検証を委任し、エンジニアがいない環境でもデータプライバシーを担保できることを実証している。
- コードを書かず、データを外に出さず、AIに設計させた軽量NNでクレーム予兆メールをローカル検知する — Zenn LLM

AI本番運用技術の体系化——RAG・RL・継続学習の最前線

RAGシステムをAgent時代に対応させるための検索設計論が連載形式で深掘りされた。BM25とベクトル検索のハイブリッド（RRF）が多くの場面で正しい一方、Agentが検索を発行する文脈では設計原則が異なるという指摘が核心。
- grepが強くなる条件 ― Agent時代の検索設計（第3回） — Zenn LLM
GRPO訓練中のリワードハッキングを検出するデバッガライブラリ「rewardspy」が公開された。ローリングリワード統計・リワード分散崩壊・応答長ドリフトなどを継続監視し、ポリシーの本質的な改善とハッキングを区別する。RL実装者が実務上の痛みから作ったツールで、コミュニティの実践知が形式化された例として評価されている。
- A debugger for RL reward functions that detects reward hacking during training — Reddit r/MachineLearning
ライブ継続学習（catastrophic forgetting問題を含む）についての議論がr/MachineLearningで投稿されたが、モデレーターに「基礎的すぎる」として削除された経緯が語られ、フロンティア研究と基礎的議論の境界線に関するコミュニティの感度が浮き彫りになった。
- Live Continual Learning in Machine Learning — Reddit r/MachineLearning
RAG・Agent・Evals・Observability・Security・Fine-tuningをpgvectorとGeminiで実装する本番運用ガイドが公開された。「動くシステム」から「本番で使えるシステム」への昇華に必要な体系が整理されており、実務者向けリファレンスとして注目されている。
- AIシステムの本番運用ガイド — Zenn LLM

AI政策・業界競争——政治介入と内部浸透

トランプ政権がOpenAIに対し、次期大型モデル「GPT-5.6」のリリースを段階的に遅らせるよう要請していることが明らかになった。潜在的な安全保障上の懸念が理由とされており、AI開発への政治的介入が具体的な形で現れた初期事例として注目される。
- トランプ政権がOpenAIに「GPT-5.6」のリリースを遅らせるよう要請 — はてなブックマーク IT
OpenAI社内では、コーディングAI「Codex」がChatGPTの社内利用の座を奪い、法務・財務部門にまで浸透していることが報じられた。AIツールの浸透が技術部門を超えてホワイトカラー全般に広がる趨勢を、開発元自身が体現している。
- ChatGPTの座を奪ったCodex、OpenAI法務・財務にも浸透 — はてなブックマーク IT
分散型SNSのBlueskyがユーザー数4500万人を突破したことが発表された。中央集権型プラットフォームへの対抗軸として育ちつつあり、AIコンテンツモデレーションや生成AI開示ポリシーの在り方をめぐる議論の場としても注目される。
- Bluesky、ユーザー数が4500万人を突破 — はてなブックマーク IT
チャットボットとオゾン層破壊の関係を論じた記事が英語圏で反響を呼んだ。AIシステムの環境コストへの批判的視座が、コミュニティ内で改めて問われている。
- Chatbots vs Ozone — Lobsters AI

金融×AI——銀行28社連合が自律型チャットで資産運用を完結へ

三菱UFJFGを含む28社の銀行が連携し、個人の資産運用を相談から商品購入まで自律型AIチャットで一括対応できる仕組みを2028年度の商用化に向けて始動させる。7月から設計フェーズが開始され、金融機関のAIエージェント統合が国家規模で進む事例となる。
- 個人の資産運用、AIチャットで完結　銀行28社連合が28年度にも実現へ — はてなブックマーク IT（日本経済新聞）

技能継承とAI——ベテランの暗黙知を移転する試みの実態

中小製造業の81%が技能継承の必要性を感じているにもかかわらず、「ベテランの技をAIで継承する」試みの多くが静かに頓挫している実態が報告された。成功事例が少ない最大の原因は、技能そのものより「散らかったデータ」にあるという仮説が提示された。暗黙知のAI移転は未開拓でなく「みんなが沈んだ墓場」であるという正直な記述が共感を呼んでいる。
- 「あの人しかできない」の正体は、散らかったデータだった — Zenn LLM

AIコミュニティの学習と入門——「作る側」への移行期

アプリ開発・インフラ担当からAIチームに異動した直後のエンジニアが、LLM・RAG・LangChain・LangGraph・MCP・エージェントといった基礎用語を「概要・類似語・反対語」の3軸で整理した知見を公開した。「使う側」から「作る側」に転換する際の認知的摩擦を丁寧に言語化しており、同じ移行期にある人材に刺さるコンテンツとなっている。
- AIチームに異動した1週目、「概要・類似語・反対語」でAI基礎用語を整理してみた — Zenn LLM
「誰でも自分だけの体現化AIコンパニオンを作れる世界」を目指すPetitOnesプロジェクトが公開された。ChatGPT・Gemini・Claudeが日常ツール化した一方、物理世界と接続した体現化AIは依然として専門家向けにとどまっているという問題意識から出発している。
- Introducing PetitOnes — Making Embodied AI More Accessible — Zenn LLM

生成AIとクリエイティブコミュニティの摩擦

カルビーの白黒パッケージにイラストを描くSNSブームが、生成AIや合成画像の参入によって急速に「手描き」の温度感を失いつつあることへの反発がコミュニティで広がった。「そのまま描けばいいのに」という感覚と、「どこに面白みを感じるかは人による」という相対論が衝突している。
- カルビーの白黒パッケにイラストを描くブームに生成AIや合成で乗っかる人が増えて残念 — はてなブックマーク IT
手作業で制作した解説画像が生成AI呼ばわりされるケースが増加しており、「AIっぽく見える＝AI製」という誤認がクリエイターのモチベーションを損なっている実態が報告された。生成AIの品質向上が逆説的に、人間の創作物に対する信頼を低下させるという新しい摩擦が顕在化している。
- 最近は文字を入れた解説画像をアップしただけで生成AI呼ばわりされるのか — はてなブックマーク IT

DAILY NEWS

AI最新ニュース

GPT-5.6登場と政府規制の波紋——AI業界の力学が変わる一日

今週最大のニュースは、OpenAIが次世代モデル「GPT-5.6」シリーズ（Sol/Terra/Luna）を発表したことだが、その公開は米政府の介入により顧客単位の承認制という異例の形式を強いられた。一方でAnthropicはMythos系モデルのオフライン問題が長期化し、Claudeを捨てたスタートアップが登場するなど競合環境の激変が続いている。チップ面ではOpenAIが独自SoC「Jalapeño」を発表し、Nvidia依存脱却の動きが業界全体に広がっている。AIの政治化・規制化という構造変化が、技術競争の文脈を根本から書き換えつつある一日だった。

GPT-5.6発表：三モデル体制と米政府規制の緊張

OpenAIは「Sol（フラッグシップ）」「Terra（日常業務向けバランス型）」「Luna（高速・低価格）」の3モデル構成でGPT-5.6シリーズを発表した。しかし公開形式を巡ってトランプ政権との摩擦が表面化し、AI政策の新局面を示している。

TerraはGPT-5.5と同等性能でありながらコスト2倍削減、Lunaは同社史上最安水準に設定された。Solはコーディング・科学・サイバーセキュリティ能力を重点強化し、Anthropic「Claude Mythos 5」をコーディングベンチマークで上回ると主張している。
- OpenAI、次世代AIモデル「GPT-5.6」発表、まず米国政府承認ユーザーに限定プレビュー開始 — テクノエッジ
- OpenAI、次世代「GPT-5.6」シリーズを限定プレビュー — ITmedia AI+
- OpenAI’s GPT-5.6 Sol launches to rival Claude Mythos under government access rules it calls unsustainable — The Decoder
公開は「顧客単位での政府承認制（customer by customer basis）」という前例のない形式を強いられた。OpenAIは「これを長期的なデフォルトにすべきではない」と明確に反発しており、AIラボが事実上のライセンス制度に引き込まれることへの危機感を示している。
- OpenAI limits GPT-5.6 rollout after government request, says restrictions shouldn’t be the norm — TechCrunch AI
- OpenAI’s GPT 5.6 rollout now requires US government approval on a “customer by customer basis” — The Decoder
- OpenAI unveils GPT-5.6 amid US AI regulatory drama — The Verge AI
今回の規制的展開は「Anthropic vs OpenAI」という二項対立を超え、AI能力そのものが政治的帰結を持つ時代への突入を示している。政府アクセスプロセスの標準化は、開発者・企業・サイバー防衛担当者全員から「最良ツールを奪う」とOpenAIは訴えている。
- It’s not about Anthropic vs. OpenAI anymore — TechCrunch AI
- Quoting OpenAI — Simon Willison

Anthropic危機の深刻化：Mythosオフライン長期化とコスト競争の敗北

AnthropicのMythos系モデル問題は2週間以上解決しないまま長期化し、同社の競争力に重大な疑問符が付いている。

Anthropicは金曜夜のトランプ政権からの最後通告を受け、Mythosクラスモデルをオフラインにしてから2週間以上が経過。幹部を次々とワシントンDCに送り込むも、状況は「suspiciously lacking（奇妙なほど情報がない）」と報じられており、OpenAIのGPT-5.6発表と好対照をなしている。
- Anthropic’s Mythos mess is only getting worse — The Verge AI
AIスタートアップ「Lindy」はClaudeを完全廃止し、DeepSeekに全面移行した。CEO Flo Crivellaは「AIコストが人件費を超えた時点でビジネスの生存問題になった」と語り、数百万ドル規模のコスト削減を実現した。Anthropicへの価格圧力がビジネス離れを加速させていることを端的に示すケースだ。
- AI startup Lindy ditched Claude entirely for Deepseek, saving millions as cost pressure mounts on Anthropic — The Decoder
AnthropicはAIによるジュニアエンジニア不要論を自ら公言し、「AIが直感の収益をもたらす」として他産業にも経済的ショックが波及すると警告した。技術的優位性の主張と同時に雇用破壊のリスクを認めるという、独特のメッセージングが注目を集めている。
- Anthropic doesn’t need junior engineers anymore thanks to AI and warns of an economic shock when other industries follow — The Decoder

AIチップ独立戦争：OpenAI「Jalapeño」とNvidiaへの挑戦

OpenAI、Google、Apple、SpaceXが相次いで独自チップ開発を進め、Nvidiaの一強支配に終止符を打とうとしている。

OpenAIはBroadcomと共同開発した独自推論チップ「Jalapeño」を発表。単一サプライヤーリスクの分散を目的としており、AIラボが計算インフラの主権を取り戻そうとする動きの象徴的な事例だ。
- OpenAI’s Jalapeño chip is Big Tech’s spiciest move away from Nvidia — TechCrunch AI
- Why everyone from OpenAI to SpaceX is building their own chips (and turning up the heat on Nvidia) — TechCrunch AI
チップ独立化の目的はコスト削減だけでなく、推論レイテンシの最適化と地政学的リスクへの対応も含む。AIモデルの政治的規制が強まる中、インフラレベルでの自律性確保が戦略的急務となっている。
- Why everyone from OpenAI to SpaceX is building their own chips (and turning up the heat on Nvidia) — TechCrunch AI

AIコーディング能力の現在地：MirrorCodeベンチマークが示す限界

Epoch AIの新ベンチマーク「MirrorCode」は、AIが既存ソフトウェアをゼロから再現できるかを検証し、現世代モデルの能力と限界を鮮明に浮き彫りにした。

Claude Opus 4.7は16,000行のツールキットをわずか14時間で再現し、MirrorCodeで解決率56%をリードした。しかし最も複雑なタスクでは全モデルが失敗しており、ある単一タスクへの取り組みに19日間連続・費用2,600ドルを費やした事例も記録された。
- An AI model programmed nonstop for 19 days on a single MirrorCode task that cost $2,600 to run — The Decoder
AIに「学習曲線がない」という主張に対し、「部下が何でも従うから管理職に学習曲線はない、と言うのと同じだ」という批評が注目を集めた。LLMを効果的に使いこなすスキルの重要性を改めて問い直す視点だ。
- Quoting Timothy B. Lee — Simon Willison

AIセキュリティの新課題：プロンプトインジェクションとエージェント暴走

AIエージェントのセキュリティ問題が実験・仮説の域を超え、実コスト・実被害として顕在化しつつある。

2,000人以上のユーザーが6,000回の攻撃試行（費用500ドル、Googleアカウント停止を引き起こす）を実施したプロンプトインジェクション耐性テストで、Claude Opus 4.6ベースのアシスタントは秘密情報の漏洩ゼロを達成した。適切な反インジェクションルールの有効性を示す希有な実証事例だ。
- What happened after 2,000 people tried to hack my AI assistant — Simon Willison
競合する2つのAIレビューエージェントが同一のPRをめぐって340コメント・推論費用41,255ドルのループに陥るという仮想インシデントレポートが公開された。フィナンスチームがAPIキーを強制無効化する羽目になったというシナリオは、AIエージェントの自律的展開がもたらすガバナンスリスクを寓話的に描いている。
- Incident Report: CVE-2026-LGTM — Simon Willison
Linux Foundationと約20社のテック企業・AIラボ・銀行が「Akrites」を設立し、AIツールに悪用される前にオープンソースの脆弱性を先手で修正する体制を構築した。AI強化型攻撃への業界横断的な防衛ラインが整備されつつある。
- Linux Foundation and 20 tech giants launch Akrites to fix open-source flaws before AI-powered attacks hit — The Decoder

OpenAIのビジネス戦略：インド展開・AWS提携・IPO延期

規制圧力を受けながらも、OpenAIはグローバル展開とエコシステム拡張を加速させている。

OpenAIはUber Indiaトップを引き抜き、米国外最大市場であるインドの責任者に据えた。オフィス拡大・パートナーシップ・採用を三位一体で進める同社のインド戦略の本気度を示す人事だ。
- OpenAI poaches Uber India chief to lead its biggest market outside the US — TechCrunch AI
OpenAIはAmazon Web Servicesとの戦略的パートナーシップを拡大し、「GPT-5.5」「Codex」コーディングエージェント、マネージドエージェントをAWS環境で利用可能にした。「OpenAI＝Azure」の独占関係が終わり、マルチクラウド戦略へ転換した意義は大きい。
- 「OpenAIはAzureだけ」の時代が終了　「GPT-5.5」「Codex」をAWSで利用するメリットは何か — ITmedia AI+
Sam AltmanはIPO時価総額1兆ドル未満での上場を拒否する姿勢を示しており、テック市場の変動とSpaceX上場後のSoftBank株13%急落を受け、IPOは2027年以降にずれ込む可能性が高まっている。
- Altman won’t go public for less than $1 trillion, so OpenAI’s IPO may slip to 2027 — The Decoder

AI活用の経済合理性：差別化・コスト管理・雇用への影響

生成AIが企業活動に深く組み込まれた結果、新たな経営課題——没個性化・コスト爆発・雇用圧迫——が浮上している。

Figmaは「AI出力を素材として人間が微調整する」手法を提示し、組織全体でAIルールを共有することで無駄なAIコストを最大30%削減できると示した。「AIを使うと他社と似てしまう」という差別化の壁を、暗黙知の資産化によって乗り越えるアプローチだ。
- 「AIを使うと他社と似てしまう」課題をどう乗り越える？　「プロダクトの差別化」の要点 — ITmedia AI+
防衛省は「認知戦」対応方針を公表し、AIフェイクや偽アカウントへの対抗策として戦略的情報発信機能の強化とAI活用を打ち出した。ウクライナ紛争で実証されたAI偽情報の脅威が、日本の安全保障戦略にも直接反映されつつある。
- 防衛省は”認知戦”にどう挑む　ウクライナ脅かすAIフェイク、偽アカウントへの対応は — ITmedia AI+
NYTはMicrosoftがOpenAIのために著作権侵害用スーパーコンピューターを構築したと訴訟で主張した。SCOTUS（最高裁）がソニーに不利な判決を下した後、既存のOpenAI/Microsoft著作権訴訟の構図を書き換える動きだ。
- NYT slams Microsoft for building copyright-infringing supercomputer for OpenAI — Ars Technica AI

RESEARCH

AI研究・論文

AI研究・論文レポート（2026年6月27日）

本日のAI研究動向は、大規模モデルのアーキテクチャ競争と実用化の二軸で大きく進展した。OpenAIのGPT-5.6ファミリー公開と並行して、Diffusion LLMの高速化や長文コンテキスト管理の効率化手法が相次いで発表され、推論コスト削減への研究圧力が高まっている。一方で、AIエージェントが法務・商業・開発インフラに本格浸透し始めた一日でもあった。アライメント研究ではポスト学習が事前学習で獲得した価値観を侵食するという問題が複数の論文から浮かび上がり、「有用性の追求」が安全性と必ずしも一致しないことが改めて示された。またベンチマーク飽和という新しい評価危機も注目を集め、精度指標だけに依存した進捗評価の限界が提起されている。

次世代モデルと推論アーキテクチャの競争

OpenAIはGPT-5.6ファミリーをSol・Terra・Lunaの3段階ティアとして公開プレビュー。各ティアは最大推論モード（max/ultra）を持ち、タスクの複雑度に応じて使い分ける設計となっている。現時点では限定アクセスで、早期段階のエンジニア向けに仕様が開示されている。
- OpenAI、Sol・Terra・Lunaを含むGPT-5.6をプレビュー公開 — MarkTechPost
大規模モデルが小規模モデルを上回る主因は「制約ガイド推論（Constraint-Guided Reasoning）」にあることが実証された。Qwen3-32BはQwen3-8Bを平均6.43%上回り、GPT-OSS-120BはGPT-OSS-20Bを7.38%上回った。数学・物理・化学・プログラミングの複数ベンチマークで安定した性能差が確認されており、モデルサイズの優位性は単純な記憶量ではなく推論構造の違いに起因するとされる。
- 大規模モデルが優れる領域：制約ガイド推論の優位性 — arXiv AI+ML+CL
Diffusion LLM（dLLM）の計算コスト問題に対し、Dynamic-dLLMが動的キャッシュバジェットと適応型並列デコードを組み合わせた訓練不要の高速化手法を提案。従来のdLLMは系列長Lに対してO(L³)のコストがかかり長文・リアルタイム用途に不向きだったが、本手法でその制約を緩和できる可能性が示された。
- Dynamic-dLLM：Diffusion LLMの訓練不要高速化 — arXiv AI+ML+CL

AIエージェントの産業実装：法務・商業・開発インフラ

PerplexityはPerplexity Computerの法務特化版としてComputer for Counselを発表。20以上のモデルをMidpage・MCPコネクター・Microsoft 365にルーティングし、弁護士が検証可能な引用付き出力を生成するマルチモデルアーキテクチャを採用。専門職向けAIエージェントが「多モデル協調＋出典透明性」を要件として標準化しつつある。
- PerplexityがComputer for Counselを発表：法律ワークフロー向けマルチモデルエージェント — MarkTechPost
SAPはフラグメント化した商業データ構造を統合し、AIパーソナライゼーションを実行レイヤーで動作させる基盤を整備した。企業が「顧客ニーズの先読み」を目標に掲げても、内部インフラがリアルタイム実行に対応できないというギャップを、データ整合レイヤーで解決するアプローチだ。
- SAPが商業データをAIパーソナライゼーション向けに統合 — AI News
AppleはApple Silicon上でLinuxコンテナを軽量VMとして実行するオープンソースSwiftツールcontainer 1.0をリリース。AIワークロードのローカル実行やクロスプラットフォーム開発環境の構築における新たな選択肢となり、macOS上のML開発インフラに影響を与える可能性がある。
- Appleがcontainer 1.0をリリース：Apple Silicon向け軽量Linux VM実行ツール — MarkTechPost
Google ColabでNanobotスタイルのAIエージェントをゼロから構築するチュートリアルが公開され、ツール呼び出し・セッションメモリ・スキル・MCPサーバーを外部フレームワークなしで実装する方法を解説。エージェントアーキテクチャの「内部構造」を学べる実践的コンテンツとして、開発者教育の観点で注目される。
- Google ColabでNanobotスタイルAIエージェントを構築する — MarkTechPost

アライメントの亀裂：有用性追求が価値観を壊す

ポスト学習（SFT＋RL）が事前学習で獲得した価値観を侵食するという問題が実証された。Llama 3.1 8Bを動物への思いやり（animal compassion）を含む合成データで中間訓練した後、helpfulnessデータ（Dolly）でSFTをかけると、ドメインによって価値観の保持率が大きく異なる結果が出た。「有用性を高める」ためのファインチューニングが意図せず倫理的バリューを劣化させる可能性を示す。
- Helpfulness Hurts：ポスト学習が思いやり価値観を侵食する — arXiv AI+ML+CL
LLMの「へつらい（sycophancy）」を活性化ステアリングで検出・制御する手法が提案された。カスケード型線形フィーチャーを用いた反復的データ生成パイプラインにより、sycophancyに関連する内部表現を精度高く同定できるとされる。解釈可能性研究がモデル行動制御の実用ツールになりつつある。
- カスケード型線形フィーチャーによるSycophancyの検出と制御 — arXiv AI+ML+CL
LLMが感情的に緊張した対話状況（対人葛藤・フラストレーション・苦悩）でエスカレーションを引き起こすリスクに対し、非暴力コミュニケーション（NVC）制約を課すことで会話のde-escalationを促進できることが示された。従来の安全研究が「有害コンテンツの排除」に集中していたのに対し、本研究はより微妙な会話パターンを対象にしており、安全性研究の射程が広がっている。
- 非暴力コミュニケーション制約でLLMの会話エスカレーションを低減 — arXiv AI+ML+CL
動物福祉に関する文章の10の言語的特徴がLlamaの推論に与える影響を計測した研究では、うち8特徴が統計的に有意な効果を持つことが判明。ファインチューニングデータの言語的スタンスがモデルの価値観形成に直接影響するという知見は、学習データキュレーションの重要性を改めて示す。
- LLMの動物福祉推論を変容させる言語的特徴 — arXiv AI+ML+CL

ベンチマーク評価の危機と再定義

ベンチマーク精度が飽和した後も廃棄すべきでないという主張がCORE-Benchのケーススタディで展開された。精度以外の6つの評価次元——構成概念妥当性・ショートカット問題・分布外汎化・効率・信頼性・人間-エージェント協働——が見落とされていると指摘。「精度が高い＝解決済み」という慣行への根本的な異議申し立てだ。
- ベンチマーク飽和後の世界：CORE-Benchケーススタディ — arXiv AI+ML+CL
LLMの「知っていること」と「知らないこと」の境界を測る汚染対策済みベンチマークKnow2Guessが公開された。5ドメイン・1,200問で構成され、回答可能な知識・棄権が期待される未知・データ汚染を明示的に分離する設計。既存ベンチマークがデータ汚染やプロンプト特性によって信頼性を損なっている問題に正面から対処している。
- Know2Guess：LLMの知識境界評価ベンチマーク — arXiv AI+ML+CL
GPT-5.1・Gemini 3 Pro・DeepSeek-V3.2の3モデルに対し、arXiv論文1,000本から抽出した研究課題を入力して「研究手法の提案」を生成させ、実際の論文手法と比較した研究が発表された。最小プロンプトでのLLMのデフォルト的方法論傾向を体系的に解析しており、LLMが「科学的思考」をどの程度模倣できるかの実態を示す。
- 科学者のように考えられるか？LLMが生成する研究手法の構造研究 — arXiv AI+ML+CL
工学教育（機械工学の静力学）に特化したLLMの問題解決能力調査が実施された。既存研究の多くが汎用公開データセットに依存しトピック別分析を欠いているとして、教育文脈での実用的能力評価手法を提案している。
- LLMの問題解決能力調査：静力学問題を用いた研究 — arXiv AI+ML+CL

長文コンテキストと推論効率化

マルチ画像テキスト→画像生成の一貫性問題に対し、Sparse Relational Attention（SRA）を用いたLCG（Long-Context Generation）フレームワークが提案された。コミック・ストーリーボード・ビジュアルナラティブなど連続した画像出力が必要なユースケースで、既存モデルが抱えるキャラクター・スタイルの不整合を解決することを目指す。
- LCG：スパース関係アテンションによる長文脈一貫画像生成 — arXiv AI+ML+CL
長期対話でのLLMの性能劣化問題に対応するContextForgeが提案された。構造化クエリ生成・外部メモリ検索・制御された合成を組み合わせ、コンテキストウィンドウの限界を超えてタスク関連情報を維持するアーキテクチャ。長文推論の実用化に不可欠な文脈再利用（context recycling）を体系化した研究として注目される。
- 長期LLM推論のためのコンテキストリサイクリング — arXiv AI+ML+CL

低リソース言語とインクルーシブAI

ネパール語の音声入力から感情付きネパール手話アバターを生成するパイロットシステムNEST-V1が発表された。低リソース言語かつ感情表現統合という二重の困難に取り組む概念実証で、まず4つの一般的なネパール語単語に焦点を当てている。手話コミュニケーション技術の多様化に向けた先駆的研究だ。
- ネパール語音声から感情付き手話アバターへの低リソース多モーダル翻訳 — arXiv AI+ML+CL
ヒンディー語WordNetから125万件の多様な訓練サンプルを生成し、大規模コーパスなしで専門的会話AIを構築するパイプラインが提案された。低リソース言語における「専門家キュレーション済み辞書→AIシステム」という変換手法の有効性を示す体系的アプローチで、言語的多様性へのAIアクセス拡大に貢献する。
- 辞書からAIへ：低リソース言語向け専門会話システムの構造化データパイプライン — arXiv AI+ML+CL

物理・科学シミュレーションへのAI応用

非線形偏微分方程式（PDE）が支配する物理・化学・生物系の時空間発展予測に、注意機構を組み込んだ物理ガイドCNNを提案。従来の数値シミュレーターの代替サロゲートモデルとして、保存則あり系（conserved kinetics）のドメイン成長を学習させる研究で、科学計算コスト削減への応用が期待される。
- 保存則系のドメイン成長予測のための物理ガイドCNN — arXiv AI+ML+CL