t_wの輪郭

データ学習
あれあれizumi-lab/wikipedia-ja-20230720あれ『Scaling Analytics @ Instagram: The power of deterministic sampling | by Analytics at Meta | Aug, 2024 | Medium』インプレゾンビをしばくためのブラウザ拡張機能の機能案あれエシカルデータ『エシカルデータの潮流 | ドクセル』生成AIの学習データ不要化推定の分散で学習データのクリーニングあれあれあれあれ良い学習データtzmtwtr/tw-posts-jaあれあれ『大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か』

あれ

2025/4/29 14:41:00

いつかAIがプログラムを全部書いてくれる、コミットメッセージが学習データになるという信心から、丁寧めにコミットメッセージ書くようにしてる。


ちなみに最近気づいたんだけど、開発済みのものをAIに学習させても嬉しくないんですわ。開発済みなので。


ドキュメントの自動生成とか、RAGとかの方面でコミットメッセージ活用をやっていきたい。

あれ

2025/4/29 7:01:00

AI、小規模なスクリプトとか、プロジェクトの立ち上げる時のコード書かせるのも精度が高い印象ある。学習データ多そう。

込み入った既存のプロジェクトになってきてしまうと、個別性が高くて学習データが乏しいという問題がありそう。


AIがやるにしろ、人がやるにしろ、プロジェクトが「ここだけ見ればよい」みたいな構成にできてるといいんだろうなぁと思う。

設計を勉強して頑張っていきたい。

あれ

2024/9/14 10:58:00

機械学習とDuckDBが相性が良い説がある。
HuggingFaceにあるデータセットのURLを指定するだけでSQLでデータ取得できる。

例:
SELECT * FROM 'https://huggingface.co/datasets/izumi-lab/wikipedia-ja-20230720/resolve/main/data/train-00000-of-00008-ff339eae82f3a35d.parquet?download=true' LIMIT 10;