LLMマニフェスト、2026年3月(変更の可能性あり)
AIに興味はない。アウトカムに興味がある。エージェント、自律性、そしてボトルネックが実際にどこに移ったかについての、プロセスオーナーの信念。
Web開発、デザイン、技術についての考察。
AIに興味はない。アウトカムに興味がある。エージェント、自律性、そしてボトルネックが実際にどこに移ったかについての、プロセスオーナーの信念。
4台のマシンでAlt-Tabしながらtmuxセッションをこなすのがしんどくなって、ブラウザベースのSSHターミナルマネージャーを作った。そこにLLMエージェントを流し始めたら、使い方が変わった。
5つのSQLiteバックエンドPythonライブラリを公開APIだけで統合テストした記録。16のバグを発見・修正。ライブラリの境界がカオス下で実際どう見えるか。
パート1〜4はORMオーバーヘッドを計測した — sqlerとraw sqlite、両方ともJSONストレージ。本稿は別の問いを立てる。ドキュメント指向アーキテクチャ自体のコストは何か。等値フィルタ: 11x。集計: 9.5x。JSONLエクスポート: 1.0x。
qler対Celery+Redis — 7シナリオ、3ラウンド、そして正直に自分たちをベンチマークして発見した恥ずかしい12xのギャップ。
1,725件の計測、4スケール、10.5時間。バルクインサート0.89x(生のsqliteより速い)。FTSランク1.00x。他は全て≤1.15x。1.34xの縮小不能なギャップが1つ。
FTS再構築が4.65x→1.03x(ベンチマークのバグ)。バルクインサートが1.9x→0.89x(生のsqliteより速い)。FTSランク検索が1.50x→1.00x(JOIN一本)。msgspecで5.1xのハイドレーション。
公平なベンチマークが実際のボトルネックを示した: Pydantic検証が1,600ns/行。エクスポートでバイパスすると2.8xのギャップがパリティに落ちた。msgspecの問いは未解決のまま。
22のベンチマークを書いた。全て自分に有利なバイアスがかかっていた。敵対的監査で18の公平性問題が見つかった。修正後は全ての数値が悪化したが、使える数値になった。
エージェントにコードを書かせるのではなく、エージェントが使うために設計されたソフトウェアとは何か。五つのツール、一つのパターン、そしてLLMインフラへのファクトリー視点。