Expert Units in Conditioning Large Language Models

LLMs acquire a vast amount of information from pre-training data. However, the mechanisms by which LLMs store this information remain unclear. In this page, I will review the paper “Self-condition...

Jan 20, 2025 BLOG

エンジニアならキーボードだけでPC操作したいよね ~Vim系ツール~

半年前に分割キーボードを買い，以前よりだいぶ楽にタイピングができるようになりました．すると不思議なことに，人間はもっと楽になりたくなるもので，キーボードからトラックボールへの腕の移動すらも面倒に感じるようになってしまいました．そうなったら「キーボードだけでPCを操作できるようにするしかない！」と思って調べてみたら，”Vim”を見つけました．今回は”Vim”やその周辺ツールを使用してPC...

Nov 17, 2024 BLOG

FlashAttentionってなんだっけ

NeurIPS 2022 で発表された「FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness」の FlashAttention の計算方法をもう一度確認する． FlashAttention: Fast and Memory-Efficient Exact Attention with IO-A...

Jul 30, 2024 BLOG

gitのコミットメッセージを生成AIに作成させる

最近，きちんとしたコミットメッセージを書くことの重要性を感じたけど，毎回書くのが面倒だったので，AI に生成させることにした．コミットメッセージ自動生成ツール commitgen の改良背景個人で開発や研究を行っていると，コミットメッセージをいちいち書くのが面倒になってしまって，「fix」だけになってしまうことはよくあると思います．しかし，誰しもいつかはチームで開発を行うことに...

Jul 18, 2024 BLOG

論文読み「ReFT- Representation Finetuning for Language Models」

プチ話題になったReFTの論文読んでみた． ReFT: Representation Finetuning for Language Models 忙しい人向けにこの論文がやったことは主に3つです． LoRAなどの他のParameter Efficient FineTuning（PEFT）と違って，モデルの重みではなく表現に介入することを考えたよその表現に介入する手法として...

May 29, 2024 BLOG

分割キーボードのすゝめ

分割キーボードを購入して1ヶ月が経過したので，長期レビュー分割キーボードKeychron Q11の長期レビュー分割キーボードの購入を決めた背景就職活動の一環で長期インターンを始め，週2でインターン，残りは研究のように忙しくなり，PCをいじる時間が増えたとき，肩こりや腰の痛みにとても悩まされた．このままでは将来就職してもっと忙しくなったときに耐えられない！と思い，デスク環境を整える...

May 26, 2024 BLOG

論文読み「Why do Nearest Neighbor Language Models Work?」

ICML 2023で発表された「Why do Nearest Neighbor Language Models Work?」のまとめ Why do Nearest Neighbor Language Models Work? 概要この論文でやったことは主に3つ Retrieval-Augumented Language Models，特にkNN-LM[1]がなぜ，訓練に用いたデー...

Apr 3, 2024 BLOG

NLP2024振り返り

神戸にて2024/03/11~15で開催された言語処理学会第30回年次大会（NLP2024）にインターン経由で参加させてもらったので，特に印象的だった発表を振り返る． NLP2024振り返り [C1-5] レビューの多角的な有用性判別のための分析と分類モデルの構築自分の発表の最中だったので聴講できていなかったが，「一時的に利用する商品」と「日常的に利用する商品」でレビュー対象を分類し...

Mar 20, 2024 BLOG

Pytestの使い方

Pytestを使ってみたかったので，使ってみた Pytestの使い方今まで研究で実験を行っている中で，テストコードを書いたことがなく，インターンを通じてテストコードの重要を思い知らされたので，これを機に使えるようになっておきたい．書き方適当に四則演算をする関数をoperation.pyに用意する． def add(a, b): return a + b def sub(...

Feb 25, 2024 MEMO

Pytorchのgatherの挙動

インターンで実装を行っているときに，torchのgatherの挙動で少し困ったのでまとめてみた． Pytorchのgatherの挙動サンプルコードまずサンプルコードとその出力結果を確認する import torch input = torch.tensor([ [1, 2, 3], [4, 5, 6], [7, 8, 9] ]) indices = torch....

Feb 23, 2024 MEMO